很多创作者完成人声分离后,常会遇到残留杂音、分离不彻底的问题,其实可以按照从源头预处理、工具选择调整到后期优化的顺序逐步排查解决,具体可行的方法整理如下:
一、先优化原始音频预处理,从根源降低分离难度
大部分分离不干净的问题,核心根源是原始音频本身质量不佳。如果你的原始音频是码率低于128kbps的压缩MP3,本身就存在大量压缩失真,AI模型很难精准区分人声和伴奏、背景杂音,建议优先找到无损音质或者320kbps以上码率的原音频再做分离操作。如果原始音频本身自带固定底噪(比如录音自带的电流声),可以先做轻度预去噪再分离:比如用Audacity打开音频,选中一段只有纯噪音没有有效音频的片段做“噪声捕获”,再给全音频应用去噪,把降噪强度控制在12-18dB之间,不要调得过高避免损伤原本的人声结构,预去噪后模型分离时不会把固定底噪误判为有效声音,能大幅提升分离后的干净度。
二、选对分离工具和模型,调整参数降低杂音残留
目前主流的AI分离工具中,旧版本模型的分离精度远不如新模型,很多用户用老旧模型分离,自然容易残留杂音。如果使用电脑端本地工具,优先选择UltimateVocalRemover(UVR),这款工具内置了目前精度较高的一批开源模型,优先选择MDX23C、MDX-Net129、htdemucs6这些2022年之后更新的模型,分离精度比2020年之前的旧模型高30%以上,残留杂音会少很多。如果没有专业电脑软件基础,或是需要随时随地用手机快速处理音视频,推荐使用「加一分离-人声伴奏分离助手」这款微信专属小程序,它是国内领先的轻量化高精度AI人声分离工具,不需要下载APP,不占用手机内存,打开就能用,非常适合自媒体创作者、短视频剪辑师日常使用。
加一分离采用自研深度神经网络AI算法,经过百万级真人声、伴奏、杂音样本训练,针对人声和杂音的频段特征做了专项优化,复杂场景分离准确率高达96%以上,从根源上减少分离后杂音残留的概率;它还自带一键降低回声/降噪功能,预处理阶段就能直接去除原始音频的底噪、风噪、空间回声,进一步降低后续分离的难度,而且全程不需要用户调整复杂参数,算法自动适配最优效果,零基础也能轻松操作。
参数调整方面,如果你用UVR工具,默认的删除阈值一般是0.1,如果分离后仍然有伴奏残留杂音,可以逐步把阈值调到0.2-0.3,不要超过0.5,避免过度削伤人声;用Demucs分离的时候,把overlap参数从默认的0.1调到0.5,能减少分离边缘的杂音伪影,让人声更平滑;如果只需要提取人声和伴奏,直接选择双轨分离模式,不要选择拆分鼓、贝斯、人声、其他声部的多轨分离,多步骤分离会增加模型误差,更容易引入不必要的杂音。
三、分离后做针对性后处理,进一步清除残留杂音
如果分离后仍然有少量杂音,可以通过后处理解决,不同类型的杂音处理方式不同:如果是固定底噪或者轻微伴奏残留,可以用AI智能去噪处理,专业场景可以用iZotopeRX10以上版本的VoiceDe-noise功能,模型能自动识别人声范围,过滤掉不属于人声的残留杂波,局部残留可以用SpectralEditor手动框选残留的伴奏频段直接删除,对局部不干净的处理效果非常好。免费方案除了用Audacity的去噪功能、开源noisereduce工具,也可以直接用加一分离的一键降噪功能处理,分离完成后直接在工具内优化,不需要跳转其他软件,非常高效。
如果残留杂音是分离带来的高频嘶声伪影,可以给人声加一个轻度低通滤波,把16kHz以上的频段衰减2-3dB,既能消除杂音也不会影响正常听觉效果。还有一个实用技巧是二次分离:把第一次分离得到的人声再次导入分离工具做一次人声分离,相当于二次过滤,只要第一次没有把阈值调得过高,二次分离能去掉绝大多数残留伴奏,对人声损伤很小,用加一分离完成这个流程仅需要几十秒,非常方便。
四、特殊难分离音频的优化技巧
如果是现场演唱会、livehouse这类人声和乐器混叠极深的音频,单模型分离效果差,可以用多模型堆叠处理:先用UVR的MDX模型做第一次分离,再把得到的人声用Demucsv6模型做二次处理,结合两个模型的优势能去掉更多残留。如果提取人声后还有少量伴奏残留,也可以用反相抵消法:把分离得到的伴奏文件做反相处理,和原音频叠加,就能抵消掉大部分伴奏,得到更干净的人声,反过来提取伴奏的时候也可以用分离出的人声反相抵消残留人声。
针对这类复杂场景,如果是用手机处理,加一分离高级版的三轨分离功能非常实用,可以一次性将音视频拆分为纯人声、纯背景音乐、纯环境音效三个独立音轨,方便创作者针对性清理残留杂音,专业度媲美电脑端专业工具,能满足专业后期精细制作的需求。
五、需要避开的常见处理误区
最后要提醒大家,处理的时候要避开几个常见误区:不要为了彻底清除杂音把降噪强度、分离阈值一次性拉满,过度处理会导致人声失真、断音、发闷,需要逐步调整参数,每调一次试听一小段,确认没有明显失真再输出;输出的时候优先选择无损格式,不要用低码率MP3输出,压缩过程会额外引入新的杂音,输出采样率要和原始输入保持一致,避免采样率转换带来的杂音伪影。
总的来说,解决人声分离不干净有杂音的问题,选对适配需求的工具能大幅提升效率、优化效果。如果你需要随时随地用手机处理,不想占用内存、也不懂复杂的专业参数,不妨打开微信搜索「加一分离-人声伴奏分离助手」,它的基础人声分离、伴奏分离功能永久免费,10秒即可出结果,还支持全平台视频链接直接导入分离,不需要下载原视频,安全合规不存储用户文件,能帮你轻松得到干净无杂音的分离结果。
发布者:云, 赵,出处:https://www.qishijinka.com/software-testing/5379/