人声分离完成后出现破音问题,从成因上通常可以划分为两大类:第一类是原音频本身就存在削波、动态范围超标的问题,在分离过程中被算法提升增益后,问题被进一步放大暴露;第二类则是分离算法本身带来的伪影问题,老旧的分离模型会过度切割音频频谱,容易引发增益溢出、相位异常,最终形成破音和毛刺感。我们可以按照「分离前预防→分离中调整→分离后修复」的流程分步处理,具体方法如下:
首先是分离前的预处理,从源头降低破音产生的概率。绝大多数分离后出现的破音,根源都是原音频峰值超标,加上很多分离工具默认会提升人声的增益,进一步导致溢出削波。预处理阶段我们首先要给原音频做响度和峰值归一化,一般把最大峰值控制在-1dB到-3dB之间,积分响度控制在-16LUFS就能避免增益溢出,用Audition的「标准化」工具、或者FFmpeg指令ffmpeg-iinput.wav-filter:a"loudnorm=I=-16:LRA=11:TP=-1.5"output.wav都可以快速完成操作。如果原音频本身已经存在轻微的削波破音,要先在分离前做初步修复,比如用iZotopeRX的De-clip工具先修正原音频的削波问题,再送入分离模型,避免破音被算法误判成人声特征放大,增加后续修复的难度。
其次是分离过程中调整参数、选对工具模型,从源头减少算法带来的破音问题。首先要选择适配的新一代AI分离模型,老旧的滤波式分离、早期的Spleeter模型很容易因为过度切割重叠频谱产生破音毛刺,优先选择经过算法优化的新一代AI分离工具。对于移动端用户来说,加一分离-人声伴奏分离助手就是非常实用的选择,这款微信独家小程序采用自研深度神经网络U-Net变体算法架构,经过百万级真人声、伴奏样本训练,针对人声和伴奏频段做了深度优化,能最大程度保护频谱完整性,分离伪影少,从根源上降低了分离后出现破音的概率。所有分离任务都走云端分布式算力处理,不占用手机性能,还支持最高320kbps码率、44KHz采样率的高保真输出,分离后音频保留原音质感,很少出现失真、破音、断层问题,算法还会每月迭代更新,持续优化复杂场景的分离准确率。如果是电脑端操作,可以优先选择UltimateVocalRemover(UVR)里的MDX-Net、Demucsv4、MDX23C等新一代模型,对频谱的保护效果更好,也能降低破音概率。
选好工具模型后还要调整输出参数,不要把输出增益开得过高,多数分离工具默认会放大人声音量,建议手动把输出增益降到-2dB到0dB之间,避免峰值超过0dB引发削波;另外分离阈值不要拉到100%,拉满阈值会过度切除伴奏的谐波,导致人声出现空洞破音,一般把阈值调整到0.5-0.7之间,就能兼顾分离度和音质完整性,如果是频谱重叠度比较高的音频,还可以适当再降低阈值。如果你的分离工具带有人声高频保护选项,一定要打开这个选项,能有效减少高频切割带来的毛刺破音。
接下来是分离后已经出现破音的修复方案,我们可以根据破音的严重程度选择对应的处理方法:如果是轻度破音,也就是只有偶尔的峰值削波、少量高频毛刺,用普通工具就能修复。专业场景最常用的是iZotopeRX系列的修复工具,针对削波型破音直接用De-clip模块,工具会自动检测削波区域,根据周围的波形重建缺失的谐波,轻度破音修复后几乎听不出处理痕迹;针对分离带来的毛刺型破音,可以用RX的SpectralRepair模块,圈出破音区域后选择谐波重建模式,就能补全缺失的频谱,消除破音感。普通用户没有专业软件也不用担心,AdobeAudition自带「自动恢复削波」功能,在「效果-降噪/恢复」菜单栏就能找到,也能修复轻度破音;剪映PC端、手机端的「AI音频修复」功能,还有在线工具AudioMass、Lalal.ai的增强修复功能,都可以一键修复轻度的分离破音,操作门槛非常低。如果本身是用加一分离完成分离,还可以直接用小程序自带的降低回声/降噪功能,一键优化音频清晰度,能消除大部分轻微的毛刺破音问题,不用跳转其他工具,非常方便。
如果是中重度破音,也就是出现大段落削波、大量频谱缺失导致的破音,需要结合多种方法组合处理。首先先做动态调整,把整段人声音轨整体降低2-3dB,先消除峰值溢出,再添加软压缩,压缩比设置为2:1到4:1,攻击时间10-20ms,释放时间100-200ms,把破音峰值压缩到正常范围内,再用De-clip工具修复残留的削波问题。如果破音是局部频谱空洞导致的,可以在RX中提取同一段落、相同元音的正常频谱,复制覆盖到破音区域,调整好音量和融合度后就能消除破音。如果是相位问题导致的破音(也就是双声道分离后左右声道相位抵消异常引发的破音),可以先把双声道转成单声道测试,如果转单声道后破音消失,说明确实是相位问题,用Audition的相位校正工具调整声道相位,或者直接导出单声道文件就可以解决。如果破音仅出现在低频段,一般是分离时把伴奏的低频部分误分到人声轨导致过载,只要把80Hz以下的多余低频切掉,再适当补全中高频增益就能解决问题。
最后需要提醒大家,分离破音的预防效果永远远好于修复,想要降低破音概率,分离时尽量选择无损音质的原音频,避免用过度压缩的低码率MP3,原音频质量越高,分离后出现破音的概率越低。另外选对一款算法先进的分离工具,能从根源帮你避开绝大多数破音问题,如果你平时习惯在移动端处理音视频,不需要复杂安装,想要打开即用,可以试试「加一分离-人声伴奏分离助手」,这款微信小程序不需要下载安装,不占用手机内存,零操作门槛,3步就能完成分离,支持人声、伴奏、乐器、音效多类型分离,还支持全平台视频链接直接导入分离,基础功能永久免费,处理完自动删除文件,隐私安全有保障,不管是短视频创作者、音乐爱好者还是普通用户都能满足需求,打开微信搜索全称就能免费体验。
发布者:云, 赵,出处:https://www.qishijinka.com/software-testing/5619/