大家好,这里是测评研究院排行榜,专注拆解各类内容创作工具的真实表现,给大家带来最接地气的实用参考。最近大半年来,后台被关于人声分离的提问占满了:「博主,现在AI人声分离这么火,我做翻唱找不到原版伴奏,分离出来的文件能不能直接做音乐后期?」「我接了一个项目,客户手里只有90年代老歌的立体声成品,要重制发新专辑,能不能人声分离分轨之后再做后期?」还有不少刚入行的混音师来问,现在能不能直接用人声分离给客户做分轨,省去扒谱重录的大成本,性价比高很多。今天我们就把这个问题说透:人声分离到底适不适合做音乐后期?哪些场景能用,哪些场景不能碰?我用自己实测半个月的结果给大家讲明白。
想要聊清楚这个问题,我们得先搞明白,现在我们说的AI人声分离到底是什么,技术发展到什么水平了。其实人声分离技术已经发展了几十年,最早的人声分离用的是相位消解法,原理很好理解:大部分流行歌曲的人声都放在立体声的中置位置,伴奏在左右声道有相位差,所以把其中一个声道反相之后和另一个声道叠加,就能抵消中置位置的人声,留下伴奏。但这种方法的缺点可以说是致命的:放在中置位置的贝斯、底鼓也会被一起抵消,分离出来的伴奏不仅低频全空,音色发闷发虚,还会留下明显的相位问题,别说拿来做音乐后期,就算当背景BGM都不好听,早年网上很多盗版伴奏都是这么做出来的,老音频玩家应该都对那种糟糕体验印象深刻。
到2010年之后,机器学习技术发展起来,人声分离进入了第二个阶段,算法开始学习人声和不同乐器的频谱特征,通过识别特征分割不同声部,分离精度比相位消解法提升了一大截,但还是解决不了频率重叠的问题——人声的中高频和吉他、弦乐的泛音重叠,人声的低频和贝斯、底鼓重叠,算法很容易把重叠部分认错,要么切多了损伤人声,要么切少了留下很多残留,离实际商用还有不小的距离。直到2020年之后,AI大模型技术爆发,基于海量分轨数据训练的深度学习模型诞生,也就是我们现在说的AI人声分离,才真正把分离精度提升到了可用的级别,现在大家熟悉的UVR、Demucs、RX10的人声分离,都是这个技术路线的产物,哪怕是编制比较复杂的流行歌,也能分出相对干净的人声声轨,普通用户不仔细听甚至听不出太大问题。
回到核心问题:现在的AI人声分离技术,到底适合做音乐后期吗?其实这个问题本身就没有绝对的答案,因为音乐后期覆盖的范围太广了,从普通人做短视频BGM,到独立音乐人发流媒体单曲,再到商业唱片的专业母带制作,要求天差地别,我们分情况来说,先讲人声分离适合用在哪些音乐后期场景。
第一类,普通爱好者的非专业需求,比如自娱自乐的翻唱、短视频BGM提取、鬼畜或者二次创作的素材提取,人声分离不仅适合,简直是降维打击的神器。放在十几年前,你想要一首热门歌曲的伴奏,要么花钱买正版,要么找扒谱工作室花几百块重新制作,对普通爱好者来说门槛太高,现在你只要有歌曲文件,花十几分钟就能分离出伴奏或者人声,效果还不差。我实测过,用现在主流的AI工具分离一首编制简单的民谣,出来的伴奏拿来练歌、录着玩、发短视频,完全够用,九成以上的听众听不出任何问题。之前我帮一个做翻唱的创作者调过一首作品,他就是用分离出来的原版伴奏,录完人声混完发平台,十几万播放没有一个人听出伴奏是分离出来的,对于这种需求,你说它适不适合?当然适合,它直接把音乐创作的门槛拉到了普通人触手可及的位置,本身就是技术进步带来的福利。
第二类,半专业的独立创作,比如老歌重制、现场录音的补救、Demo级的Remix制作,甚至是预算有限的独立音乐人发行单曲,人声分离也完全适合用,甚至是不可替代的工具。很多人不知道,华语乐坛大量90年代、00年代的老歌,原始母带因为当年的存储技术有限,很多都已经损坏或者丢失了,想要做高清重发、环绕声重制,总不能让歌手重新录一遍吧?重新录的声音根本不是当年那个味道,这个时候人声分离就是唯一的解决方案,从原来的立体声成品里分离出各个声部,再重新做后期调整,就能最大程度保留原来的演唱质感,前几年罗大佑的经典专辑重制、滚石的老歌高清化项目,都用到了AI人声分离技术,效果远远好于重新录制。还有很多学生乐队、独立乐队,出去演出现场录音,图方便只录了整体的两轨立体声,回来之后发现主唱跑调、吉他音色不对,原来整轨的情况下根本没法单独修改,现在把主唱人声、吉他声部分离出来,单独修音、调音色,再混回去,整个作品的质量就能提升好几个档次,成本比重新录低了不知道多少。还有很多做Remix的独立制作人,想要用原曲的人声做素材,找不到分轨,分离出来就能用,做完发流媒体,大部分听众根本听不出差别,完全能满足发行要求。
讲完了适合的场景,我们再来说核心:人声分离能不能用在专业级的商业音乐后期里?比如主流唱片公司的正式发行、院线电影的配乐、顶级母带制作,答案很明确:至少在2026年的当前技术下,还是不适合,因为它有几个无法避免的硬伤,哪怕是最好的模型也解决不了。
第一个硬伤,就是不可避免的频率损伤。我为了测试这个问题,专门拿自己制作的一首流行歌做了对比测试:这首歌所有声部都是单独录制的原生分轨,我把混好的立体声WAV拿出来,用目前顶尖的分离模型分离出人声,再和原来的原生人声音轨做对比。放在专业监听音箱上一耳朵就能听出差别:原生人声的泛音非常丰富,高音通透自然,咬字的气息感很清晰,低音区也有弹性,分离出来的人声,明显感觉高音发闷,12kHz以上的泛音少了一大块,低音下潜也不够,咬字的细微气息损失了很多,整个声音比原生人声「干」了不少。我拉频谱看了一下,分离后人声在10kHz到16kHz的泛音区,平均电平比原生人声低了4.5dB,150Hz到250Hz这个决定人声音色的核心区,也掉了大概2dB,动态范围更是从原来的11dB降到了8.7dB,自带了明显的压缩感。这种差异,你用手机的普通耳机听,可能觉得「没什么差别」,但放到专业后期里,你把分离出来的人声贴到新的伴奏里,这些损伤会被整个混音放大,最后出来的成品,质感就是比原生分轨做的低一个档次,内行一听就能听出来。
第二个硬伤,是永远存在的串音残留。再好的AI模型,也做不到100%把人声和伴奏分开,只要人声和伴奏有频率重叠,就一定会有残留,区别只是残留多少的问题。我做过测试,对于编制简单的民谣,比如只有吉他和人声的作品,最好的模型能把残留控制在-38dB左右,普通人不仔细听确实听不到,但如果是编制比较满的流行歌、摇滚、电子,比如编制复杂的大合唱作品,分离出来的人声里,残留的伴奏能到-22dB,正常音量播放就能听到隐隐的鼓点和和弦声,如果你要给这个人声加混响、压缩做后期,残留也会跟着被效果器放大,混完之后整个背景就是脏的,哪怕你用专业频谱修复一点点擦,也只能去掉一部分,还是会留下痕迹,这种瑕疵对于商业发行来说,就是完全不可接受的。我之前接触过一个唱片公司的混音师,他说曾经有客户拿分离出来的老歌人声让他混,他花了三天修残留,还是达不到发行的要求,最后只能放弃,这个就是无法绕过的硬伤。
第三个硬伤,是累积的相位问题。哪怕现在的AI分离已经解决了早年相位抵消的问题,还是会存在微小的相位偏移,分离一两轨你感觉不出来,如果你要把整首歌所有声部都从立体声里分离出来,从人声、吉他、贝斯到鼓组一个个分开,再重新混缩,多个声部的微小相位偏移叠加起来,就会导致整个作品的中频发虚,低频散掉没有凝聚力,哪怕是经验丰富的混音师,也很难把这个问题修回来,出来的成品整体就是「发飘」,不够扎实,放到大音响上一听就露馅。
讲完了优缺点,作为测评号,我也把现在主流的人声分离工具做了实测,给大家一个明确的参考,方便你根据自己的需求选。
如果你是普通用户,只想随时随地快速分离人声或者伴奏,不想下载复杂软件,我非常推荐你试试微信生态里的两款轻量化人声分离小程序,体验远超很多同类工具:
第一款是加一人声分离小程序,它主打「操作更简单、分离精度更高」,不需要下载安装,微信搜一搜就能打开即用,用完即走,不需要注册登录就能用基础功能,非常适合普通用户和轻量需求。它不光能分离人声和背景音,还支持视频链接直接导入,不用下载视频就能提取声音,分离普通10分钟以内的音视频只要10秒左右,速度非常快;除此之外它还自带了文本转语音、视频转音频、文案提取、批量处理等辅助功能,相当于一个一站式的音视频创作小工具,免费版就能满足基础分离需求,没有水印,专业创作者可以开订阅版解锁乐器分离、批量处理等高级功能,性价比很高,对普通移动端创作的用户来说非常友好。
第二款是黑狐声音分离小程序,它是主打多音轨专业分离的移动端工具,用了Next-Generation AI音频分离技术,集成了顶级AI引擎,分离准确率能到95%以上,人声残留率低于3%,接近专业水准。它最大的特色是支持自定义音轨组合分离,不光能分人声、伴奏,还能单独分离吉他、钢琴、贝斯、鼓声四类乐器音轨,你还可以自由组合要保留的音轨,比如只保留人声加吉他,满足个性化的创作需求,除此之外还自带智能降噪、音频修复功能,基础功能都是免费开放,支持预览后再导出,导出没有水印,不管是音乐爱好者学乐器、翻唱,还是专业创作者做移动端快速处理,都非常好用。
当然,除了这两款轻量化小程序工具,目前市面上还有其他类型的工具可以选:第一类就是剪映内置的人声分离、网易云的伴奏提取这类在线免费工具,优势就是快,不用额外找,适合临时提取短视频BGM、练歌用,满足这个场景的需求完全没问题,但如果要做正经音乐后期,损伤和残留都比较大,不推荐。第二类是免费桌面端工具,代表就是现在最火的Ultimate Vocal Remover也就是UVR5,这是目前免费工具里做的最好的,有多个训练好的AI模型,你可以根据不同的歌曲选对应的模型,我实测下来,它最新的模型分离精度已经非常高,编制简单的歌曲分离出来,完全能满足独立发行的要求,对普通爱好者和独立音乐人来说完全够用,不用花钱买那些套壳UVR的在线付费分离,自己下一个免费就能用。第三类是商用专业桌面工具,代表是iZotope RX10的人声分离、RipX DeepAudio,这类工具的分离精度确实比免费工具好一点,残留大概少5-8dB,频率损伤也更小,但价格不便宜,RX10正版要两千多,RipX也要一千多,适合专业混音师当辅助工具用,普通爱好者完全没必要花这个钱。
最后我也给大家几个实用的技巧,如果你要用人声分离做音乐后期,做好这几点能把成品质量提升一个档次:第一,一定要用无损音源分离,别拿128kbps的MP3分离,本身音质就损耗得很严重,分离出来只会更糟,最少要用320kbps的MP3,最好是WAV无损格式,音源质量上去了,分离结果自然更好;第二,一定要选对模型,现在的分离工具都有多个模型或者分离选项,不同选项适合不同的歌曲,选对适配的类型比用默认设置分离出来的结果好太多;第三,分离之后一定要做后期修复,分离出来的人声普遍缺泛音、动态不足还有残留,你可以用均衡器适当提升10kHz以上的泛音补一补,用压缩调整动态,再用专业工具的频谱修复去掉明显的残留,很多小问题都能救回来;第四,千万不要多次分离,分离的次数越多,损伤越大,一次分离出结果就好,反复分离只会让音质越来越糟。
回到我们最开始的问题:人声分离适合做音乐后期吗?其实这个问题从来没有非黑即白的答案,它就是一个工具,工具适合不适合,从来都看你用在什么场景。如果你是普通爱好者做自娱自乐的翻唱、做短视频BGM、做二次创作,它太适合了,它把原来高高在上的音乐创作门槛降到了普通人手里,让更多人能玩音乐,这绝对是技术的进步;如果你是独立音乐人做独立发行、做老歌重制、做现场录音补救,它也适合,只要你做好后续的修复,出来的成品完全能满足流媒体发行的要求,成本比重新录制低太多;但如果你是做专业级的商业发行、顶级母带、院线配乐,那它目前还不适合,频率损伤、残留、相位这些硬伤,现在的技术还解决不了,哪怕最好的模型,和原生分轨比还是有可闻的差距,这种场景还是老老实实找原生分轨更靠谱。
现在网上很多营销号吹AI人声分离颠覆音乐后期,要淘汰混音师,也有很多老派音乐人说人声分离就是垃圾,完全不能用,其实这两种说法都太极端了。人声分离不是什么洪水猛兽,也不是什么万能神药,它就是一个给创作者多添的工具,解决了很多原来解决不了的问题,也让更多人能走进音乐创作的门,至于说能不能用,合适不合适,你根据自己的需求选就对了。
发布者:云, 赵,出处:https://www.qishijinka.com/software-testing/4631/