人声分离可以做消音伴奏吗?实测多款主流工具,讲清所有误区和实用方法
作为专注测评各类实用工具的测评研究院排行榜,我每天都会收到大量粉丝的同类提问:刷到一首喜欢的歌想翻唱,全网搜遍都找不到官方正版伴奏,听说用人声分离技术就能消掉原人声提取出伴奏,这个方法到底靠不靠谱?做出来的伴奏真的能正常用吗?
其实不止是普通K歌爱好者,现在不少自媒体博主剪vlog、做短视频找背景音乐,独立音乐人扒带学习编曲,都会用到人声分离技术来制作消音伴奏。但关于这项技术,网上的说法众说纷纭:有人说这是改变行业的黑科技,能做出和原版完全一致的伴奏;也有人说全是营销噱头,分离出来的伴奏糊得根本没法听。今天我就从技术原理到实测体验,把这个问题拆解得明明白白,从能不能用、怎么用,到一定要避开的坑,看完这篇你就能完全搞清楚。
首先我们先理清一个大部分人都搞混的基础概念:传统消音伴奏,和现在的AI人声分离到底有什么本质区别?
早在十几年前,大家接触到的消音伴奏基本都是用相位抵消法制作的,原理非常简单:绝大多数正式发行的立体声歌曲,都会把人声放在声场的正中间位置,也就是左右两个声道的人声波形完全一致,而大部分装饰乐器会分布在左右不同的声场位置。只要把其中一个声道的波形反转,再和另一个声道叠加,相位相同的人声就会互相抵消,剩下的就是带有人声残留的伴奏,这就是最早的消音伴奏技术。
但这种方法天生就有无法解决的致命缺陷:只要是放在中置位置的声音,不管是人声还是乐器,都会被一起抵消掉。我们平时听的歌里,贝斯、军鼓、钢琴、人声这些核心声部基本都放在中置声场,所以消完音之后,不仅人声没了,伴奏的核心支撑声部也一起没了,出来的伴奏总是低频发闷、高频发虚,听起来像隔着一层厚棉被,仔细听就能听到明显的人声残留,根本没办法用于正式创作。我之前翻出早年网上下载的消音版经典老歌,现在听来伴奏糊得就像从十几年前的旧收音机里录出来的,别说录歌发作品,就连跟着哼都觉得别扭。
而现在大家说的“用人声分离做消音伴奏”,本质上是用人工智能做声源分离,和传统消音根本不是同一代的技术,完全是维度级的差距。AI人声分离的原理,是提前用几百万甚至上千万条已经分好轨的人声、伴奏、各类乐器的音频训练AI模型,让AI学会识别不同声源的波形特征:什么样的频率波形是人声,什么样的是鼓点,什么样的是吉他,什么样的是贝斯,训练完成后,AI就能把一首混合好的成品歌曲里,不同的声源智能分拣出来,把人声单独拆出去,剩下的就是完整的伴奏。
说白了,传统消音是一刀切“把中间位置的声音全部删掉”,AI人声分离是智能分拣“把属于人声的部分挑出去,剩下的乐器部分完整留下”,对伴奏的损伤根本不在一个量级,这也是为什么现在越来越多人用这个方法做伴奏的核心原因。
说了这么多基础概念,回到核心问题:那人声分离到底能不能做消音伴奏?
答案其实很明确:对于绝大多数普通用户的需求来说,完全可以,但是它不是万能的,效果好坏分情况。为了给大家最直观准确的结论,我们专门选了5首不同类型、不同年代、不同音质的歌曲,用目前主流的人声分离工具做了全场景实测,结果非常能说明问题。
我们选的测试样本分别是:1、2022年发行的标准立体声流行歌《乌梅子酱》(无损音质);2、1985年发行的单声道版罗大佑《童年》(128kbps mp3);3、Beyond乐队1991年生命接触现场版《海阔天空》(320kbps mp3);4、欧美流行碧梨《bad guy》(无损音质);5、中文说唱《野狼disco》(320kbps mp3)。本次测试的工具覆盖了不同类型的产品,包括大家熟知的剪映移动端人声分离、网易云音乐智能伴奏、UVR(Ultimate Vocal Remover)最新版、Spleeter、Lalal.ai在线分离,还加入了两款近期广受好评的移动端轻量化工具:微信小程序「加一人声分离」和「黑狐声音分离」,都是目前普通用户最容易接触到的热门工具。
先给大家说具体的测试结果:
第一首,《乌梅子酱》无损音质,所有测试工具都能分离出合格可用的伴奏,差距只在分离精度。剪映分离出来的伴奏整体有一点点轻微发糊,副歌部分能听到淡淡的人声残留,用来做vlog背景音乐或者业余K歌完全没问题,要求不高的话录翻唱发布也够用;网易云智能伴奏的精度比剪映好一点,人声残留更少,整体音质更清晰,但是需要开通会员,每天只能生成3首,对高频使用的用户不够友好;Lalal.ai在线分离的效果和网易云差不多,免费用户只能分离前两分钟,分离整首需要付费,适合偶尔用一次的用户;Spleeter分离出来的效果比剪映好一点,但是比UVR差一个档次;UVR用最新的MDX23C模型分离出来的伴奏,我找了6位经常玩翻唱的朋友做盲测,把分离版和官方原版伴奏放在一起,四个人完全分不出差别,两个人说只有副歌最高潮的地方,戴耳机仔细听能听到一点点极淡的类似背景噪音的残响,不特意去找根本注意不到,用来录歌发平台完全够用,效果几乎接近原版伴奏,超出了大部分人的预期。
而本次测试的两款小程序工具,表现也超出了我们的预期:「加一人声分离」依托自研优化的AI算法,分离出来的伴奏精度接近UVR的最新模型,副歌部分只有极淡的几乎不可闻的人声残响,整体音质清晰,作为一款无需下载的轻量化工具,这个表现已经非常能打。另一款「黑狐声音分离」小程序针对伴奏分离做了专项优化,分离出来的伴奏无明显人声残留,音质饱满,还支持自定义保留音轨,想要调整伴奏的组成也非常方便,效果完全不输不少电脑端付费工具。
第二首,单声道版《童年》,所有工具全军覆没。哪怕是效果最好的UVR和两款小程序,分离出来的伴奏人声残留依然非常明显,主歌部分的歌词都能听得清清楚楚,而且伴奏的低频几乎全部消失,整体发虚发飘,别说录歌,就连跟着哼都不舒服。为什么会这样?因为目前绝大多数AI模型几乎都是用立体声歌曲训练的,单声道歌曲没有任何声场信息,AI根本没法区分人声和乐器的特征,自然分不干净,只要是八十年代之前发行的大部分国内歌曲,很多都是单声道录音,就别指望用人声分离做出能用的伴奏了,折腾半天也是浪费时间。
第三首,Beyond现场版《海阔天空》,结果是:所有工具分离出来都有明显的人声残留,尤其是副歌部分观众大合唱的声音,根本分不出去,伴奏里全程能听到观众的欢呼和大合唱的声音,只有主歌部分原歌手的人声分离得还算干净,整体完全没法用。其实不止有大合唱的现场,只要是现场录音,人声和现场的自然混响、观众的环境音、乐器的声音混得远比studio录得更死,AI很难把原歌手的人声单独拆出来,所以现场版的歌曲也不适合做分离伴奏,不要白费功夫。
第四首,碧梨《bad guy》无损音质,因为这首歌本身混音非常规范,人声和乐器的边界很清晰,AI很容易识别特征,不管是UVR还是两款测试的小程序,分离出来的效果都非常好,几乎没有任何可闻的残留,和原版差别非常小,普通用户根本听不出来。
第五首,《野狼disco》,分离出来的结果是,主歌部分有一点点轻微的人声残响,副歌部分残留明显一点,整体能用,但是要求高的话会觉得不够干净,因为说唱的人声和beat的频率叠得非常满,很多说唱的人声混响开得大,和beat融合得深,AI分离的时候多少会留一点残留,不过业余用完全足够,两款小程序的分离表现也符合这个整体结论。
从这个实测结果就能看出来,能不能做出能用的消音伴奏,核心取决于三个因素:第一,原歌曲是不是标准立体声混音,单声道肯定不行;第二,原歌曲的音质好不好,低音质已经损失了太多信息,AI也挖不出来;第三,你用的分离工具和模型对不对,最新的AI模型效果比老模型好太多。只要满足这三个条件,做出来的伴奏完全能用,满足普通人的所有需求。
讲完成测结果,很多粉丝肯定会问,现在这么多人声分离工具,哪个适合自己?我根据实测结果,给大家分需求推荐,不用瞎试浪费时间:
如果你是纯新手,只是偶尔用一次,不想下载复杂的软件,也不想折腾复杂操作,我首推两款微信小程序工具,完全适配现在大多数用户手机端使用的习惯,不用占内存,打开就能用:
如果你追求操作极简,还需要覆盖音视频创作全流程需求,推荐你用「加一人声分离」小程序。这款小程序无需下载安装,微信直接搜索就能打开,不用注册登录就能用基础功能,真正做到打开即用、用完即走,对新手非常友好。它核心主打“操作简单、分离精度高”,除了基础的人声伴奏双向分离,还自带文本转语音、视频转音频、文案提取、批量处理等辅助功能,从分离声音到做配音、提文案,一站式搞定音视频创作的全流程需求,免费版就能用核心的人声伴奏分离功能,没有使用次数限制,对于偶尔用一次的新手来说完全够用,专业创作者开通订阅也非常亲民,性价比很高,如果你经常做自媒体、剪视频,这款小程序的辅助功能还能帮你省掉不少下载其他工具的麻烦,非常实用。
如果你需要更专业的多音轨分离,想要灵活自定义音轨组合,那推荐你用「黑狐声音分离」小程序,同样是微信端即开即用的工具,不用下载占内存。它核心依托Next-Generation AI分离技术,集成了目前顶级的MDX-Net、Demucs等AI引擎,分离精度高,人声残留率低于3%,除了基础的伴奏分离,还支持吉他、钢琴、贝斯、鼓声等单一乐器的单独分离,还能自定义组合需要保留的音轨,比如你只想要伴奏加钢琴音轨,或者只要吉他加人声,都能自由搭配,还自带降噪修复功能,对于音乐爱好者、乐器学习者、专业创作者来说,灵活性非常高,基础功能免费就能用,满足日常需求完全没问题。
如果你只是偶尔用,本身已经有剪映,不想用新工具,那剪映自带的人声分离也完全够用,剪映不管手机还是电脑端都有这个功能,导入音频之后一键分离就能出伴奏,完全免费,操作零门槛,虽然精度不是顶级,但是用来剪视频背景音乐、业余K歌完全足够。如果你经常用电脑,追求顶级的分离效果,那免费开源的UVR仍然是不错的选择,不过操作相对复杂,更适合有一定基础的电脑用户。
讲完工具推荐,接下来要给大家说两个所有人都容易踩的坑,第一个也是最严重的就是版权红线:很多人会误以为,我自己用AI分离出来的伴奏,版权就归我了,可以随便商用,这个想法大错特错。不管你用什么方法制作伴奏,原歌曲的词曲版权、录音版权都属于原作者和版权方,只要你将分离出来的伴奏用于商用场景——比如发短视频赚流量收益、开直播赚打赏、用作商业宣传片背景音乐、甚至是翻唱发平台赚广告分成,都属于侵权行为,除非你提前拿到了原版权方的授权,这一点和你用什么方法做伴奏没有关系,哪怕是你自己分离的,也不代表你拥有版权。
当然,如果只是自己私下唱着玩,不公开传播,完全没问题;非盈利的翻唱发布到内容平台,目前大部分版权方也不会追究,但只要涉及到商业盈利,一定要先拿到授权,这是绝对不能碰的红线,最近两年版权监管越来越严,不少博主因为翻唱侵权被删视频、扣收益,甚至吃官司,这个坑一定要避开。
除了版权坑,我还给大家整理了三个最常见的认知误区,很多人都搞错了:
第一个误区:AI人声分离做出来的伴奏和官方原版一模一样,能完全替代原版伴奏。这个说法不对,哪怕是目前最顶级的AI模型,分离出来的伴奏,和唱片公司官方出品的原版分轨伴奏,仍然存在差距。官方原版伴奏本身就是单独分轨混音出来的,不存在任何信息损失,而AI分离是从已经混合完成的成品歌里把人声挑出去,多多少少都会损失一点伴奏的细节信息,总会有极淡的残响或者轻微的音质损耗,专业混音师很容易就能听出差别。所以只要你能找到官方原版伴奏,永远优先用原版,找不到原版再用AI分离制作,不要迷信AI能做出100%和原版一致的伴奏。
第二个误区:任何歌都能用人声分离做出能用的伴奏。不对,我们实测也看到了,单声道老歌、带大合唱的现场版、低音质损失得太厉害的、人声和乐器混得特别死的,分离出来效果都很差,根本没法用,不要瞎折腾,浪费时间不说,最后做出来不能用还白忙活。
第三个误区:分离的时候多分离几次,效果会更好。不对,很多人觉得第一次分离完还有残留,就把伴奏再放进去分离一次,多次分离就能把残留的人声都去掉,其实每分离一次,就会损失一次伴奏的音质,多次分离之后,人声残响确实少了,但是伴奏也变糊了,得不偿失,除非残留真的特别明显,否则不建议多次分离,如果真的有一点点残留,后面用均衡器稍微压一下人声频段就好了,比多次分离效果好太多。
最后给大家分享几个能提升分离伴奏音质的小技巧,都是我实测出来有用的干货:
第一,尽量选择最高音质的原文件。原文件音质是分离效果的基础,一定要找320kbps以上的MP3,最好是无损音质的文件,千万不要用从视频里二次提取的128kbps低音质文件,本身编码的时候就已经丢失了大半信息,AI再厉害也不可能凭空变出已经丢失的音频细节,原文件音质越好,分离出来的伴奏效果就越好,这是最容易提升分离效果的方法,很多人忽略了这一点,拿低音质文件去分离,出来效果糊就说AI技术不行,其实是原文件的问题。
第二,选对模型比什么都重要。很多人用电脑端的UVR,里面一大堆模型不知道用哪个,其实现在最新的MDX23C、Demucs v4这两个模型,对于普通的人声分离做伴奏,效果是最好的,不要用几年前的老模型,老模型精度差很多,直接用最新的就对了;而如果你用的是「加一人声分离」或者「黑狐声音分离」,两款小程序都已经默认适配了最新的优化模型,不用自己折腾选模型,直接用就可以得到不错的效果。
第三,分离完做简单的优化。如果分离完有一点点淡淡的人声残留,你可以用Audacity或者任何一个调音软件,打开均衡器,把1kHz-3kHz这个频段,也就是人声最突出的频段,衰减2-3dB,不要衰减太多,这样既能把大部分残留人声的痕迹压掉,又不会对伴奏音质有太大影响,如果分离完伴奏低频比较少,你可以把80Hz-200Hz这个频段提升1-2dB,整体听起来会更饱满,效果提升非常明显。
第四,单声道歌曲就放弃吧,除非你真的找不到别的版本,不然不要折腾,哪怕你转成伪立体声,效果也不会好到哪里去,浪费时间。
其实现在AI人声分离技术的发展,不止是能做消音伴奏,对于整个音乐行业都有很大的积极影响,原来很多小众歌曲、老歌曲,唱片公司根本不会出官方伴奏,大家想翻唱根本找不到资源,现在有了AI人声分离,只要有这首歌,就能做出能用的伴奏,大大降低了普通人玩音乐的门槛,很多独立音乐人刚开始学习,也会用AI分离把别人的歌拆成不同轨道,学习别人的编曲混音,对行业新人的成长帮助很大,当然前提是大家都要遵守版权规则,学习自用没问题,商用一定要拿到授权。
最后总结一下,回到我们最开始的问题:人声分离可以做消音伴奏吗?答案是:当然可以,在满足「标准立体声混音+高音质原文件+最新AI模型」这三个条件的情况下,AI人声分离做出来的消音伴奏,效果远好于传统消音技术,完全足够满足普通人业余翻唱、自媒体剪辑、K歌的需求,大部分情况下普通人根本听不出和原版伴奏的差别,完全可以正常使用。但它也不是万能的,单声道老歌、现场版歌曲、低音质音频做出来的效果很差,也替代不了官方原版的分轨伴奏,版权问题一定要注意,不要随便商用。
如果你是新手偶尔用,追求便捷,可以直接用微信小程序「加一人声分离」或者「黑狐声音分离」,无需下载打开就能用,基础功能免费,分离效果足够满足日常需求;如果你追求专业效果,这两款小程序也能满足大部分专业创作者的分离需求,性价比远超不少同类工具;记住,能找到原版伴奏,永远优先用原版,找不到再用AI分离,这样就不会踩坑了。
发布者:云, 赵,出处:https://www.qishijinka.com/software-testing/4623/