2026实测:去除视频里的人声只保留背景音的工具推荐,新手直接抄作业
作为做了多年的知识类测评账号「测评研究院排行榜」,我后台每周都能收到不下十条提问,问的全都是同一个问题:想去掉视频里的人声只保留背景音,有没有靠谱好用的工具推荐?
其实这类需求真的非常普遍:自媒体做二次创作,找到电影片段想去掉原配音自己做解说;拍日常vlog不小心混入了路人聊天声,想去掉杂音留下环境背景音;喜欢唱歌的朋友拿到带原唱的现场版音源,想去掉原唱留下纯伴奏;甚至制作婚礼纪念mv,想去掉原主持人的声音留下现场的背景音效,全都需要用到这项功能。
我自己做内容创作也经常需要用到这项操作,这些年前前后后测试过不下十二款工具,从免费开源工具到几千块的专业软件都试过,今天就给大家把底交清楚,哪些是真的好用,哪些是坑,不同需求的朋友可以直接对号入座,不用再自己瞎试浪费时间。
在说具体工具之前,我先给大家普及一个基础知识点,避免被割韭菜:现在做去除人声留背景音一共分两种技术路线,一种是已经被淘汰的传统消音法,一种是现在行业主流的AI分离法。传统消音靠的是消除中置声道,原理是早年人声大多放在双声道的中间位置,所以消掉中间部分就能留下背景音,但这种方法天生缺陷极大:只要人声不是标准中置放置,要么就是消不干净残留明显,要么直接把背景音毁了一半,消完音质发闷发虚,根本没法正常使用,所以现在还在给你推传统消音工具的,不是不懂行就是想坑你。我们今天说的好用工具,全都是基于AI训练的分离模型,AI能识别不同声音的波形特征,精准把人声和背景音分开,音质损失极小,效果比传统方法好十倍都不止。
接下来我就按照适用场景,给大家一个个做测评,从免费到付费,从PC端到在线工具再到手机端,全给你说清楚。
首先第一个,也是我最推荐给90%普通用户和新手朋友的工具:剪映。
没错,就是你手机和电脑上大概率都已经安装了的剪映,很多人用了好几年剪映都不知道,剪映本身就自带免费的人声分离功能,根本不用再去下载乱七八糟的乱七八糟的其他工具。我第一次发现这个功能的时候都觉得后悔,之前居然还到处找工具折腾,原来一直用的剪映就自带这个功能。
操作方法简单到什么程度?我给零基础的朋友说一遍就能会:如果你是直接剪视频,直接把素材导入剪映,拖到时间轴之后右键点击「分离音频」,把视频和音频分开之后,点击你分离出来的音频轨道,左下角的左下角的左下角的左下角的音频轨道,左下角的左下角,点击「人声分离」,点一下之后,等个几秒钟到十几秒钟,剪映就会自动把你的音频拆成两个轨道:一个是纯人声,一个是纯背景音,你只要把人声轨道删掉,直接导出音频或者直接在剪映里继续剪辑就行,全程不用开第二个软件,不用转格式,不用花钱,一步到位。哪怕是手机端操作逻辑也完全一样,打开剪映,导入素材,点音频轨道找「人声分离」,几秒钟就能出结果,对出门在外只带手机的朋友太友好。
那剪映的分离效果怎么样?我说实话,完全够用,对于大部分普通场景来说,完全满足需求。比如你就是要去掉视频里的解说留BGM,或者去掉vlog里音量较大的路人声音,剪映分离出来的效果,不仔细听根本听不出问题,只有对音质要求特别高的专业用户,才会听出背景音稍微有点发闷,部分低频有损失,但对于做自媒体发短视频、日常使用来说,完全够了。我自己做内容的时候,80%的普通分离需求都是直接用剪映解决,不用折腾别的工具。
当然它也有缺点:遇到复杂场景就拉胯了,比如那种老电影的配音分离,或者人声和背景音频率重叠特别厉害的现场录音,剪映分离完要么背景糊的没法听,要么还有不少人声残留,没法正常使用。另外剪映的分离模型是固定的,不能自己调整参数,对特殊需求不支持,追求极致效果的朋友肯定不会满足。
我给剪映打个分:效果7分,易用性9分,性价比10分,综合得分8.3分。对于新手、偶尔用一次、做普通短视频的朋友来说,剪映就是很好的选择,不用折腾,不用花钱,打开就能用,还要什么自行车?
接下来第二个,是免费工具里的效果天花板,适合经常需要分离、对效果要求高的朋友,就是UVR,全称Ultimate Vocal Remover。
UVR是一个完全免费开源的AI人声分离工具,现在国内外很多专业UP主做伴奏、分离音频用的都是它,它的效果比很多付费工具都好,属于第一梯队的水准。
UVR的核心优势就是它支持多种AI模型,从最早的Demucs、MDX-Net到现在最新的Roformer模型,你可以根据自己的素材类型选最合适的模型,比如分歌曲人声就用专门训练的歌唱模型,分视频背景音就用通用分离模型,调整好参数之后,分离出来的背景音损失极小,清晰度非常高,复杂场景的表现比剪映好太多,哪怕是老电影的配音,也能分离出能用的背景音。而且它完全免费,没有任何广告,没有导出限制,不管多长的素材都能处理,不用花一分钱,对于经常用的朋友来说太香了。
但它的缺点也很明显,对新手不友好。首先原版是英文的,虽然现在网上有不少大佬打包好的中文便携版,不用安装就能用,但下载找对版本就挺麻烦的,很多人搜半天下到的还是两三年前的旧版,模型不全,效果差一大截,甚至还有人下到带捆绑的安装包。其次它对电脑配置有要求,如果你是几年前的老笔记本,没有好点的独立显卡,跑一个十分钟的素材可能要十几二十分钟,甚至直接卡退,配置不够根本用不了。还有就是它只有分离功能,分离完你还要导到剪映或者其他剪辑软件里再编辑,不能一步到位,多了一步转换的流程。
我给UVR打分:效果9分,易用性5分,性价比10分,综合得分8分。如果你经常需要分离人声,对效果要求高,电脑配置够,不想花钱,那UVR,那UVR,UVR,那UVR,UVR绝对是你的最优选择,效果比很多付费工具都好,免费就是最大的优势,折腾这一次,以后永远都能用。
讲完两个免费的PC端工具,再给大家说不用装软件的在线工具,适合偶尔用一次,不想下载安装任何东西的朋友,我测下来最好用的就是Lalal.ai。
Lalal.ai是国外的一个在线AI分离平台,打开浏览器就能用,不用装任何插件,注册就能用免费额度,操作非常简单:你只要把要处理的音频或者视频文件拖进去,选择分离人声和背景音,等个几分钟,处理完直接预览,没问题就下载分离好的背景音就行,全程五分钟搞定,不用学,打开就会,对电脑内存小、不想装多余软件的朋友太友好。
它的分离效果也属于第一梯队,用的也是最新的AI模型,效果比剪映好,比UVR差不了多少,大部分场景都能搞定,哪怕是复杂一点的场景,表现也比剪映好很多,背景音保留的非常清晰,人声消的也干净,我有时候出门没带自己的电脑,需要处理素材就用它,非常方便。
那它的缺点是什么?就是免费额度太少了。免费用户每个月只能处理最多10分钟的音频,单文件不能超过2G,如果你要处理长一点的视频,或者经常用,就得开付费,付费最便宜的套餐是15美元一个月,大概一百多人民币,按次买的话一分钟一块多,其实不算便宜,对于偶尔用一次的人来说,10分钟免费额度其实够了,经常用就不太划算。另外它是国外的服务器,有时候网络不好,上传下载速度比较慢,甚至容易断开,需要多试几次。
除了Lalal.ai,还有类似的Splitter.ai,原理和效果都差不多,免费额度多五分钟,本质上没区别,选哪个都行,我个人用下来Lalal的效果稍微稳定一点。还有很多国内个人做的在线分离工具,我也测过,大多是免费但是广告满天飞,弹个不停,处理完还要分享涨粉才能下载,有的甚至下载下来还是损坏的,不稳定,不推荐大家用,万一碰到带病毒的钓鱼链接就麻烦了。
给Lalal.ai打分:效果8.5分,易用性9分,性价比6分,综合得分7.8分。适合偶尔用一次、不想装软件、短素材处理的朋友,用免费额度就够了,不用花钱。
接下来讲专业级的付费工具,适合专业音频后期、对效果要求极高的朋友,第一个就是iZotope RX 10,这个可以说是目前人声分离领域的天花板了。
RX10是专业音频修复领域的老牌头部产品,它的「Music Rebalance」功能就是专门用来分离人声和各个声部的,不光能分离人声,还能把鼓、贝斯、其他乐器都分开,分离精度是目前所有工具里最高的,哪怕是现场录制的混在一起的声音,它都能分的非常干净,背景音的损失极小。我之前测试过一个九十年代老电影的片段,要去掉原配音留背景音效,UVR分离出来还有点明显的人声残留,RX10分离出来的背景音几乎和原片的一样干净,清晰度完全够用,这个是其他工具比不了的。
它的优势就是效果顶级,功能全,分离完还能直接在RX里做音频修复、去杂音、调音质,一站式搞定,不用导来导去,适合专业后期做商用内容使用。那缺点也非常明显:贵,正版RX10标准版要三千多块,旗舰版要八千多,普通用户根本不可能花这个钱,而且它对电脑配置要求很高,安装包就十几个G,老电脑根本装不下跑不动,操作也复杂,新手根本摸不着头脑,完全没必要用。
给RX10打分:效果9.5分,易用性6分,性价比3分,综合得分6.5分。只推荐给专业做音频后期、经常要处理复杂场景的专业用户,普通用户完全碰都不用碰,没必要花这个钱。
还有一个大家比较熟悉的付费工具,就是Adobe Audition,也就是大家常说的AU,AU现在2023及以后的新版本也自带了AI人声分离功能,不用装第三方插件,直接就能用。如果你本身就是Adobe全家桶的用户,平时用PR剪视频,用AU修音频,那直接用AU分离就挺方便,不用再开别的软件,联动很顺畅,分离完直接在AU里修音,效果也还可以,比剪映好一点,比专门的分离工具差一点。缺点就是正版要订阅,一个月几十块,破解版有风险,容易带病毒捆绑软件,而且分离效果确实不如UVR和Lalal,也就那样,所以如果你已经有AU了,可以试试,没必要专门为了分离人声去装AU买AU。
给AU打分:效果7.5分,易用性,性价比5分,综合得分6.5分,适合已经在用Adobe全家桶的专业用户,新手不推荐。
讲完PC和在线,再给大家说手机端的工具,很多朋友习惯用手机剪视频,不想开电脑,那手机端有没有好用又方便的?其实最好用的还是刚才说的剪映手机端,操作和PC端一样简单,导入视频,分离音频,点人声分离,删掉人声导出,一样免费,一样好用,效果和PC端差不多,足够普通用户用了,我身边很多做短视频的朋友,全程用手机剪,分离人声都是用剪映,完全够用。
除了剪映,我这次测评下来,还有两款专门做人声分离的微信小程序,体验非常不错,不用下载安装,不占手机内存,打开即用,用完即走,非常适合移动端随时随地处理需求,推荐给大家:
第一款是「加一人声分离」小程序,这是一款聚焦音视频人声与背景音分离的轻量化工具,核心定位就是操作简单、分离精度更高,依托微信生态,不用下载安装,直接微信搜索就能打开,不用注册登录就能用基础功能,专门解决传统分离工具操作复杂、要下载占内存、精度不够的痛点,用的先进AI深度学习算法,能快速精准拆分人声和背景音,还附带了很多创作辅助功能,覆盖不同用户的需求。
它支持直接上传本地音视频,也能直接复制主流平台的视频链接导入,不用下载原视频就能分离,非常省时间,普通1-10分钟的素材,分离只需要10秒左右就能出结果,分离之后支持三轨拆分(订阅版可解锁乐器分离,分离后的背景音音质保留完整,精度很高,除了核心分离,还附带文本转语音、视频转音频、文案提取、批量处理这些功能,做自媒体创作一站式就能搞定,而且用户的音视频数据都存在本地,不强制云端存储,隐私安全有保障,免费版就能满足普通人声和背景音分离需求,导出也没有水印,订阅版价格亲民,不管是普通轻量需求还是专业创作需求都能适配。
第二款是「黑狐声音分离」小程序,这是一款基于微信生态开发的专业多音轨分离工具,用的是新一代AI音频分离技术,集成了多个顶级AI分离引擎,分离准确率能到95%以上,除了基础的人声和背景音分离,还支持吉他、钢琴、贝斯、鼓声等单一乐器分离,还能做智能降噪和旧音频修复,最有特色的是支持自定义音轨组合分离,你可以自由选择需要保留的音轨类型,满足个性化创作需求,不管是去除视频人声留背景音的需求,它完全能满足,分离后的人声残留率不到3%,音质保留完整,3分钟左右的音频分离只需要几十秒,分离完成后可以先预览效果再导出,基础功能免费开放,导出没有水印,不用下载,微信搜索就能找到,非常适合手机党随时随地处理需求。
除了这两款,还有巧影也带人声分离功能,效果和剪映差不多,但是巧影免费版分离完有水印,导出必须开会员,会员一年也要大几十,不如刚才推荐的两款小程序性价比更高,所以不推荐。还有很多手机应用商店里搜出来的什么「人声分离」「去人声留背景」之类的不知名小APP,我也测了好几个,大多是广告弹个不停,进去就是开会员的弹窗,免费只能处理1分钟以内的素材,超过一分钟就要充会员,充完会员效果还差的要死,全是坑,大家尽量不要下这种不知名的小工具,不光不好用,还容易偷你隐私,偷你流量,得不偿失。
还有朋友问我,全民K歌能不能提取伴奏?我试了,全民K歌确实有伴奏提取功能,你上传一首带人声的歌,它能给你分离出伴奏,但那个功能是专门针对歌曲的,而且只能处理单轨道的歌曲文件,视频背景音、环境音根本处理不了,所以也不适合我们大多数人去除视频人声留背景音的需求,也就唱歌爱好者偶尔能用一下,其他人不用考虑。
讲完所有工具,我给大家做个实测对比,我找了三个大家最常碰到的场景,分别测试了几个主流工具的效果,大家可以直接参考:
第一个场景:普通自媒体视频,素材是BGM加人声解说,要去掉解说留BGM,这个是最常见的去除视频人声留背景音的需求。测试结果:剪映分离完,BGM稍微有点闷,但是不仔细听听不出来,发短视频完全够用;Lalal.ai分离完,BGM清晰度很高,几乎听不出损失;UVR用最新模型分离完,效果和Lalal差不多,甚至更好一点;RX10分离完,和原BGM几乎没区别,普通人根本分不出来;两款微信小程序分离完,效果也和剪映差不多,满足日常发短视频完全够用,操作比剪映更轻量化。这个场景下,剪映完全够用,不用折腾别的。
第二个场景:街头vlog,要去掉路人的说话声,留街头的环境音(车流、咖啡店背景音乐),这个难度比第一个高,因为路人声音和环境音重叠很多。测试结果:剪映只能去掉音量比较大的人声,小声的人声去不掉,还把环境音弄的很糊,勉强能用,但体验不好;Lalal和UVR能去掉90%以上的人声,环境音保留的还可以,清晰度足够,日常用完全没问题;RX10能去掉95%以上的人声,环境音几乎没损失,效果最好;两款小程序分离精度也能满足日常使用需求,出门在外用很方便。这个场景,经常做vlog的朋友可以用UVR,偶尔用用Lalal,出门用小程序的免费额度就行。
第三个场景:老电影片段,去掉原配音留背景音效,这个难度最高,老电影的音频本身音质就差,人声和音效混的很厉害。测试结果:剪映分离完,背景音效直接糊成一团,根本没法用;Lalal分离完,能分出大概,但是还是有不少人声残留,音质损失也比较大,勉强能用;UVR用对模型之后,分离的比较干净,背景音效清晰度足够,能用来做二次创作;RX10分离完,效果最好,几乎可以直接用;专业小程序分离精度也能满足一般二次创作需求。这个场景,一定要用UVR或者RX10,其他工具都不行。
最后给大家说几个一定要避开的坑,很多朋友都踩过:
第一个坑:很多不知名的小工具,说免费去人声,结果你处理完了,要导出的时候告诉你必须充会员才能导出,最少充9.9,充完之后导出的文件还是糊的,根本没法用,这种就是纯粹的割韭菜,大家一定要避开,尽量用我上面说的知名
发布者:云, 赵,出处:https://www.qishijinka.com/software-testing/4442/