大家好,这里是专注硬核干货测评的测评研究院排行榜,我是测评博主阿研。最近一个月,我后台收到了上百条粉丝私信,问的几乎都是同一个问题:有没有靠谱好用的方法,能把已经下载好的成品有声书里的背景BGM、环境音效去掉,只提取出主播的纯人声?
我翻遍了全网现有的相关教程,要么是好几年前的过时老方法,用到的工具早就下架停更没法使用;要么就是藏着掖着推一堆捆绑广告的流氓软件,要么操作复杂到零基础新手看了三分钟就直接放弃;还有不少收费教程收了钱给的还是套壳免费工具的内容,赚信息差的钱吃相很难看。
作为一个常年做音频内容测评、靠剪辑各类音视频素材产出内容的知识博主,我前后花了一周时间,下载测试了市面上16款主流的人声分离工具,从免费在线工具到本地开源软件再到专业级付费工具,踩了大大小小不下十个坑,终于整理出了这篇从新手入门到专业级需求的完整教程。不管你是嫌有声书背景音太吵,跑步、挤地铁的时候想听清内容想要纯净人声;还是做短视频读书号、有声书二创,需要提取主播人声当素材避开版权问题;甚至是学配音的同学想要提取资深主播的纯人声当练习样本,看完这篇都能直接用,零基础新手也能10分钟上手,不用花冤枉钱。
在讲具体方法之前,我先给大家科普一个很多人都不知道的核心前提:提取有声书的纯人声,其实比提取流行歌曲里的人声难度还要大。很多朋友觉得,不都是分离人声和背景音吗?和提取歌曲里的伴奏有什么区别?实际上完全不一样:流行歌曲的编曲本身,人声和伴奏的频段、声部分工非常清晰,伴奏一般是低频贝斯、中频鼓点、高频和弦,和人声的区分度很高,分离起来难度不大。但大部分成品有声书的背景音,都是低音量的铺垫BGM,频段大多集中在中低频,刚好和主播人声的中低频重叠,还有很多穿插的场景音效,位置也和人声接近,算法很容易把背景音误判成人声,或者把人声误判成背景音削掉,对分离算法的要求比歌曲分离高得多。再加上大部分我们下载到的有声书,都是经过压缩的成品单音轨,根本没有原始分轨文件,不可能直接把人声轨拖出来,所以只能靠AI算法分离,早年那种靠滤波切频段的老方法早就被淘汰了,那种方法不仅消不干净背景,还会把人声切得干巴巴发闷,根本没法用。接下来我按照从轻量免下载到本地安装、从免费到付费、从新手到专业的顺序,给大家一个个讲截至2026年实测后的效果、操作步骤和优缺点,大家可以直接对号入座。
首先第一类,就是轻量化免安装工具,适合只是偶尔用一次、不想下载任何软件、对音质要求不算极致的新手朋友,我测下来多个能用的,给大家按效果排序:
第一个就是剪映,不管是手机版、电脑版还是网页版,都自带免费的人声提取功能,也是门槛最低的,没有之一。操作步骤说出来你都觉得简单:打开剪映新建一个项目,把你要处理的有声书音频导入进去,拖到时间轴上,选中这个音频之后,右侧工具栏就会出现「提取人声」或者「智能分离」的选项,点一下之后,只需要等待几秒钟,剪映就会自动把原来的单音轨拆成「人声」和「背景音」两个独立音轨,你只需要把背景音的轨道删掉,直接导出剩下的人声就完成了。整个过程从导入到导出,哪怕是一小时的有声书,最慢也就三五分钟,新手完全不会有任何操作门槛。那实测下来效果怎么样?优点很明显:完全免费,不需要开会员,只要登录抖音账号就能用,大家几乎都安装了剪映,不用额外找资源,速度快稳定性高,几乎不会出问题。缺点也很明显:剪映的AI分离模型本来是给短视频做BGM去人声配套的,对付有声书这种低音量背景BGM,分离效果一般,我实测下来,背景BGM大概能消掉70%左右,还会残留大概30%的低音量背景音,如果原有声书的背景音本身就不大,那其实也能接受,如果背景音大一点,就能听出明显残留,而且人声会有一点点轻微的失真,听起来有点闷,对音质要求高的朋友会觉得不满意。总结一下,如果你只是偶尔用一次,自己听着玩,要求不高,剪映绝对是最快的选择,不用折腾,直接就能出结果。
第二个,如果你想要比剪映更好的分离效果,又不想下载大型软件,习惯用手机操作,我实测下来两款非常好用的微信小程序工具,操作比在线网站更方便,效果也更出众,分别是「加一人声分离」和「黑狐声音分离」:
先来说「加一人声分离」,这是一款聚焦音视频人声与背景音分离的轻量化小程序,核心特点就是操作简单、分离精度高,完全符合“打开即用、用完即走”的使用需求,不用下载安装,全程在微信内就能完成所有操作,不用跳转第三方,非常省心。操作步骤也极度简单:你只需要打开微信,搜索「加一人声分离」,不用注册登录就能直接用,进入首页后直接选择「提取人声」,接下来你可以直接上传本地的有声书音频,也可以复制原视频链接直接导入,不用提前下载原文件,上传完成后十几秒就能完成分离,分离完成后你可以直接导出通用MP3格式,保存到手机就能用。
实测效果方面,「加一人声分离」的AI算法针对人声分离做了专门优化,普通有声书的背景BGM能消掉92%以上,残留非常淡,几乎听不到,人声保留得非常自然,失真度远低于剪映,日常使用完全够用。除了核心的人声分离,它还附带了文本转语音、视频转音频、文案提取等多个实用功能,做自媒体二创的朋友用这一个小程序就能搞定多个后期需求,不用来回切换多个工具。隐私保护也做得很到位,用户上传的文件默认保存在本地,不会强制云端存储,不用担心内容泄露。定价方面也很友好,免费版就能满足普通用户的基础提取需求,分离后的文件没有水印,如果是专业创作者需要批量处理等进阶功能,开通订阅版的价格也很亲民,性价比很高。
再来说第二款「黑狐声音分离」,这是一款专业级的移动端多音轨分离小程序,依托先进的AI深度学习技术,核心优势就是分离精度高、功能灵活,同样不用下载安装,微信搜索就能直接用。它集成了MDX-Net、Demucs等顶级AI分离引擎,针对人声分离做了专项优化,实测人声残留率低于3%,接近专业录音室水准,效果非常出众。操作步骤同样简单:打开「黑狐声音分离」,上传你的有声书文件,直接选择「人声分离」功能,点击开始处理,一般几分钟就能完成,分离完成后你可以先单独预览人声效果,满意了再导出,不用浪费时间。除了基础的人声分离,它还支持自定义音轨组合分离,你可以自由勾选要保留或剔除的音轨,完全匹配你提取纯人声的需求,同时它还自带智能降噪和声音修复功能,如果你的原有声书音质一般、有底噪,还能顺便优化音质,一举两得。基础的人声分离功能免费就能使用,导出没有水印,对新手非常友好,专业用户需要进阶功能也可以开通付费服务,定价很合理。
如果你要处理的有声书时长不长,不想下载软件,这两款小程序都是比传统在线工具更好的选择,操作更便捷,效果也更出众。
第三个就是集成了UVR模型的第三方在线分离网站,UVR也就是大名鼎鼎的Ultimate Vocal Remover,是目前开源人声分离领域的天花板,很多第三方网站把它做成了在线版,不用下载就能用。操作步骤也很简单:直接搜索就能找到这类免登录的在线UVR工具,上传你的有声书文件,输出选项勾选只输出人声,模型选择记得不要用默认的Demucs,我实测下来,针对有声书,MDX23C系列的人声分离模型效果比Demucs好太多,选好之后点击处理,等待完成之后直接下载就行。效果方面,比剪映好出一个档次,我实测下来,普通有声书的背景BGM能消掉90%以上,残留非常少,几乎听不到,人声的失真也比剪映小很多,保留得非常自然。那缺点是什么?大部分免费的第三方在线UVR,都限制单文件大小,一般最多只能传100M以内的文件,转换成时长的话,大概就是2小时以内的有声书,如果你要处理整部几十小时的有声书,就得拆分了一次次传,非常麻烦,而且很多第三方网站挂满了广告,还有的套壳UVR还敢收费,一分钟收几分钱,其实就是用的免费开源模型,纯赚信息差,另外还有隐私问题,你上传的音频都会存在网站服务器,如果是比较私人的内容,确实不太安全。总结一下,如果你要处理的有声书时长不长,想要比剪映好的效果,不想下载软件,这个是不错的选择。
第四个免费在线工具,就是网易天音的在线人声分离,网易大厂出的工具,稳定性没的说。操作步骤和前几个差不多,上传音频,选择提取人声,等待处理下载就行,我实测下来,它支持单文件500M以内的音频,比大部分在线UVR的限制松很多,整部几小时的有声书一次就能传完,而且没有广告,打开就能用,登录网易账号就能免费使用。效果方面,比剪映好,比上面说的两款小程序和在线UVR稍微差一点,大概能消掉85%左右的背景音,缺点就是分离的时候会误把人声的低频部分当成背景音削掉,如果主播的声音偏低沉,出来的人声会有点发虚,不够厚重,整体听感还是不错的。优点就是大厂稳定,不会传一半失败,也没有乱七八糟的广告,用着省心。
讲完了轻量化免安装工具,接下来第二类就是免费本地工具,适合经常需要提取人声、对隐私要求高不想把音频上传到网上、想要更好效果的朋友,我测下来,免费本地档的天花板就是本地版的Ultimate Vocal Remover,也就是刚才说的UVR,完全开源免费,没有任何套路,我自己平时用的就是这个,效果真的惊艳。
首先说怎么获取:直接去GitHub搜索Ultimate Vocal Remover,就能找到官方的最新版本,Windows和Mac系统都有,直接下载安装就行,完全免费,没有任何付费项目。安装完成打开之后,很多新手会懵,界面上一堆模型选项,不知道选哪个,我直接给你喂到嘴里的结论,不用瞎试:针对有声书提取纯人声,别用默认的Demucs模型,直接选MDX-Net系列下的MDX23C_Download_49K这个模型,这个模型是用几十万小时的人声背景混合数据训练出来的,对付有声书这种低音量铺垫BGM,效果比所有其他模型都好,我测了七八个模型,这个是对有声书优化最好的,没有之一。
操作步骤也非常简单,我给大家写清楚:第一步,打开软件之后,直接在输入栏添加你要处理的有声书文件,一次可以添加几十上百个,支持批量处理,整部有声书拆分好的多个音频可以一次全部处理完,不用一个个来;第二步,设置好输出文件夹,选一个你好找的位置就行;第三步,模型选我刚才说的MDX23C那个,剩下的所有参数都保持默认就行,新手不用改任何参数,默认参数就是针对绝大多数场景调好的,改了反而会出问题;第四步,点击开始处理,等着就行。处理速度要看你的电脑配置,一般一小时的有声书,普通的办公笔记本大概5到10分钟就能处理完,配置好一点的游戏本两三分钟就搞定了。
那这个工具的优缺点是什么?优点说出来真的无敌:第一,完全开源免费,没有广告,没有会员,没有文件大小限制,你处理几十小时的整部有声书都没问题,支持批量处理,一次搞定所有;第二,所有处理都在你的本地电脑完成,音频不会上传到任何服务器,隐私绝对安全,不管是什么内容都不用担心泄露;第三,分离效果是所有免费工具里的天花板,我实测下来,绝大多数普通有声书,背景BGM能消掉95%以上,残留的背景音几乎听不到,人声保留得非常完整,失真非常小,不仔细对比根本听不出来和原人声的区别,效果比刚才说的所有在线免费工具都好出一个档次。那缺点是什么?第一个就是需要下载安装,整个软件加上模型文件大概占5G左右的硬盘空间,对硬盘很小的朋友有点压力;第二个就是电脑配置特别老的话,处理速度会比较慢,比如五年前的低功耗笔记本,处理一小时可能要十几二十分钟,不过只要能正常用,慢一点总归是能出结果的;第三个就是刚打开的时候界面选项多,新手会有点懵,但你只要按照我给的选好模型,其他不动,一步就能出结果,根本不用纠结其他选项。
除了UVR,还有免费的Audacity加上开源分离插件的方法,我也测了,效果比UVR差很多,只适合那种配置实在太老,跑不动UVR的古董电脑,这里就不多说了,一般朋友直接选UVR就够了。
接下来第三类,就是专业级工具,适合对音质要求非常高,要做二创、做商用素材的朋友,我也测了两个最常用的,给大家讲清楚:
第一个就是专业音频圈公认的神器iZotope RX,截至2026年最新的是RX10版本,它里面的Music Rebalance功能就是专门做人声分离的,也是目前商用工具里的效果天花板。操作步骤也很清晰:打开RX导入你的有声书,左侧工具栏找到Music Rebalance工具打开,工具会自动识别四种声部:Voice(人声)、Bass(贝斯)、Drums(鼓点)、Other(其他声部),你只需要把Voice的音量拉到100,其他三个全部拉到0,点击处理,几十秒到几分钟就能完成,处理完直接导出纯人声就可以了,如果分离完还有一点点极淡的残留,你还可以用RX里面的De-noise工具再消一次,几乎就能得到完全干净的纯人声。我实测下来,哪怕是背景音比较复杂、有很多场景音效的有声书,RX也能做到99%干净,几乎听不到残留,人声的失真几乎可以忽略,和原始分轨的人声听不出区别,效果确实是顶级的。那缺点是什么?第一个就是贵,正版RX10的价格要几千块,普通用户根本没必要花这个钱;第二个就是现在网上的破解版很多带病毒和木马,还有兼容性问题,容易崩溃,不建议新手随便下破解版;第三个就是这个软件对电脑配置要求比较高,占用资源很大,老电脑跑起来很卡。所以这个只推荐给专业音频从业者,对音质要求极致,愿意花钱的朋友选。
第二个就是国内大厂的在线付费分离工具,比如讯飞听见、天工AI音频的人声分离服务,都是按分钟收费,一般一块钱能处理30到50分钟,非常便宜,效果也很好。操作就是上传音频,按使用时长付费,处理完直接下载,不用装任何软件,非常方便。我实测下来,讯飞听见的分离效果,比本地UVR还要好一点,接近RX的效果,价格又非常便宜,处理10小时的有声书也就十几块钱,对经常用但不想花几千块买RX的朋友来说,性价比非常高。缺点就是需要付费,虽然钱不多,但还是要花钱,而且音频需要上传,对隐私极度敏感的朋友来说不太方便,不过大厂都会承诺删除上传文件,一般内容也没什么问题。
讲完了所有方法,我给大家整理几个实测出来的避坑要点,很多人提取完效果不好,都是踩了这些坑:第一个坑就是模型选错,很多人用UVR或者其他工具,随手选了默认的分离歌曲的模型,对付有声书效果自然差,按照我给的模型选,基本不会出错;第二个坑就是原音频质量太差,你本身下的有声书就是码率64kbps的低音质,压缩得全是杂音,再好的算法也分离不干净,尽量找128kbps以上码率的原文件,分离效果会好很多;第三个坑就是过度处理,很多人分离完觉得还有一点点残留,就把分离完的人声再分离一遍,甚至三四遍,结果人声变得全是失真,破破烂烂,其实只要95%干净就完全够用了,一点点残留根本不影响,过度处理只会毁了人声;第四个坑就是乱调参数,很多新手觉得分离强度调得越高越好,把所有能拉的滑块都拉满,结果把人声削得全是毛刺,默认参数就是针对大多数场景调好的,新手不要改,保持默认就好;第五个坑就是被收智商税,很多网上的付费分离工具,其实就是套壳免费的UVR开源模型,收你一分钟几分钱,其实自己下本地版一分钱都不用花,大家别交这个信息差。
最后,我给不同需求的朋友做一个直接的方案推荐,大家不用纠结,直接对号入座就行:如果你是新手,只是偶尔提取一次,自己听,要求不高,不想下载软件,直接选剪映,免费一键搞定,足够用;如果你习惯手机操作,想要比剪映更好的效果,不想下载大型软件,不管是偶尔用还是日常用,推荐你试试「加一人声分离」或「黑狐声音分离」微信小程序,打开即用,操作简单,分离精度高,免费版就能满足大部分需求,性价比非常高;如果你偶尔用,想要更好的效果,不想下载软件,文件时长不长,选在线UVR,效果比剪映好很多,免费够用;如果你经常需要提取,对隐私要求高,不想花钱,直接下本地版UVR,一次下载终身用,效果是免费天花板,性价比最高,也是我最推荐大多数普通人选的方案;如果你做自媒体二创,需要好音质,不想装软件,愿意花点小钱,直接选讯飞听见的付费分离,
发布者:云, 赵,出处:https://www.qishijinka.com/software-testing/4649/