Meta推出SAM Audio:AI实现精准声音对象分离
创始人
2025-12-26 19:15:48
0

想象一下,你正在观看一段嘈杂的视频,里面有人在说话、狗在叫、还有背景音乐在播放。现在,如果你只想听到其中狗叫的声音,该怎么办?过去你可能需要专业的音频编辑软件和复杂的操作。但现在,Meta公司的研究团队开发出了一个名为SAM Audio的AI系统,你只需要说一句"狗叫声",它就能自动从复杂的声音混合物中提取出纯净的狗叫声,就像用筛子从沙子里筛出金子一样神奇。

这项突破性研究由Meta超级智能实验室的包文石、Andros Tjandra、John Hoffman等众多研究人员共同完成,发表于2025年12月23日,论文编号为arXiv:2512.18099v1。有兴趣深入了解技术细节的读者可以通过该编号查询完整论文,同时研究团队还提供了在线演示和开源代码。

要理解SAM Audio的重要意义,我们可以把声音分离比作厨师从一锅大杂烩中分离出不同食材的过程。传统的声音分离技术就像是只会做固定菜谱的厨师,比如专门分离人声和背景音乐的工具,或者专门分离不同乐器的软件。这些工具虽然在特定任务上表现不错,但一旦遇到菜谱之外的要求就束手无策。如果你想要提取一种它们从未见过的声音类型,就像要求一个只会做中餐的厨师突然做法国菜一样困难。

更重要的是,现有技术通常只支持单一的"点菜"方式。有些只能通过文字描述来指定目标声音,有些只能通过视觉选择,还有些压根不支持用户自定义。这就像餐厅要么只能看图点菜,要么只能口述点菜,缺乏灵活性。而SAM Audio的革命性在于,它就像一位全能厨师,不仅能处理各种类型的"食材"(声音),还支持多种"点菜"方式——你可以用文字描述想要的声音,可以在视频中直接指出发声的物体或人物,甚至可以指定时间段来告诉它什么时候有你想要的声音。

让我们深入了解这位"全能厨师"是如何工作的。SAM Audio基于一种叫做扩散变换器的深度学习架构,这听起来很复杂,但可以把它想象成一个非常精密的声音处理工厂。这个工厂的核心是使用流匹配技术进行训练,简单来说就是教会AI如何从噪声中逐步"雕刻"出目标声音,就像雕塑家从大理石中雕刻出精美雕像一样。整个过程是渐进式的:AI首先生成一个粗糙的声音轮廓,然后不断细化,最终得到精确的目标声音。

这个系统的独特之处在于它的多模态理解能力。当你给它一个文字描述,比如"钢琴演奏",系统会调用一个专门的文本编码器来理解这个描述。当你在视频中点击某个区域时,系统会使用SAM 2视觉编码器来分析这个视觉区域对应什么声音。最有趣的是,研究团队还创新性地引入了"时间段提示"功能,你可以直接在音频波形上标记出目标声音出现的时间段,系统就能根据这个时间信息来提取声音。

为了训练这个全能的声音分离系统,研究团队面临着巨大的数据挑战。真实世界中很难找到既有复杂声音混合,又有单独分离出的纯净声音的数据。这就像要训练一个厨师,你不仅需要各种大杂烩,还需要知道每种食材单独是什么味道。为了解决这个问题,研究团队采用了三种巧妙的数据构造策略。

第一种策略是使用完全真实的数据三元组。在音乐和语音领域,他们找到了一些高质量的多轨录音数据。比如在录音棚录制音乐时,每个乐器都会单独录制,最后混合成完整的歌曲。研究团队就利用这种数据,将各种乐器声音重新组合,创造出不同的混合方案,让AI学会如何从混合音中提取特定乐器的声音。类似地,在对话数据中,他们使用了包含两个说话者独立录音轨道的对话数据,总计超过2万小时,让AI学会分离不同说话者的声音。

第二种策略是合成混合音频。由于真实数据稀缺,研究团队开始"人工制作大杂烩"。他们收集了大量单一类型的音频,比如纯净的音乐录音、清晰的语音录音和各种声音效果,然后将它们随机组合。这就像一个厨师拿着各种新鲜食材,按照不同的配方混合,创造出各种口味的"声音大杂烩"。为了确保训练效果,他们还会调整不同声音的音量比例,模拟真实环境中的各种情况。

第三种策略最为巧妙,叫做伪标签数据引擎。研究团队发现,简单的随机混合往往产生不自然的组合,比如将体育场的欢呼声和森林中的鸟鸣混合在一起,这种组合在现实中几乎不可能出现。为了解决这个问题,他们采用了一种"自举"方法:首先用前两种数据训练出一个初级版本的SAM Audio,然后用这个初级版本来分析真实世界的复杂音频,自动生成更多训练数据。这个过程就像让学徒厨师先学会基本功,然后让他们去分析各种现实中的复杂菜谱,从中学习更高级的搭配规律。

为了确保伪标签数据的质量,研究团队设计了严格的筛选机制。他们使用CLAP模型来检查文本描述和音频内容的匹配度,使用美学评估模型来判断音频的清晰程度,还会自动检测过于安静的输出。只有同时通过所有质量检查的数据才会被纳入最终的训练集。这种多重筛选就像质检员在生产线上层层把关,确保每个产品都符合标准。

在模型架构设计上,SAM Audio采用了当前最先进的扩散变换器技术。整个系统可以想象成一个精密的声音工厂,包含多个专门的处理车间。音频编码车间负责将输入的声音转换成AI能够理解的数字表示,这里使用的是DAC-VAE编码器,它能够将音频压缩成每秒25帧的紧凑表示,既保持了音质又减少了计算负担。文本编码车间使用T5文本编码器来理解用户的文字描述。视觉编码车间则采用了最新的PE视觉编码器,这比传统的CLIP编码器更擅长理解动作和场景上下文。

最创新的是时间段编码车间的设计。研究团队将时间段信息转换成类似文字序列的表示方法,每个时间点被标记为"活跃"或"静默",就像制作音乐乐谱一样,标记出每个音符出现的时间点。这种设计使得AI能够精确理解用户指定的时间信息,实现frame级别的精确控制。

在训练过程中,SAM Audio不仅学会分离目标声音,还同时学会生成剩余声音。这意味着它能够输出两个音轨:一个包含你想要的声音,另一个包含所有其他声音。这种设计使得该系统既可以用来提取声音,也可以用来去除不想要的声音,就像一把双刃剑,正反两面都能使用。

为了提高训练效果,研究团队还引入了一个巧妙的辅助训练机制。除了主要的声音生成任务,系统还需要学会识别声音事件。他们使用了一个专门的音频事件检测模型作为"老师",让SAM Audio的内部表示尽可能接近这个老师模型的理解。这就像让学生不仅要会做题,还要理解解题思路,从而获得更深层的理解能力。

在实际应用中,SAM Audio展现出了惊人的灵活性。当用户只提供文字描述时,系统还会自动预测相应的时间段信息来增强分离效果。这个预测功能使用了PEA-Frame模型,它能够分析音频并自动标出指定声音出现的时间段。这就像一个经验丰富的音响师,即使你只说了想要什么声音,他也能自动判断出这个声音最可能在什么时候出现,从而做出更精确的调整。

对于超长音频的处理,研究团队采用了多重扩散技术。传统方法处理长音频时,要么因为内存限制无法处理,要么将音频切成片段独立处理,导致片段之间出现不连续的问题。SAM Audio的解决方案更加优雅,它将长音频分成重叠的窗口,每个窗口都能看到相邻窗口的一部分内容。在每个处理步骤中,系统会综合所有窗口的信息,确保最终结果的连贯性。这就像多个工人协同完成一项长工序,每个人负责一段,但大家会互相沟通,确保整体工作的一致性。

为了验证SAM Audio的性能,研究团队面临着另一个挑战:如何公平地评估声音分离效果。传统的评估方法主要依赖信噪比等技术指标,但这些指标往往与人类的听觉感受不一致。两个在技术指标上相似的音频在实际听起来可能差别很大,就像两道菜的营养成分相同,但口味完全不同。

为了解决这个评估难题,研究团队开发了两个重要工具。首先是SAM Audio-Bench,这是一个全面的测试基准,包含了来自真实世界的各种音频和视频数据,涵盖语音、音乐和一般声音效果等多个领域。与以往主要使用合成数据的测试集不同,这个基准使用的都是真实环境录制的音频,更能反映实际使用场景的复杂性。每个测试样本都有人工标注的多模态提示,包括文字描述、视觉标记和时间段标记,使得可以全面测试模型的各种能力。

更重要的是,研究团队开发了SAM Audio Judge,这是一个能够自动评估声音分离质量的AI评判员。这个评判员经过大量人类评估数据的训练,学会了从多个维度评估分离效果:召回率衡量目标声音是否被完整提取,精确度衡量是否混入了不相关的声音,保真度衡量分离出的声音与原始声音的相似程度。最令人印象深刻的是,这个AI评判员与人类评估的相关性达到了0.88,远远超过传统技术指标的0.49。这意味着AI评判员的判断已经非常接近人类的感受。

在大规模实验中,SAM Audio展现出了全面超越现有技术的性能。在一般声音事件分离任务中,它比目前最好的公开模型SoloAudio的胜率高出约36%。在专业领域表现更加出色,比如在乐器分离任务中,即使与专门针对音乐设计的Demucs系统相比,SAM Audio的胜率仍然达到17.6%。在说话者分离任务中,相比专业的AudioShake系统,SAM Audio的整体质量评分提高了近4%,胜率高达39%。

特别值得一提的是视觉提示功能的表现。虽然视觉引导的声音分离技术相对较少被研究,但SAM Audio在这方面同样表现出色。相比现有的DAVIS-Flow系统,SAM Audio在不同任务中的胜率从5%到48%不等。研究团队发现,视觉提示在某些特定场景中特别有用,比如在多人对话的视频中,当你想分离某个特定说话者的声音时,文字描述"男性说话"可能无法区分两个男性说话者,但点击视频中的特定人物就能精确指定目标。

时间段提示功能的引入更是展现了研究团队的创新思维。在复杂的声音环境中,有时候文字描述很难精确表达想要的声音,比如电影配乐中的某个特定音效。通过标记时间段,用户可以告诉系统"我想要第3到5秒之间出现的那个声音",系统就能根据时间定位来提取目标声音。实验结果显示,将文字描述和时间段提示结合使用,能够在各个领域都带来12.9%到39.0%的性能提升。

研究团队还深入分析了不同提示方式的特点和适用场景。文字提示具有最好的可访问性,用户只需要简单描述就能使用,而且由于有大量高质量的文字-音频训练数据,文字提示通常能达到最好的分离效果。视觉提示则擅长处理模糊场景,当同一类型的声音有多个来源时,视觉定位能够提供实例级别的区分。时间段提示最适合处理瞬时性强的声音事件,比如门关上的声音、狗叫声等,这类声音的时间定位信息非常有价值。

在模型规模的研究中,团队训练了三个不同大小的版本:5亿、10亿和30亿参数。就像不同马力的发动机一样,更大的模型在处理复杂任务时表现更好,特别是在专业领域如乐器分离中,30亿参数的模型比10亿参数版本的胜率高出23%。但在一些基础任务中,较小的模型也能达到相当不错的效果,这为不同应用场景提供了灵活的选择空间。

系统的实时性能也经过了精心优化。对于10秒的音频,SAM Audio在单张A100 GPU上大约需要7.3秒完成处理,其中包括模型计算、时间段预测和结果优化等所有步骤。虽然还不能做到实时处理,但对于大多数实际应用已经足够快。更有趣的是,研究团队发现即使将计算步骤从16步减少到2步,系统仍然能保持令人满意的分离效果,这为需要快速处理的应用场景提供了可能。

在长音频处理方面,SAM Audio采用了多重扩散技术。传统的分块处理方法会在块与块之间产生明显的不连续性,听起来就像拼接的录音带。SAM Audio的方法更像是多个画家同时在一幅长卷上作画,每个画家负责一段,但他们会时刻关注相邻区域的笔触,确保整体画面的和谐统一。实验结果证明,这种方法比简单分块处理的效果提升明显,音频的连贯性和整体质量都得到了保证。

研究团队还深入研究了声音分离任务的内在难度。他们发现,分离任务的难度主要取决于几个因素:混合音中非目标声音的数量、目标声音与非目标声音的重叠程度、目标声音的相对音量,以及非目标声音与目标声音的相似程度。基于这些因素,他们建立了一个自动难度评估系统,能够预测某个分离任务对人类来说有多困难。实验证实,随着任务难度的增加,人类评估者给出的分离质量评分确实单调递减,验证了这个难度评估系统的有效性。

在商业模型的对比中,SAM Audio不仅超越了所有开源模型,甚至在多数任务中超过了商业化的专业音频处理服务。比如在语音增强任务中,SAM Audio的表现超过了AudioShake、MoisesAI等知名商业产品。在音乐分离任务中,它也明显优于专业音频制作工具。这种全面的性能优势证明了统一训练方法的威力:通过在大规模多样化数据上统一训练,单一模型能够在多个专业领域都达到或超越专门为该领域设计的系统。

研究团队特别强调了SAM Audio Judge评估系统的价值。传统的音频分离评估主要依赖技术指标,但这些指标往往与人类的主观感受脱节。SAM Audio Judge通过学习大量人类评估数据,能够更准确地预测人类对分离效果的满意度。这个评估系统本身就是一个重要贡献,可以帮助其他研究者更好地评估和比较不同的声音分离方法。

整个研究还揭示了一些有趣的发现。比如,视觉提示虽然在某些场景中非常有用,但总体效果不如文字提示,主要原因是视觉训练数据相对较少且质量参差不齐,而且视觉区域往往比文字描述更加模糊。一个人的视觉区域可能对应多种不同的声音,而"男性说话"这样的文字描述则相对明确。

另一个重要发现是时间段预测的有效性。即使是自动预测的时间段信息,而非人工标注的准确时间段,也能显著提升分离效果。这意味着用户在实际使用时,即使只提供文字描述,系统也能自动增强处理效果,无需额外的人工标注工作。

SAM Audio的成功不仅在于其技术先进性,更在于其实用性和通用性。无论是专业音频制作人员需要从复杂混音中提取特定乐器,还是普通用户想要从嘈杂视频中提取清晰对话,或者研究人员需要分析野外录音中的特定声音事件,SAM Audio都能提供统一的解决方案。这种"一站式"服务的价值在于降低了使用门槛,用户无需学习多个不同的专业工具,只需要掌握一个系统就能处理各种声音分离需求。

当然,这项研究也坦诚地指出了现有的局限性。视觉提示的效果仍然明显低于文字提示,主要原因是缺乏足够的高质量音视频对应训练数据。一般声音效果的分离仍然比专业领域如语音或音乐更具挑战性,因为声音效果类型更加多样化,边界更加模糊。这些限制为未来的研究指明了方向,需要更强的音视频对应学习和更好的复杂多源声音场景建模技术。

研究团队在论文中还详细描述了训练的具体配置。他们使用了两阶段训练策略:首先在大规模通用视频数据上进行预训练,建立基础的声音分离能力,然后在精选的高质量数据上进行微调,提升在专业领域的表现。预训练阶段使用了有效批量大小为1024的设置,训练50万次更新。微调阶段则采用了变长批处理技术,根据模型大小调整每批的token数量,训练30万次更新。整个训练过程使用了全分片数据并行来适应模型规模,确保训练效率。

推理时,系统使用16步的中点ODE求解器,不需要分类器自由引导就能达到很好的效果。为了进一步提升输出质量,系统还会生成8个候选结果,然后使用SAM Audio Judge和CLAP分数的线性组合来选择最佳输出。这种候选重排序机制能够显著提高最终分离效果的质量和稳定性。

这项研究的意义远不止于技术突破本身。在教育领域,SAM Audio可以帮助语言学习者从嘈杂环境中提取清晰的目标语音,或者帮助音乐学习者从复杂乐曲中分离出特定乐器进行学习。在辅助技术领域,它可以为听力辅助设备提供更好的声音分离功能,帮助用户在嘈杂环境中专注于重要声音。在内容创作领域,它为音频编辑、播客制作、视频后期等提供了强大的工具。

研究团队还特别强调了开放科学的重要性。他们不仅发布了模型代码和演示系统,还公开了完整的训练数据构建流程和评估基准。这种开放性将极大促进整个领域的发展,让更多研究者能够基于这项工作继续创新。SAM Audio-Bench作为统一的评估标准,也将有助于未来不同方法之间的公平比较。

从技术发展的角度看,SAM Audio代表了AI声音理解能力的一个重要里程碑。它不仅展示了大模型在音频领域的潜力,更重要的是证明了多模态统一训练的有效性。通过同时学习文字、视觉和时间信息,AI系统获得了更加全面和灵活的声音理解能力,这为构建真正智能的多模态AI系统奠定了重要基础。

说到底,SAM Audio的真正价值在于它将复杂的专业音频处理技术变成了普通人都能轻松使用的工具。就像智能手机将复杂的通信技术变成日常工具一样,SAM Audio有望将声音分离从专业音频制作的小众领域扩展到每个人的日常生活中。无论你是想从家庭录像中提取孩子的笑声,还是想从演唱会录音中分离出特定乐器的演奏,SAM Audio都能够理解你的需求并提供高质量的结果。这种技术的普及化将为声音处理领域带来革命性的变化,让每个人都能成为自己的声音魔法师。

Q&A

Q1:SAM Audio是什么?

A:SAM Audio是Meta公司开发的AI声音分离系统,它能够从复杂的声音混合物中提取用户想要的任何特定声音。用户可以通过文字描述、视频中的视觉选择或时间段标记来指定目标声音,系统会自动分离出纯净的目标音轨和剩余音轨。

Q2:SAM Audio相比现有声音分离工具有什么优势?

A:SAM Audio的最大优势是统一性和灵活性。传统工具通常只能处理固定类型的声音分离,比如专门分离人声和音乐,而SAM Audio可以分离任何类型的声音。更重要的是,它支持三种提示方式的任意组合使用,在各个专业领域都达到了超越专门系统的性能。

Q3:普通用户如何使用SAM Audio?

A:目前用户可以通过Meta提供的在线演示体验SAM Audio,研究团队还开源了代码供开发者使用。对于10秒音频,系统需要约7秒处理时间。用户只需上传音频或视频文件,然后通过文字描述、点击视觉区域或标记时间段的方式指定想要提取的声音即可。

相关内容

最新资讯

面膜被指存在“禁用成分”,韩束... 日前,据具备检验资质的第三方检测机构检测结果显示,在韩束丰盈紧致精华面膜中检测出0.07pg/g的表...
我国建立学位授予资格 超常布局... 来源:滚动播报 (来源:千龙网) 昨日(25日),国务院学位委员会印发新修订的《博士硕士学位授予资格...
周三新书 | 豆瓣好书主题周之... 成长的旅途里,我们都在慢慢摸索:如何成为更清醒、更有趣的大人。书籍,恰是这场摸索中最温柔的同行者。本...
美国封锁下 委内瑞拉主要石油产... 新华社加拉加斯12月25日电(记者田睿 刘宇辰)当地目击者日前向新华社透露,23日在该国西部马拉开波...
59岁大叔开庭前捅刺33岁前女... 日前,重庆市云阳县人民法院公开了一份刑事附带民事判决书。重庆“60后”男子陈某某在分手后,以赠与合同...
美国更需要?外媒关注中国“集装... 【文/观察者网 山猫】近年来,中国军事装备建设新成果不断涌现,特别是2024年底时,两种据信是第六代...
经济总量连跨台阶,武汉蔡甸以创... 武汉市蔡甸区第七届人民代表大会第五次会议开幕。湖北日报讯(记者杨然、通讯员王佩玺、刘芬)12月26日...
冬天也能吃虾自由!潜江龙虾冬季... 12月26日,2025年湖北“潜江龙虾”冬虾开捕仪式在潜江市龙湾镇郑家湖“四季有虾”养殖基地启动,标...
上海专业申请英国读研留学中介机... 一、上海学生如何选择专业的英国读研中介? 大家好,我是从业超过十年的国际教育规划师。在工作中,我发...
湖南日报朗读者·品读⑩ |成为... 品读嘉宾: 朗读是对文字的再创作。虽然朗读的时候,每一句话的下一句话是什么,我是知道的,我是清楚的...