编辑|陈萍、Panda
继 SAM(Segment Anything Model)、SAM 3D 后,Meta 又有了新动作。
深夜,Meta 放出音频分割模型 SAM Audio,其通过多模态提示(无论是文本、视觉,还是标注时间片段),让人们能够轻松地从复杂的音频混合中分离出任意声音,从而彻底改变音频处理方式。
SAM Audio 的核心是 Perception Encoder Audiovisual(PE-AV),这是推动其实现业界领先性能的技术引擎。
PE-AV 基于 Meta 今年早些时候开源发布的 Perception Encoder 模型,能够支持更先进的计算机视觉系统,帮助人们完成日常任务,其中就包括声音检测。
你可以把 PE-AV 想象成帮助 SAM Audio 运作的耳朵,而 SAM Audio 则是完成音频分割任务的大脑。这两者的结合带来了许多令人兴奋的应用场景。
设想一下:一段乐队演出的录像,只需在画面中点击一下吉他,就能单独分离出吉他的声音。SAM Audio 还可以通过文本提示进行音频分离,比如从户外拍摄的视频中滤除嘈杂的交通噪声。此外,Meta 业内首创的时间跨度提示(span prompts),可以帮助人们一次性解决整段音频中的问题,例如在整期播客录音中去除持续出现的狗叫声等噪音。
Meta 表示,他们正在利用这些技术进展来构建下一代创意媒体工具。相关团队看到了大量潜在的应用场景,包括音频清理、背景噪声移除,以及其他能够帮助用户提升创造力的工具。此次,Meta 向社区开放了 SAM Audio 和 PE-AV,并同时发布了两篇研究论文,分别深入介绍了这两个模型的技术细节。此外,Meta 还发布了:
Meta 还将上述所有成果整合进 Segment Anything Playground,这是一个全新的平台,任何人都可以在其中体验其最新模型。
地址:https://aidemos.meta.com/segment-anything
从即日起,用户可以从平台提供的音频和视频素材库中进行选择,或上传自己的内容,以探索 SAM Audio 的能力。Meta 表示,他们期待继续围绕 SAM 展开讨论 —— 而这一次,也将首次听到用户使用这些突破性新模型所创作出的内容。
用于音频分割的统一多模态提示模型
在此之前,音频分割和编辑一直是一个较为割裂的领域,市面上存在着多种只针对单一用途的工具。作为一个统一模型,SAM Audio 首次支持多种交互方式,这些方式与人们自然理解和思考声音的方式高度契合,并在多项任务上实现了业界领先的性能,包括在文本提示和视觉提示条件下的乐器、人声以及通用声音分离。
SAM Audio 能够在多样且真实的应用场景中稳定运行,支持使用文本、视觉以及时间维度的线索进行音频分割。这种方法为用户提供了对音频分离过程更精确、更直观的控制能力。
该模型提供了三种音频分割方式,这些方式既可以单独使用,也可以灵活组合,以实现所需的分割效果:
模型架构
从核心技术上看,SAM Audio 采用了一种基于流匹配扩散 Transformer 的生成式建模框架。该架构接收一段混合音频以及一个或多个提示信息,将它们编码为共享表示,并生成目标音轨与剩余音轨。
在生成式建模框架之外,研究团队还为 SAM Audio 构建了一套完整的数据引擎,用于解决大规模、高质量音频分离数据难以获取的问题。该数据引擎融合了先进的音频混合技术、自动化的多模态提示生成方法,以及稳健的伪标签(pseudo-labeling)pipeline,从而生成贴近真实应用场景的训练数据,用于提升模型在现实世界中的表现。
该模型基于这一多样化的数据集进行训练,数据集涵盖了真实与合成的混合音频,内容横跨语音、音乐以及各类通用声音事件。先进的音频数据合成策略进一步提升了模型的鲁棒性,确保其在各种复杂环境中都能保持稳定、可靠的表现。
感知编码器(视听版)
第二个模型 PE-AV 是支撑 SAM Audio 效果表现的核心引擎。它为多个关键组件提供能力支持,包括主字幕生成模型以及 SAM Audio Judge(用于音频分离的自动评测模型)。
PE-AV 构建于 Meta Perception Encoder 之上,这是 Meta 于今年 4 月发布的一个开源模型。在此基础上,PE-AV 将先进的计算机视觉能力扩展到了音频领域。正如团队此前在 SAM 3 中将该模型适配用于目标检测一样,这一次又进一步扩展了其框架,使其能够对声音进行编码,从而支持 SAM Audio 对复杂音频混合的分离,并适应那些视觉上下文同样重要的真实世界应用场景。
通过提取逐帧级别的视频特征并将其与音频表示进行对齐,系统能够融合视听信息并为其加上精确的时间标注。这种设计使 SAM Audio 能够准确分离那些在视觉上有明确对应的声源,例如画面中的说话者或正在演奏的乐器,同时也可以结合场景上下文,对画面外发生的声音事件进行推断。
PE-AV 通过在精确的时间点上对齐视频帧与音频,提供了稳健且语义信息丰富的特征表示。这种时间对齐机制对于将所见与所闻进行匹配至关重要,是实现高精度多模态音频分离的基础。如果缺少这一能力,模型将无法获得足够细粒度的视觉理解,从而难以实现灵活且符合人类感知的音频分割效果。
从技术层面来看,PE-AV 融合了多种开源组件和前沿研究成果。除 Meta 的 Perception Encoder 之外,该模型还使用 PyTorchVideo 进行高效的视频处理,利用 FAISS 实现大规模语义搜索,并引入了对比学习框架来提升多模态表示能力。
PE-AV 基于超过 1 亿条视频进行训练,采用大规模多模态对比学习方法,训练数据来自开放数据集以及合成字幕生成流水线,从而确保了数据覆盖的广泛性和模型的强泛化能力。这些要素共同构建了一个灵活且高性能的基础架构,能够支持文本、视觉和时间维度的提示方式,适用于多种音频分离与理解任务。
SAM Audio Judge
Meta 还发布了 SAM Audio Judge,这是一套全新的评测框架与模型,旨在以更加贴近人类感知方式来评估音频分割质量。与传统依赖参考音轨进行对比的评测指标不同,这些指标往往难以捕捉人类真实听感中的细微差别,SAM Audio Judge 提供了一种无需参考音频的客观评测方式,从感知层面对分割后的音频进行评价。
用户可以借助 SAM Audio Judge,在音乐、语音以及音效等不同场景下,对音频分离模型进行评测和比较,从而深入了解输出质量以及音频分离任务本身的内在难度。SAM Audio Judge 的构建始于对 9 个感知维度的定义,其中包括召回率(recall)、精确度(precision)、忠实度(faithfulness)和整体质量(overall quality)等。随后,研究团队依据详细的标注规范,采用五分制量表收集了大量人工评分数据。
在模型设计上,SAM Audio Judge 结合了先进的音频与文本编码器、Transformer 主干网络,以及一种独特的预训练策略,用于提升模型判断输出是否符合文本提示的能力。感知对齐的评测标准、严谨的数据采集流程与创新的模型架构相结合,为推动音频分离领域的发展提供了有力支撑。
SAM Audio-Bench
此外,为了在不同任务之间对模型性能进行一致且有意义的评估,该团队还构建了一个新基准:SAM Audio-Bench。
这是一个全面的音频分离基准,覆盖了所有主要音频领域。包括语音、音乐和通用音效。同时也覆盖了文本、视觉以及时间段提示等多种提示类型。
该团队表示:「该基准能够对分离模型进行公平评测。从而确保该领域的进展是可衡量的。并且与日常使用场景密切相关。」
该团队表示,这种方法可确保 SAM Audio-Bench 更加真实且更具灵活性。它支持从语音和音乐分离,到乐器以及通用声音提取等多种任务。所有能力都统一在一个框架之中。
SAM Audio-Bench 还率先引入了无参考评估(reference-free evaluation)方式。
这使得在不需要孤立参考音轨的情况下,也可以评估音频分离效果。它结合了人工听感测试与 SAM Audio Judge 模型。即使原始音轨不可用,也能提供可靠的评估结果。
通过融合真实世界音频、多模态提示,以及对不同声音领域的全面覆盖,可以说 SAM Audio-Bench 为音频分离系统的测试树立了新标准。这一标准能更好地反映模型在实验室之外的实际使用方式。
结果
SAM Audio 在音频分离技术上取得了显著进展。它在多种基准和任务上超越了此前的最先进模型。
该模型不仅在通用音频分离方面显著领先于以往工作,还在所有音频类别上达到了最佳领域专用模型的性能水平。这些类别包括语音、音乐以及通用声音。
其多模态提示机制支持文本、视觉和点击式输入。这使得模型能够进行灵活、开放域的音频分割。因此既适用于真实环境中的应用,也适用于专业音频场景。
性能评估表明,SAM Audio 在各类模态特定任务中均达到了 SOTA 水平。
混合模态提示方式表现尤为突出。例如将文本与时间段提示结合使用。其效果优于单一模态的方法。
值得注意的是,该模型的运行速度快于实时处理。实时因子约为 0.7 (RTF ≈ 0.7)。在 5 亿到 30 亿参数规模下,都能高效地进行大规模音频处理。
尽管 SAM Audio 在质量和效率方面树立了新标准,但它仍存在一些局限。
展望:音频 AI 的未来
该 Meta 团队表示,SAM Audio 属于 Segment Anything 模型家族,这次也是将音频能力引入了该系列模型。「我们相信 SAM Audio 是目前综合表现最强的音频分离模型。这种统一的方法也为理解复杂声学环境提供了新的可能性。并且能够跨多种模态,对自然提示作出响应。」
此外,Meta 还宣布与美国最大的助听器制造商 Starkey 以及一家面向残障创始人的领先创业加速器 2gether-International 建立了合作关系。这两个合作伙伴都在探索,像 SAM Audio 这样的模型可以如何进一步推动无障碍技术的发展。
Meta 表示:「这种音频工具的普及推广,是迈向更易用、更具创造力、更加包容的 AI 的一步。具备音频感知能力的 AI 未来才刚刚开始。我们期待并支持未来涌现出的创新与发现。」
参考链接
https://ai.meta.com/blog/sam-audio/
https://x.com/AIatMeta/status/2000980784425931067