从开源VibeVoice-ASR看语音模型的设计、数据、幻觉和未来
创始人
2026-02-06 17:18:29
0

最近,微软开源了VibeVoice-ASR,我也第一时间进行了体验。首先,对微软团队开源这个模型表示感谢。尽管在测试过程中发现了一些问题,但任何开源工作都值得尊重。作为开源工作,我们没有任何理由要求太多,这些问题也都是可以解决的,况且微调代码也即将开源。并且从我粗浅的直觉和简陋的测试上得出的结论:如果可以从数据覆盖上进一步优化,这个模型应该还是有潜力的。在此,我想基于这个工作,聊一聊VibeVoice-ASR的优点与不足,并分享一些对模型设计和数据的思考。

多任务的模型设计

虽然模型命名为VibeVoice-ASR,但它并非单纯的语音转文字模型。VibeVoice-ASR集成了说话人日志、时间戳以及部分声音事件检测功能。

这样的多任务设计符合大模型时代的技术趋势,也契合未来的用户需求。如今,仅实现语音转录已远远不够。无论是底层模型还是上层应用,乃至用户对智能体验日益提升的期待,都要求我们从语音数据中提取更丰富的信息。 用户对产品的追求不再停留在基础功能,而更多地转向情感价值与类人体验。

关注声音特性

先吐个槽,我非常反感各类PR文章的自夸,动辄宣称“世界第一”。(我能理解,毕竟要给投资人、客户看,也需要曝光度。)但这种风气很容易误导行业外的人。毕竟,包括我在内,99%的负责人今天做什么,取决于早上在自媒体上刷到了什么(借用别人的段子)。

我认为,声音在机器理解用户方面的价值被严重低估了。理解声音,是通往“世界模型”、理解世界不可或缺的一环。

遗憾的是,目前除了Gemini,我还没看到能与之比肩的系统。我也认为这是谷歌布局未来重要的一步。(不得不提一句,至于那些号称超越的,或许在某些测试集和指标上能实现超越,这一点我并不否认。)

VibeVoice-ASR模型其实让我有所期待。至少,它是开源模型中明确对声纹进行建模的,并且在我真实测试集(家庭录音,包括男性、女性、儿童)中,在区分度较大的场景下是可用的。

  • “建模声纹很难吗?”“是的。”

极易受环境干扰

与ASR相比,声纹更易受声学环境干扰。训练数据的覆盖范围、环境噪声、信道差异,以及注册与使用条件的不一致,都会影响最终效果。

声纹具有时变性

声纹会随时间发生漂移,比如儿童的声音变化最快,不同儿童之间的声音区分也很困难,成人的声音也会因状态(如感冒、情绪)而改变。

声纹数据自动标注困难

从数据标注角度看,由于历史上声纹模型效果一般,再加上上述难点,导致自动化标注很难做到准确。

幻觉问题较为突出

在体验VibeVoice-ASR模型的过程中,我发现最明显的问题是幻觉。测试中,我注意到一个特别的现象:

数据中孩子的哭声极容易触发模型的幻觉。

最初我以为是数据过长(约30分钟)导致的,于是特意将哭声部分单独截取出来测试,但幻觉依然出现,比如下面的例子:

哭声语谱图

另外一条数据,中间在含糊不清的地方发生幻觉:

这背后最主要的原因,应该还是接下来要谈的数据覆盖问题。

长度真的那么重要吗?

对于文本大模型,长度等于上下文,上下文窗口的确很重要。但对于语音模型,特别是偏重转录的模型,在当前阶段,长度是否真的如此关键,我持保留态度。

VibeVoice-ASR提出的理由是:

首先,关于上下文断裂问题——纯音频的上下文真能解决这个问题吗?或许能部分缓解,但对多数场景来说,可能并非至关重要。文本层面的上下文或许已足以提升准确率。

综上所述,在当前条件尚不成熟的情况下,过度强调长度或许并不是最优先的。相比长度,我们更应关注模型的稳定性与准确性。当然,如果能处理更长的音频,那自然是更好的。

“垃圾”数据也有价值

从我测试中遇到的幻觉问题,结合当前主流数据清洗流程的做法,会发现一个现象:

人们常用多个模型交叉验证,筛选出“有用且正确”的数据。

事实上,它们的价值在今天更应被重视。原因如下:

幸存者偏差

这种方式筛选出的数据,都是以往模型基础上的“幸存者”,数据质量虽高,但对模型来说难度较低。换句话说,大量这类数据对模型能力的提升并无太大增益。如果模型只用这类数据训练,那么无论输入什么,哪怕是人耳都难以听清的语音,模型都可能用最大似然的方式“猜”一个最可能的结果,而不是“承认困难”。一个懂得“示弱”的模型,或许也有其价值。

垃圾”数据的价值

所谓“垃圾数据”,正是那些被自动标注流程过滤掉的数据,它们的价值应当被重新审视。比如我测试数据中的哭声片段,很可能会被清洗流程过滤掉。再加上这类声音重复性强,更容易导致模型产生幻觉。

在强化学习中,也应该加强对“坏”数据如何给予正确反馈的机制。

总结

非常高兴看到越来越多的开源工作,推动模型能力逐步提升。同时我们也应认识到,语音远非一个已被彻底解决的问题。无论是真实场景的数据表现,还是实际落地应用,都还有很长的路要走。随着AI技术的进步,市场对更优秀的语音交互、合成与理解的需求显著增加。真心希望有实力的公司能坚持投入,去做那些困难却正确的事。

相关内容

最新资讯

宜通世纪(300310.SZ)... 格隆汇2月6日丨宜通世纪(300310.SZ)公布,为了进一步优化产业布局并借助专业机构的资源优势,...
原创 交... 北京时间2月6日,NBA本赛季中期交易窗口正式上锁,喧嚣了好几天的交易市场终于尘埃落定。这一天下来,...
午盘突发跳水!美政府发布安全警... 昨晚全球金融市场再次迎来崩盘式下跌:美国股市全线下跌,纳斯达克指数遭遇去年4月关税战以来最严重的三日...
中基协注销7家私募基金管理人登... 【大河财立方消息】2月6日,中国证券投资基金业协会发布公告称,注销北京方舟私募基金管理有限公司等7家...
欧莱新材涨停创历史新高 量化基... 2月6日,欧莱新材股价表现强势,收盘报28.91元,创下历史新高。盘后公布的龙虎榜数据显示,当日买卖...
投资界LP周报 | 开年100... 广东千亿母基金来了 日前,广东省财政厅、广东省委金融办、广东省发展改革委联合发布《财政金融协同惠企...
中国银河(06881.HK)决... 中国银河(06881.HK)发布公告,中国银河证券股份有限公司(以下简称“公司”或“发行人”)于20...
纽约期金站上4890美元/盎司... 纽约期金站上4890美元/盎司,日内涨0.03%。现货 黄金亦涨超2%,现报4872.76美元/盎司...
区块链板块2月6日跌1.01%... 证券之星消息,2月6日区块链板块较上一交易日下跌1.01%,浙文互联领跌。当日上证指数报收于4065...