9月19日,小米宣布开源首个原生端到端语音大模型Xiaomi-MiMo-Audio,瞬间引发科技圈关注。据小米 xiaomi Mimo官方微信公众号发布消息称,该模型基于创新预训练架构,利用上亿小时训练数据,首次在语音领域实现基于ICL的少样本泛化,突破传统模型依赖大规模标注数据的局限。在音频理解基准MMAU测试集上,超过谷歌闭源语音模型Gemini-2.5-Flash ;在面向音频复杂推理的基准Big Bench Audio S2T任务里,也胜过OpenAI闭源语音模型GPT-4o-Audio-Preview。
国内在端到端语音大模型领域并非只有小米。阶跃星辰于9月1日举办发布会,正式发布了开源端到端语音大模型Step-Audio 2 mini。在多个国际基准测试集斩获SOTA成绩,统一语音理解、音频推理与生成建模,还率先支持语音原生Tool Calling能力以实现联网搜索。阶跃星辰也在此次发布会上宣称,在通用多模态音频理解测试集MMAU等任务中,其综合性能超越Qwen-Omni、Kimi-Audio等所有开源端到端语音模型,多数任务上还超过GPT-4o Audio。 更早前,2024年8月31日,智谱在CNCC2024大会推出端到端语音模型GLM-4-Voice,能直接理解和生成中英文语音,实现实时对话,具备情感表达等优势,延时低且支持随时打断。GLM-4-Voice由三部分构成,经数百万小时音频和数千亿token预训练,已开源并在清言app上线。
小米此次开源语音大模型,是否会让AI语音赛道再添变数?