小米开源“首个”语音大模型，试图搅局AI赛道？_科技资讯_新闻资讯

小米开源“首个”语音大模型，试图搅局AI赛道？

创始人

2025-09-19 17:14:30

0次

9月19日，小米宣布开源首个原生端到端语音大模型Xiaomi-MiMo-Audio，瞬间引发科技圈关注。据小米 xiaomi Mimo官方微信公众号发布消息称，该模型基于创新预训练架构，利用上亿小时训练数据，首次在语音领域实现基于ICL的少样本泛化，突破传统模型依赖大规模标注数据的局限。在音频理解基准MMAU测试集上，超过谷歌闭源语音模型Gemini-2.5-Flash ；在面向音频复杂推理的基准Big Bench Audio S2T任务里，也胜过OpenAI闭源语音模型GPT-4o-Audio-Preview。

国内在端到端语音大模型领域并非只有小米。阶跃星辰于9月1日举办发布会，正式发布了开源端到端语音大模型Step-Audio 2 mini。在多个国际基准测试集斩获SOTA成绩，统一语音理解、音频推理与生成建模，还率先支持语音原生Tool Calling能力以实现联网搜索。阶跃星辰也在此次发布会上宣称，在通用多模态音频理解测试集MMAU等任务中，其综合性能超越Qwen-Omni、Kimi-Audio等所有开源端到端语音模型，多数任务上还超过GPT-4o Audio。更早前，2024年8月31日，智谱在CNCC2024大会推出端到端语音模型GLM-4-Voice，能直接理解和生成中英文语音，实现实时对话，具备情感表达等优势，延时低且支持随时打断。GLM-4-Voice由三部分构成，经数百万小时音频和数千亿token预训练，已开源并在清言app上线。

小米此次开源语音大模型，是否会让AI语音赛道再添变数?

闭源模型语音赛道音频 Gemini- -Voice 任务小米阶跃基准

上一篇：新能源与储能热管理升级深圳联腾达导热硅胶片构建安全屏障

下一篇：释永信案最新进展：又有多人被带走协助调查

小米开源“首个”语音大模型，试图搅局AI赛道？

相关内容

最新资讯