小米开源“首个”语音大模型,试图搅局AI赛道?
创始人
2025-09-19 17:14:30
0

9月19日,小米宣布开源首个原生端到端语音大模型Xiaomi-MiMo-Audio,瞬间引发科技圈关注。据小米 xiaomi Mimo官方微信公众号发布消息称,该模型基于创新预训练架构,利用上亿小时训练数据,首次在语音领域实现基于ICL的少样本泛化,突破传统模型依赖大规模标注数据的局限。在音频理解基准MMAU测试集上,超过谷歌闭源语音模型Gemini-2.5-Flash ;在面向音频复杂推理的基准Big Bench Audio S2T任务里,也胜过OpenAI闭源语音模型GPT-4o-Audio-Preview。

国内在端到端语音大模型领域并非只有小米。阶跃星辰于9月1日举办发布会,正式发布了开源端到端语音大模型Step-Audio 2 mini。在多个国际基准测试集斩获SOTA成绩,统一语音理解、音频推理与生成建模,还率先支持语音原生Tool Calling能力以实现联网搜索。阶跃星辰也在此次发布会上宣称,在通用多模态音频理解测试集MMAU等任务中,其综合性能超越Qwen-Omni、Kimi-Audio等所有开源端到端语音模型,多数任务上还超过GPT-4o Audio。 更早前,2024年8月31日,智谱在CNCC2024大会推出端到端语音模型GLM-4-Voice,能直接理解和生成中英文语音,实现实时对话,具备情感表达等优势,延时低且支持随时打断。GLM-4-Voice由三部分构成,经数百万小时音频和数千亿token预训练,已开源并在清言app上线。

小米此次开源语音大模型,是否会让AI语音赛道再添变数?

相关内容

最新资讯

河北省校内校外双向发力推动中小... 教育部简报〔2025〕第23期 中国农业大学认真学习贯彻习近平总书记关于教育的重要论述,深入实施国家...
港媒:香港黄金盗窃案37岁主谋... 【环球网报道 记者 徐思琦】据香港星岛头条网9月19日报道,香港红磡一间黄金及珠宝首饰加工工场17日...
90后北大硕士,火速升任CEO 空缺半年后,永辉超市迎来90后CEO!曾担任调改组组长 本文自南都·湾财社。 采写 | 南都·湾财社...
忻州市第六中学2025级学生校... 忻州市第六中学2025级学生校服选用模式、款式及第三方招标代理机构公示 为扎实推进清廉学校建设工作,...
新疆维吾尔自治区主席:谁图谋破... 撰文 | ‍‍董鑫9月19日,国务院新闻办公室发布《新时代党的治疆方略的成功实践》白皮书。白皮书指出...
指南者留学学长说:重修 12 ... 一、留学契机刚进大学时,我和很多同龄人一样对未来迷茫,既没有清晰的职业规划,也没意识到绩点的重要性,...
释永信案最新进展:又有多人被带... 少林寺原住持释永信涉嫌刑事犯罪、挪用侵占项目资金寺院资产一案,目前又有进展。 记者从相关渠道独家获悉...
高三家长必看:“名校+名企”强... 9月8日,北京理工大学与中国商用飞机有限责任公司签署“大飞机班”合作框架协议,依托学校教学资源和中国...
开放大学:成人教育的灵活之选,... 开放大学(以国家开放大学为代表)是教育部直属的成人教育机构,其本质是成人高等教育的一种形式,与自考、...
孩子:人这一生,越干净,越走运 有没有家长想过,同样一个班级,为什么有人总是得到帮助,有人却备受冷落? 通常,家长以为,成绩好不好,...