听得懂人类的“弦外之音”,阶跃星辰开源SOTA级端到端语音大模型
创始人
2025-09-02 10:42:45
0

9月1日,多模态领域领军企业阶跃星辰正式推出最强开源端到端语音大模型Step-Audio 2 mini。该模型在多个国际基准测试集上斩获SOTA(当前最佳水平)成绩,一举突破AI交互“低双商”瓶颈,为终端设备迈入高效人机交互语音时代注入强劲动力。

技术层面,Step-Audio 2 mini采用真正的端到端多模态架构,创新性地将语音理解、音频推理与生成统一建模。这一设计不仅大幅降低时延、加快输出速度,还能精准捕捉副语言信息、非人声信号等语音关键要素,显著提升语音人机交互的效率与智能上限。目前,开发者可在GitHub、Hugging Face等平台直接下载体验该模型。

Step-Audio 2 mini在多个测试项目中表现亮眼

从测评数据来看,Step-Audio 2 mini表现亮眼。在MMAU、URO Bench、CoVoST 2等多个测试项目中,其综合性能超越Qwen-Omni、Kimi-Audio等开源端到端语音模型,且在大部分任务上优于GPT-4o-audio。尤其在音频理解、语音识别、跨语种翻译、情感与副语言解析等核心任务中,该模型展现出卓越能力,为语音交互场景提供坚实技术支撑。

随着语音交互成为人机主流交互方式,终端设备对语音模型的“智商”与“情商”提出更高要求。Step-Audio 2 mini针对性突破,首创音频推理能力,能精细理解情绪、语调、音乐等副语言及非语音信号,并作出自然回应,让AI真正听懂人类“弦外之音”;同时,它率先支持语音原生Tool Calling能力,可实现联网搜索等操作,既有效解决模型幻觉问题,又赋予语音模型媲美文本模型的强大知识储备与推理能力。

在产业落地方面,阶跃星辰已取得显著成果。此前,吉利发布的吉利银河M9车型,便搭载了该公司的端到端语音大模型,实现行业内端到端语音大模型首次量产上车。自去年推出国内首个千亿参数端到端语音大模型Step-1o Audio后,阶跃星辰持续迭代模型性能,还与鲸鱼机器人、TCL、Cyan青心意创等头部终端厂商达成深度合作,推动语音大模型在多生活场景落地,为消费者带来更智能、便捷的互动体验。

阶跃星辰今年已累计开源8款性能领先的多模态模型,覆盖语音、视频生成、图像编辑、3D、多模态推理等多个领域,持续为全球开源社区贡献多模态技术力量,助力行业创新发展。

相关内容

最新资讯

全新博越“至好臻品 挚爱共鉴”... 2025年8月30日,在夏末初秋的明媚阳光中,全新博越“至好臻品 挚爱共鉴”区域上市暨交付家宴于浙江...
驰骋山水间 邂逅徽文化——千名... 2025年8月30日,2025国际汽联生态拉力杯(中国站)“跟着赛事游安徽”系列主题活动——“千名车...
山西喷雾炭黑企业综合实力TOP... TOP1:宝驰化工科技有限公司 推荐指数:⭐⭐⭐⭐⭐ 宝驰化工科技有限公司专注于炭黑及喷雾炭黑产品的...
攀钢钒“功勋铸机”升级,服役3... 8月31日,随着钢水流入中间包、缓慢注入结晶器,再经扇形段冷却与矫直,最终形成形状规范的连铸坯——这...
原创 车... 车子多久该做一次四轮定位?老司机说出真相,别被汽修店忽悠了 哎,说起来这事儿我就气不打一处来。前阵子...
原创 增... 前几天去逛车展,吓我一跳 —— 以前就理想、问界几家卖增程车,现在可好,广汽、智己、小鹏全都凑过来了...
原创 “... 当下,中国造车新势力的竞争格局正在经历深刻变革,曾经“蔚小理”三足鼎立的局面已被打破,如今理想汽车增...
让用户“安心”,智电时代广丰做... 作者:王珊珊 每一个时代,有每一个时代的主题。 油车时代,丰田汽车的核心卖点是“安全”、“安心”;智...
原创 油... 上周末跟哥们去郊区钓鱼,走半道上油表灯突然就亮了,那一路荒山野岭的,导航显示最近的加油站还在 20 ...