9月1日,多模态领域领军企业阶跃星辰正式推出最强开源端到端语音大模型Step-Audio 2 mini。该模型在多个国际基准测试集上斩获SOTA(当前最佳水平)成绩,一举突破AI交互“低双商”瓶颈,为终端设备迈入高效人机交互语音时代注入强劲动力。
技术层面,Step-Audio 2 mini采用真正的端到端多模态架构,创新性地将语音理解、音频推理与生成统一建模。这一设计不仅大幅降低时延、加快输出速度,还能精准捕捉副语言信息、非人声信号等语音关键要素,显著提升语音人机交互的效率与智能上限。目前,开发者可在GitHub、Hugging Face等平台直接下载体验该模型。
Step-Audio 2 mini在多个测试项目中表现亮眼
从测评数据来看,Step-Audio 2 mini表现亮眼。在MMAU、URO Bench、CoVoST 2等多个测试项目中,其综合性能超越Qwen-Omni、Kimi-Audio等开源端到端语音模型,且在大部分任务上优于GPT-4o-audio。尤其在音频理解、语音识别、跨语种翻译、情感与副语言解析等核心任务中,该模型展现出卓越能力,为语音交互场景提供坚实技术支撑。
随着语音交互成为人机主流交互方式,终端设备对语音模型的“智商”与“情商”提出更高要求。Step-Audio 2 mini针对性突破,首创音频推理能力,能精细理解情绪、语调、音乐等副语言及非语音信号,并作出自然回应,让AI真正听懂人类“弦外之音”;同时,它率先支持语音原生Tool Calling能力,可实现联网搜索等操作,既有效解决模型幻觉问题,又赋予语音模型媲美文本模型的强大知识储备与推理能力。
在产业落地方面,阶跃星辰已取得显著成果。此前,吉利发布的吉利银河M9车型,便搭载了该公司的端到端语音大模型,实现行业内端到端语音大模型首次量产上车。自去年推出国内首个千亿参数端到端语音大模型Step-1o Audio后,阶跃星辰持续迭代模型性能,还与鲸鱼机器人、TCL、Cyan青心意创等头部终端厂商达成深度合作,推动语音大模型在多生活场景落地,为消费者带来更智能、便捷的互动体验。
阶跃星辰今年已累计开源8款性能领先的多模态模型,覆盖语音、视频生成、图像编辑、3D、多模态推理等多个领域,持续为全球开源社区贡献多模态技术力量,助力行业创新发展。