听得懂人类的“弦外之音”，阶跃星辰开源SOTA级端到端语音大模型_科技资讯_新闻资讯

听得懂人类的“弦外之音”，阶跃星辰开源SOTA级端到端语音大模型

创始人

2025-09-02 10:42:45

0次

9月1日，多模态领域领军企业阶跃星辰正式推出最强开源端到端语音大模型Step-Audio 2 mini。该模型在多个国际基准测试集上斩获SOTA（当前最佳水平）成绩，一举突破AI交互“低双商”瓶颈，为终端设备迈入高效人机交互语音时代注入强劲动力。

技术层面，Step-Audio 2 mini采用真正的端到端多模态架构，创新性地将语音理解、音频推理与生成统一建模。这一设计不仅大幅降低时延、加快输出速度，还能精准捕捉副语言信息、非人声信号等语音关键要素，显著提升语音人机交互的效率与智能上限。目前，开发者可在GitHub、Hugging Face等平台直接下载体验该模型。

Step-Audio 2 mini在多个测试项目中表现亮眼

从测评数据来看，Step-Audio 2 mini表现亮眼。在MMAU、URO Bench、CoVoST 2等多个测试项目中，其综合性能超越Qwen-Omni、Kimi-Audio等开源端到端语音模型，且在大部分任务上优于GPT-4o-audio。尤其在音频理解、语音识别、跨语种翻译、情感与副语言解析等核心任务中，该模型展现出卓越能力，为语音交互场景提供坚实技术支撑。

随着语音交互成为人机主流交互方式，终端设备对语音模型的“智商”与“情商”提出更高要求。Step-Audio 2 mini针对性突破，首创音频推理能力，能精细理解情绪、语调、音乐等副语言及非语音信号，并作出自然回应，让AI真正听懂人类“弦外之音”；同时，它率先支持语音原生Tool Calling能力，可实现联网搜索等操作，既有效解决模型幻觉问题，又赋予语音模型媲美文本模型的强大知识储备与推理能力。

在产业落地方面，阶跃星辰已取得显著成果。此前，吉利发布的吉利银河M9车型，便搭载了该公司的端到端语音大模型，实现行业内端到端语音大模型首次量产上车。自去年推出国内首个千亿参数端到端语音大模型Step-1o Audio后，阶跃星辰持续迭代模型性能，还与鲸鱼机器人、TCL、Cyan青心意创等头部终端厂商达成深度合作，推动语音大模型在多生活场景落地，为消费者带来更智能、便捷的互动体验。

阶跃星辰今年已累计开源8款性能领先的多模态模型，覆盖语音、视频生成、图像编辑、3D、多模态推理等多个领域，持续为全球开源社区贡献多模态技术力量，助力行业创新发展。

终端设备能力推理 mini 模型语音人类星辰 CoVoST 阶跃消息资讯 Step 模态

上一篇：蔚来汽车：8月交付量达31305辆，同比增长55.2%创历史新高

下一篇：星途星纪元E05：以1.5T增程动力与智能安全，引领中型SUV新风尚

听得懂人类的“弦外之音”，阶跃星辰开源SOTA级端到端语音大模型

相关内容

最新资讯