与吉利等深度合作,阶跃星辰语音大模型能理解情绪、语调
创始人
2025-09-04 04:13:17
0

阶跃星辰近日发布最强开源端到端语音大模型Step-Audio 2 mini,该模型在多个国际基准测试集上取得SOTA(State-of-The-Art,即当前最佳水平)成绩。

在技术层面,Step-Audio 2 mini采用了真正的端到端多模态架构,并将语音理解、音频推理与生成统一建模,不仅时延更低、输出更快,还能更加精准地理解副语言信息、非人声信号等语音要素,提升了语音人机交互的效率和智能程度。目前,Step-Audio 2 mini已经可在GitHub、Hugging Face等平台下载并体验。

根据测评,这款模型在音频理解、语音识别、跨语种翻译、情感与副语言解析、等任务中表现突出,综合性能超越Qwen-Omni、Kimi-Audio在内的所有开源端到端语音模型,并在大部分任务上超越GPT-4o-audio。

随着语音交互成为人机主要交互方式,智能终端设备对语音模型的智商及情商水平提出了更高要求。Step-Audio 2 mini首创了音频推理能力,能对情绪、语调、音乐等副语言和非语音信号进行精细理解、推理并自然回应,由此让AI听懂人类的“弦外之音”;同时,该模型率先支持语音原生的Tool Calling能力,可实现联网搜索等操作,有效解决模型幻觉问题,并让语音模型像文本模型一样具有更强大的知识储备和推理能力。

在此之前,吉利汽车发布了搭载阶跃星辰端到端语音大模型的吉利银河M9,这是行业内端到端语音大模型首次实现量产上车。据阶跃星辰相关人士介绍,自去年发布国内首个千亿参数端到端语音大模型Step-1o Audio以来,该公司持续迭代模型性能,并跟吉利、鲸鱼机器人、TCL、Cyan 青心意创等头部终端厂商达成深度合作,让语音大模型在生活场景中为消费者提供更加智能、便捷的互动体验。

今年以来,阶跃星辰已经开源了 8 款性能领先的多模态模型,覆盖语音、视频生成、图像编辑、3D、多模态推理等多个类别,为全球开源社区贡献多模态力量。

南方+记者 郜小平

相关内容

最新资讯

WP720刷安卓系统,体验全新... 你有没有想过,你的WP720手机也能焕发青春,升级到安卓系统呢?没错,就是那个让无数手机用户为之疯狂...
用电脑自制安卓系统,探索个性化... 你有没有想过,不用花钱就能拥有一台全新的安卓系统?没错,就是那种可以自己动手制作的安卓系统!听起来是...
安卓abd命令停用系统更新,使... 你有没有想过,你的安卓手机突然变得“懒惰”了?没错,就是那种不再主动给你推送系统更新的“懒惰”。别急...
吉林省教育考试院重要发布 日前,长春日报融媒体记者从吉林省教育考试院获悉,吉林省2026年普通高考报名相关规定已经出台,具体内...
手机安卓系统占了多少g,占据手... 你有没有想过,那个小小的手机里,竟然装了一个庞大的安卓系统?今天,就让我带你一探究竟,揭开这个神秘的...
我市联合开展校服质量监督检查 为切实加强校服产品质量监管,保障学生健康与安全,9月4日至5日,市市场监管局联合市教育局先后到阳东区...
小米mix升安卓8.0系统,畅... 你有没有听说?小米Mix的用户们最近可是乐开了花呢!因为,他们的宝贝手机终于升级到了安卓8.0系统啦...
珍惜激情燃烧的岁月 每个人,都有激情燃烧的岁月;每个人,都有顺境和逆境;每个人,都有自己的人生轨迹和修为;每个人,都有属...
芒东镇召开庆祝第41个教师节大... 金秋九月,丹桂飘香。为热烈庆祝第41个教师节,大力弘扬尊师重教优良传统,进一步激发全镇教育工作者的责...
红米4是系统安卓系统吗,性能与... 你有没有想过,你的手机里那个熟悉的红米4,它的系统到底是不是安卓的呢?别急,今天就来给你揭秘这个谜团...