0.87s亚秒级延时!Soul开源14B数字人生成模型
创始人
2026-02-06 18:21:11
0

IT时报记者 毛宇

近日,Soul App AI团队(Soul AI Lab)正式开源实时数字人生成模型SoulX-FlashTalk。该模型为14B参数量级别,是业内首个实现0.87s亚秒级超低延时、32fps高帧率输出,并支持超长视频稳定生成的数字人模型。

在实时交互的核心痛点——延迟优化上,SoulX-FlashTalk通过全栈加速引擎的优化,将首帧视频输出延时降至0.87s亚秒级,消除了传统大模型数字人生成的“滞后感”,使14B级大模型数字人具备即时反应能力,可适配视频通话、直播间互动、智能客服等全场景实时交互需求。

尽管搭载14B参数量的超大DiT模型,该模型推理吞吐量仍达32FPS,高于直播所需的25FPS实时标准,保障了画面输出的流畅度。

针对数字人超长视频生成中易出现的面部不一致、画质下降等“崩坏”问题,SoulX-FlashTalk采用自纠正双向蒸馏技术实现突破。

该技术包含两大核心机制:一是多步回溯自纠正机制,可模拟长序列生成的误差传播并实时修正,主动恢复受损特征;二是完整保留双向注意力机制,区别于传统单向依赖模式,使每一帧生成都能同时参考过去与隐含的未来上下文,从根源上压制身份漂移,确保超长直播中数字人口型、面部细节及背景环境的一致性。

该模型在技术方案上的另一创新的是突破传统数字人仅能“口型对齐”的局限,实现全身动作交互。其支持音频驱动的全身肢体动态合成,而非仅对脸部局部重绘;基于14B DiT模型的建模能力,可有效消除手部畸形与运动模糊,精准呈现手部动作细节。

为平衡生成质量与推理速度,SoulX-FlashTalk采用两阶段训练策略:第一阶段通过延迟感知时空适配结合动态长宽比分桶策略微调,使模型适应低分辨率、短帧序列;第二阶段采用自纠正双向蒸馏技术,利用DMD框架压缩采样步数并移除无分类器引导(CFG)实现加速,搭配多步回溯自纠正机制与随机截断策略,实现高效且显存友好的优化。

在推理加速方面,团队针对8-H800节点设计全栈加速引擎,采用混合序列并行、算子级优化、3D VAE并行化及整链优化等技术,其中混合序列并行使单步推理速度提升约5倍,FlashAttention3算子优化可减少20%延迟,3D VAE并行化实现5倍加速。

此外,团队指出,传统单向模型存在时间不一致、身份漂移等问题,而双向注意力机制的保留,显著提升了生成内容的一致性与细节质量。

据悉,Soul AI团队此前已开源语音合成模型SoulX-Podcast,此次SoulX-FlashTalk的开源标志着其进入开源新阶段。后续,Soul将持续聚焦语音对话合成、视觉交互等核心能力提升,并推进开源工作,与全球开发者共建生态,助力“AI+社交”前沿技术发展。

相关内容

最新资讯

宜通世纪(300310.SZ)... 格隆汇2月6日丨宜通世纪(300310.SZ)公布,为了进一步优化产业布局并借助专业机构的资源优势,...
原创 交... 北京时间2月6日,NBA本赛季中期交易窗口正式上锁,喧嚣了好几天的交易市场终于尘埃落定。这一天下来,...
午盘突发跳水!美政府发布安全警... 昨晚全球金融市场再次迎来崩盘式下跌:美国股市全线下跌,纳斯达克指数遭遇去年4月关税战以来最严重的三日...
中基协注销7家私募基金管理人登... 【大河财立方消息】2月6日,中国证券投资基金业协会发布公告称,注销北京方舟私募基金管理有限公司等7家...
欧莱新材涨停创历史新高 量化基... 2月6日,欧莱新材股价表现强势,收盘报28.91元,创下历史新高。盘后公布的龙虎榜数据显示,当日买卖...
投资界LP周报 | 开年100... 广东千亿母基金来了 日前,广东省财政厅、广东省委金融办、广东省发展改革委联合发布《财政金融协同惠企...
中国银河(06881.HK)决... 中国银河(06881.HK)发布公告,中国银河证券股份有限公司(以下简称“公司”或“发行人”)于20...
纽约期金站上4890美元/盎司... 纽约期金站上4890美元/盎司,日内涨0.03%。现货 黄金亦涨超2%,现报4872.76美元/盎司...
区块链板块2月6日跌1.01%... 证券之星消息,2月6日区块链板块较上一交易日下跌1.01%,浙文互联领跌。当日上证指数报收于4065...