0.87s亚秒级延时！Soul开源14B数字人生成模型_科技资讯_新闻资讯

0.87s亚秒级延时！Soul开源14B数字人生成模型

创始人

2026-02-06 18:21:11

0次

IT时报记者毛宇

近日，Soul App AI团队（Soul AI Lab）正式开源实时数字人生成模型SoulX-FlashTalk。该模型为14B参数量级别，是业内首个实现0.87s亚秒级超低延时、32fps高帧率输出，并支持超长视频稳定生成的数字人模型。

在实时交互的核心痛点——延迟优化上，SoulX-FlashTalk通过全栈加速引擎的优化，将首帧视频输出延时降至0.87s亚秒级，消除了传统大模型数字人生成的“滞后感”，使14B级大模型数字人具备即时反应能力，可适配视频通话、直播间互动、智能客服等全场景实时交互需求。

尽管搭载14B参数量的超大DiT模型，该模型推理吞吐量仍达32FPS，高于直播所需的25FPS实时标准，保障了画面输出的流畅度。

针对数字人超长视频生成中易出现的面部不一致、画质下降等“崩坏”问题，SoulX-FlashTalk采用自纠正双向蒸馏技术实现突破。

该技术包含两大核心机制：一是多步回溯自纠正机制，可模拟长序列生成的误差传播并实时修正，主动恢复受损特征；二是完整保留双向注意力机制，区别于传统单向依赖模式，使每一帧生成都能同时参考过去与隐含的未来上下文，从根源上压制身份漂移，确保超长直播中数字人口型、面部细节及背景环境的一致性。

该模型在技术方案上的另一创新的是突破传统数字人仅能“口型对齐”的局限，实现全身动作交互。其支持音频驱动的全身肢体动态合成，而非仅对脸部局部重绘；基于14B DiT模型的建模能力，可有效消除手部畸形与运动模糊，精准呈现手部动作细节。

为平衡生成质量与推理速度，SoulX-FlashTalk采用两阶段训练策略：第一阶段通过延迟感知时空适配结合动态长宽比分桶策略微调，使模型适应低分辨率、短帧序列；第二阶段采用自纠正双向蒸馏技术，利用DMD框架压缩采样步数并移除无分类器引导（CFG）实现加速，搭配多步回溯自纠正机制与随机截断策略，实现高效且显存友好的优化。

在推理加速方面，团队针对8-H800节点设计全栈加速引擎，采用混合序列并行、算子级优化、3D VAE并行化及整链优化等技术，其中混合序列并行使单步推理速度提升约5倍，FlashAttention3算子优化可减少20%延迟，3D VAE并行化实现5倍加速。

此外，团队指出，传统单向模型存在时间不一致、身份漂移等问题，而双向注意力机制的保留，显著提升了生成内容的一致性与细节质量。

据悉，Soul AI团队此前已开源语音合成模型SoulX-Podcast，此次SoulX-FlashTalk的开源标志着其进入开源新阶段。后续，Soul将持续聚焦语音对话合成、视觉交互等核心能力提升，并推进开源工作，与全球开发者共建生态，助力“AI+社交”前沿技术发展。

机制推理实时序列技术 Soul 传统模型数字并行 s亚秒级全栈

上一篇：AI将导致码农失业？资深程序员自述已不再手工写代码，拒绝AI很危险，职业将迎分化

下一篇：千行百业的AI图景，从“A超”展开

0.87s亚秒级延时！Soul开源14B数字人生成模型

相关内容

最新资讯