IT时报记者 毛宇
近日,Soul App AI团队(Soul AI Lab)正式开源实时数字人生成模型SoulX-FlashTalk。该模型为14B参数量级别,是业内首个实现0.87s亚秒级超低延时、32fps高帧率输出,并支持超长视频稳定生成的数字人模型。
在实时交互的核心痛点——延迟优化上,SoulX-FlashTalk通过全栈加速引擎的优化,将首帧视频输出延时降至0.87s亚秒级,消除了传统大模型数字人生成的“滞后感”,使14B级大模型数字人具备即时反应能力,可适配视频通话、直播间互动、智能客服等全场景实时交互需求。
尽管搭载14B参数量的超大DiT模型,该模型推理吞吐量仍达32FPS,高于直播所需的25FPS实时标准,保障了画面输出的流畅度。
针对数字人超长视频生成中易出现的面部不一致、画质下降等“崩坏”问题,SoulX-FlashTalk采用自纠正双向蒸馏技术实现突破。
该技术包含两大核心机制:一是多步回溯自纠正机制,可模拟长序列生成的误差传播并实时修正,主动恢复受损特征;二是完整保留双向注意力机制,区别于传统单向依赖模式,使每一帧生成都能同时参考过去与隐含的未来上下文,从根源上压制身份漂移,确保超长直播中数字人口型、面部细节及背景环境的一致性。
该模型在技术方案上的另一创新的是突破传统数字人仅能“口型对齐”的局限,实现全身动作交互。其支持音频驱动的全身肢体动态合成,而非仅对脸部局部重绘;基于14B DiT模型的建模能力,可有效消除手部畸形与运动模糊,精准呈现手部动作细节。
为平衡生成质量与推理速度,SoulX-FlashTalk采用两阶段训练策略:第一阶段通过延迟感知时空适配结合动态长宽比分桶策略微调,使模型适应低分辨率、短帧序列;第二阶段采用自纠正双向蒸馏技术,利用DMD框架压缩采样步数并移除无分类器引导(CFG)实现加速,搭配多步回溯自纠正机制与随机截断策略,实现高效且显存友好的优化。
在推理加速方面,团队针对8-H800节点设计全栈加速引擎,采用混合序列并行、算子级优化、3D VAE并行化及整链优化等技术,其中混合序列并行使单步推理速度提升约5倍,FlashAttention3算子优化可减少20%延迟,3D VAE并行化实现5倍加速。
此外,团队指出,传统单向模型存在时间不一致、身份漂移等问题,而双向注意力机制的保留,显著提升了生成内容的一致性与细节质量。
据悉,Soul AI团队此前已开源语音合成模型SoulX-Podcast,此次SoulX-FlashTalk的开源标志着其进入开源新阶段。后续,Soul将持续聚焦语音对话合成、视觉交互等核心能力提升,并推进开源工作,与全球开发者共建生态,助力“AI+社交”前沿技术发展。