商汤SekoTalk实现25fps推理速度与3.5s首帧延迟,为实时语音数字人发展再添动力

发布时间:2026-02-17 12:20:18admin

在数字人技术快速发展的当下,生成效率依旧是行业亟待解决的核心难题。商汤科技依托在生成式AI和多模态交互领域的扎实积淀,研发出实时语音驱动数字人技术——SekoTalk。借助多维度的创新技术手段,SekoTalk大幅提高了数字人视频的生成效率,在8卡服务器环境中,生成速度可达25 fps,首帧延迟仅3.5秒,在行业内率先达成实时生成的目标。此外,SekoTalk还能够支持多人场景、多语言环境下的口型精准适配,以及超长时间的稳定生成效果。这一技术突破了数字人发展过程中的性能限制,为数字人实现大规模、实时化的应用拓展了更多空间。

SekoTalk今年8月上线,应用在商汤Seko、如影数字人等产品中,已助力用户创作出数十万部作品,并诞生了全网播放量超2000万播放的爆款作品。

算法系统协同:实现极致性价比突破

生成效率是数字人走向实用化的关键,而实时性又是生成效率的北极星。SekoTalk通过模型蒸馏,模型结构优化,以及模型与系统的协同设计,在保证生成质量的前提下,实现推理效率的跨越式提升。

和其他方案比起来,SekoTalk的性价比优势十分突出:开源模型生成一段5秒的视频往往要超过十分钟,商用闭源模型生成5秒视频通常也需要1到10分钟左右。而SekoTalk在8卡服务器上的生成速度能达到25帧每秒,就算把SekoTalk和多模态模型结合使用,整个系统的首帧延迟也能低至3.5秒。

Phased DMD分布匹配蒸馏技术,无限逼近base模型效果:

以往在扩散模型蒸馏方面的实践表明,低步数生成质量往往受限于等效模型的容量。而当前主流的SOTA视频生成模型已充分验证混合专家(MoE)技术在扩散模型领域的显著潜力——在不增加推理成本的前提下,能够有效提升等效模型容量,从而带来更优的性能表现。不过,MoE技术在扩散模型蒸馏场景中的应用尚未得到深入探索。商汤科技团队研究发现,若直接将分布匹配蒸馏(DMD)应用于MoE模型,会导致生成视频的运动流畅度与指令遵循能力下降。针对这一问题,团队提出了Phased DMD技术,将去噪过程构建为多阶段的MoE模型架构。该技术不仅能原生适配MoE模型,对于非MoE的教师模型,也可通过蒸馏将其转化为MoE学生模型。这一创新显著增强了蒸馏后模型生成内容的动态效果与多样性,使SekoTalk在推理开销降低25倍的情况下,仍能保持教师模型原有的肢体运动自然度与情绪表达能力。除了在SekoTalk上的应用,Phased DMD还对开源社区常用的基础模型进行了蒸馏优化并反馈至社区,相关优势已获得开源社区的认可,进一步验证了该技术的通用性与有效性。

LightX2V采用与模型协同设计的方式,可支持低资源环境下的部署。作为商汤科技开源的行业内首个能实现实时视频生成的推理框架,LightX2V在模型与系统的设计阶段,就将低比特量化感知训练、稀疏注意力等原生优化手段融入其中,再搭配自研的“SPARSE+NVFP4+低比特通信”高效注意力算子,使得模型在完成训练后即可直接进行低资源部署。

从测试数据来看,在不同GPU硬件环境下,LightX2V均能实现 SekoTalk 的高效推理,为不同场景的落地提供灵活支撑。

声形同步:多语言+多人场景口型精准匹配

传统数字人技术在处理多语言、多人交互的复杂场景时,常出现口型与语音匹配不准的问题。SekoTalk通过一系列创新设计,实现了从单人口形到多人互动的高度精准的声形同步。

在2D数字人生成领域,部分研究工作仍采用早期wav2vec2系列预训练语音编码器实现角色驱动。商汤团队依托在3D数字人语音驱动技术UniTalker上积累的算法经验,意识到语音编码器的选型对数字人驱动效果起着关键作用。 为此,研究团队针对wav2vec2、hubert、wavlm、whisper等多款语音编码器,开展了2D数字人驱动场景下的性能对比探究。结果显示:即便采用多语言预训练的wav2vec2-large-xlsr-53模型,其在英语口型驱动的精准度及多语言泛化能力的定量评测中,表现仍不及其他几款编码器。 通过系统的消融实验验证后,SekoTalk最终选用了本次探究中性能最优的音频编码器;结合规模化训练优化,该模型在中英文、多小语种场景,以及日常对话、说唱等多样化表达情境中,均实现了高精度的数字人驱动效果。

音视频帧率解耦,防止细节丢失:主流视频生成模型采用“1+4N”时序压缩机制,为达成与视频帧的精准同步,SekoTalk对音频处理分支展开了细致优化。它创新性地将视频帧率(16-25fps)与语音特征帧率(50fps)进行解耦,规避了传统下采样方式导致的口型细节丢失问题,让音频能够和任意帧率的视频在时序上实现对齐,确保音频与画面的高质量同步。

多人场景高度可控:借助良好的模型泛化能力和创新的掩码注意力机制(Attention Mask),SekoTalk可在多人对话场景中,独立、精准地控制每个角色的口型与动作,输出自然流畅的群组互动效果,拓展了技术的适用场景和应用潜力。

高效能、低成本的语音模块:在文生视频领域,人们常利用文本条件的Classifier-Free Guidance(CFG)来优化视频生成质量;而在数字人生成领域,过往研究也采用类似思路,通过语音条件的CFG提升口型驱动的精准度,但这会比仅用文本条件生成视频增加50%的计算成本。此外,文本条件的CFG往往会导致生成画面过饱和,同理,语音条件的CFG在提高口型驱动准确性时,也常使生成的人脸画面显得夸张且不自然。商汤团队提出,通过优化语音注入模块的设计,能够从根本上解决这一问题。借鉴DiT的设计理念,研究团队在语音模块中引入了Adaptive Layer Normalization(AdaLN),并以可学习参数的注入方式替代传统的Linear Projection,在保证生成表现力的基础上降低了计算开销。经过这些优化,SekoTalk模型无需依赖语音条件的CFG,就能实现精准的嘴形驱动。这一改进不仅减少了计算成本,还避免了因使用语音条件的CFG而需在口型准确性与脸部画面自然性之间做出权衡的问题。

超长时稳定生成:告别画面漂移与人物不一致

在生成长视频时,画面色彩漂移和人物ID不一致,一直是行业的重要挑战。SekoTalk提出混合参考图注入等方案,有效平衡动作多样性与画面稳定性。

混合参考图注入策略,兼顾“段内稳定”与“段外泛化”:通过在训练阶段随机选择片段内、外的参考图,并辅助标志位指示参考图来源,使模型同时掌握了“段内稳定”与“段外泛化”两种能力。在推理时灵活切换,有效兼顾了动作多样性与画面稳定性。

高低语义特征联合注入,加快模型收敛速度:采用“高语义特征+低语义特征”的双通道注入机制,利用不同层级的语义信息引导模型,这不仅加强了人物ID的一致性,还加速了模型的收敛。

分离式Patchify编码,高保真条件注入:将加噪视频、参考图、前序帧等不同类型的特征交给独立的Patchify分支处理,使模型注意力更容易区分并理解多源信息。这不仅增强了长视频生成中的人物一致性,还提升了续写的连续性与稳定性。

SekoTalk在隐空间续写的效率优化方面表现突出,能保障续写流畅度:具体而言,它在时序维度融入前序帧特征,直接复用前一生成片段末尾的隐空间特征,省去了传统方案里“解码-再编码”的多余步骤;同时结合层级化KV缓存与因果注意力机制,既保证了续写的稳定性,又显著提高了长视频生成的推理效率。

SekoTalk的技术价值已通过实践得到验证。作为首个支持2人以上对口型、生成2分钟长视频的免费技术体验平台,其在线体验平台已产出大量作品,SekoTalk模型也已集成到Seko、如影数字人等产品中使用。另外,SekoTalk实时版在情感陪伴、在线教育、专业咨询领域的实时交互案例,也体现出它推动数字人迈向更自然、智能、实时的未来的潜力。