Real-time video generation via diffusion is essential for building general-purpose multimodal interactive AI systems. However, the simultaneous denoising of all video frames with bidirectional attention via an iterative process in diffusion models prevents real-time interaction. While existing distillation methods can make the model autoregressive and reduce sampling steps to mitigate this, they focus primarily on text-to-video generation, leaving the human-AI interaction unnatural and less efficient. This paper targets real-time interactive video diffusion conditioned on a multimodal context, including text, image, and audio, to bridge the gap. Given the observation that the leading on-policy distillation approach Self Forcing encounters challenges (visual artifacts like flickering, black frames, and quality degradation) with multimodal conditioning, we investigate an improved distillation recipe with emphasis on the quality of condition inputs as well as the initialization and schedule for the on-policy optimization. On benchmarks for multimodal-conditioned (audio, image, and text) avatar video generation including HDTF, AVSpeech, and CelebV-HQ, our distilled model matches the visual quality of the full-step, bidirectional baselines of similar or larger size with 20x less inference cost and latency. Further, we integrate our model with audio language models and long-form video inference technique Anchor-Heavy Identity Sinks to build LiveTalk, a real-time multimodal interactive avatar system. System-level evaluation on our curated multi-turn interaction benchmark shows LiveTalk outperforms state-of-the-art models (Sora2, Veo3) in multi-turn video coherence and content quality, while reducing response latency from 1 to 2 minutes to real-time generation, enabling seamless human-AI multimodal interaction.


翻译:通过扩散模型实现实时视频生成对于构建通用多模态交互式人工智能系统至关重要。然而,扩散模型中通过迭代过程对所有视频帧进行双向注意力的同时去噪,阻碍了实时交互。虽然现有的蒸馏方法可以使模型具备自回归特性并减少采样步骤以缓解此问题,但它们主要关注文本到视频生成,导致人机交互不自然且效率较低。本文旨在实现基于多模态上下文(包括文本、图像和音频)的实时交互式视频扩散,以弥合这一差距。鉴于领先的在线策略蒸馏方法 Self Forcing 在多模态条件输入下遇到挑战(如闪烁、黑帧和质量下降等视觉伪影),我们研究了一种改进的蒸馏方案,重点关注条件输入的质量以及在线策略优化的初始化和调度策略。在包括 HDTF、AVSpeech 和 CelebV-HQ 在内的多模态条件(音频、图像和文本)虚拟形象视频生成基准测试中,我们蒸馏出的模型在视觉质量上匹配了相似或更大规模的全步骤、双向基线模型,同时推理成本和延迟降低了 20 倍。此外,我们将模型与音频语言模型以及长视频推理技术 Anchor-Heavy Identity Sinks 集成,构建了 LiveTalk,一个实时多模态交互式虚拟形象系统。在我们策划的多轮交互基准测试上的系统级评估表明,LiveTalk 在多轮视频连贯性和内容质量上优于最先进的模型(Sora2, Veo3),同时将响应延迟从 1 到 2 分钟降低到实时生成,实现了无缝的人机多模态交互。

0
下载
关闭预览

相关内容

ChatAug: 利用ChatGPT进行文本数据增强
专知会员服务
81+阅读 · 2023年3月4日
Python图像处理,366页pdf,Image Operators Image Processing in Python
论文浅尝 | GEOM-GCN: Geometric Graph Convolutional Networks
开放知识图谱
14+阅读 · 2020年4月8日
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员