摘要—交互式生成视频(Interactive Generative Video, IGV)作为一项关键技术,正在应对各领域对高质量、交互性视频内容日益增长的需求。本文将 IGV 定义为一种结合了生成能力与交互功能的技术,既能够生成多样化、高质量的视频内容,又能够通过控制信号和响应反馈实现用户参与。我们综述了 IGV 当前的应用格局,聚焦于三个主要领域:(1)游戏,IGV 实现了虚拟世界中的无限探索;(2)具身人工智能(Embodied AI),IGV 作为具备物理感知能力的环境生成器,用于训练代理体在动态演化场景中的多模态交互;(3)自动驾驶,IGV 提供闭环仿真能力,用于安全关键的测试与验证。为引导未来的发展,我们提出了一个全面的框架,将理想的 IGV 系统分解为五个核心模块:生成、控制、记忆、动态建模与智能。进一步地,我们系统分析了实现每个模块所面临的技术挑战与未来方向,例如实现实时生成、支持开放域控制、保持长期一致性、准确模拟物理规律以及融合因果推理。我们相信,这一系统性分析将促进 IGV 领域的研究与技术发展,推动该技术迈向更复杂、更具实用性的应用。
关键词—交互式生成视频;视频生成;视频扩散模型;电子游戏;具身人工智能;自动驾驶。
近年来,从数字娱乐到工业应用,各领域对高质量交互式视频的需求显著增长。这一趋势反映了视频技术在仿真、决策支持和内容创作等应用中的日益重要作用。与此同时,受益于生成建模范式的飞速发展,尤其是扩散模型(Diffusion Models)[12–15] 和下一帧预测方法(Next-Token Prediction Approaches)[16–18] 的推动,视频生成技术也取得了显著进展 [1–11]。现代视频生成系统不仅能生成高度逼真的输出,还能对生成内容进行精确控制,为多个领域带来了前所未有的应用机会。 基于这些新兴需求与技术进展,本文对交互式生成视频(Interactive Generative Video, IGV)技术进行了全面综述。为建立讨论基础,我们首先引入 IGV 的概念,该技术具备两个关键特征。其一,IGV 是一种生成式系统,利用在大规模视频数据集上训练的生成模型,生成多样化、高质量的开放域视频内容;其二,IGV 具有交互性,能够通过控制信号和响应反馈实现用户在线参与,使用户能够通过交互完成特定任务或体验。 根据我们的 IGV 定义,图1 展示了三个主要 IGV 应用方向的发展轨迹:游戏、具身人工智能和自动驾驶。在游戏领域 [19–35],电子游戏本质上结合了视觉输出与玩家交互,完美契合 IGV 的核心特性。IGV 能够创建可无限探索的交互式虚拟世界,根据玩家的偏好与技能动态生成并个性化游戏内容。此外,IGV 的生成能力显著简化了游戏开发流程,减少了对人工素材制作的依赖,降低了开发成本并提高了效率。代表性实例包括 Oasis [22] 和 WHAM [26],它们已发布可供公众试玩的版本,虽仍处于早期阶段,但初步展示了 IGV 在游戏中的潜力。 在具身人工智能(Embodied AI)领域 [36–48],IGV 是构建真实且具交互性的机器人仿真环境的关键。它可生成高保真视频序列,用于任务规划与可视化,帮助机器人更好地理解并与环境交互。同时,IGV 提供多样化的合成场景,有效缓解训练数据不足的问题,从而提升策略学习能力,使机器人能在不同任务和环境中实现泛化。 在自动驾驶领域 [49–64],IGV 提供了超越传统基于物理模拟器的高级仿真能力。它能基于不同控制输入生成高保真的视频仿真,支持在多样化驾驶场景中的全面训练。此外,IGV 能够预测环境变化与潜在风险,提升实时决策能力,并提供安全平台,用于测试自动驾驶系统在罕见或高危场景下的性能。 尽管 IGV 在游戏、具身人工智能和自动驾驶等领域展现出广阔的应用前景,为更好地推动其发展,我们提出了一个全面的系统框架(见图3),用于描述理想 IGV 系统的基本组成部分。该框架通过五个关键模块识别核心挑战与发展方向:生成模块聚焦于基本的视频生成能力,尽管生成质量已大幅提升,但在实现实时性能和逐帧自回归生成方面仍面临挑战;控制模块处理用户与虚拟世界的交互,其核心难点在于实现精确控制的同时能泛化至开放域场景;记忆模块保证静态与动态内容的一致性,但长期连贯性仍是难题;动态模块模拟虚拟世界中的物理规律,难点在于精确还原各类物理现象并实现对物理参数的精细调控;智能模块融合因果推理能力,代表了更高级别的智能,有望推动 IGV 演化为具备自我进化能力的元宇宙。 本文的主要贡献如下:首先,我们全面综述了 IGV 技术在多个领域(包括游戏、具身人工智能与自动驾驶)中的应用现状;其次,提出一个系统化框架,将理想 IGV 系统划分为五个基本组成模块,为该技术的发展提供结构化的理解路径;最后,基于该框架,我们系统分析了实现每个模块所面临的技术挑战,为该领域的未来研究提供了明确方向。 本文结构安排如下:第2节介绍视频生成的基础技术,涵盖 VAE、GAN、扩散模型、自回归模型及其混合形式;第3节描述 IGV 系统框架,包括生成、控制、记忆、动态与智能等模块,并分析相关挑战与研究方向;第4至第6节分别探讨 IGV 在游戏、具身人工智能与自动驾驶领域中的应用现状、技术方法、面临挑战与发展趋势。 本研究为我们此前工作的扩展版本 [65],具有以下拓展内容:我们所提出的游戏引擎框架不仅适用于游戏技术,也代表了视频生成模型向更高智能演进的路径,能够指导多领域的技术发展。具体而言,我们补充分析了 IGV 在自动驾驶和具身人工智能等更广泛领域的应用,并识别出相应挑战与未来研究方向。 在图3中,我们构建了交互式生成视频(Interactive Generative Video, IGV)系统的整体框架。IGV 系统构成了一个虚拟世界,并与来自现实世界的多种角色进行交互。这些现实世界中的角色包括人类参与者,如玩家、设计师和艺术家,他们可以与 IGV 系统交互,从而体验其虚拟世界,或利用其高效地进行内容创作。同时,这些角色还包括各种智能体及其配备的传感器,例如机器人、机械臂、车辆及其搭载的摄像头,代表了 IGV 在自动驾驶和具身智能等领域的应用潜力。