本文提出了**生成式增强现实(Generative Augmented Reality, GAR)这一下一代范式,将“增强”从传统 AR 引擎的世界组合(world composition)重新定位为一种世界再合成(world resynthesis)过程。GAR 以一个统一的生成式主干(unified generative backbone)取代传统 AR 引擎的多阶段模块,使环境感知、虚拟内容与交互信号能够作为条件输入,被联合编码(jointly encoded)**到连续视频生成过程中。 我们形式化地讨论了 AR 与 GAR 之间的计算对应关系,回顾了使实时生成式增强成为可能的技术基础,并概述了利用其统一推理模型的潜在应用前景。我们将 GAR 视为未来的 AR 范式,能够在真实感、交互性与沉浸感方面提供高保真体验,同时也带来了关于技术、内容生态系统,以及伦理与社会影响等方面的新研究挑战。 增强现实(Augmented Reality, AR)的出现源于长期以来人们希望将数字内容与基于用户真实世界感知与行动的物理环境相融合的目标。早期的相关形式包括 Thomas 和 David(1992)在飞机装配任务中叠加数字指令的研究,以及 Milgram 和 Kishino(1994)提出的“现实—虚拟(Reality–Virtuality)连续统”概念,这些工作将 AR 置于虚拟现实与物理现实之间的一种中间融合形态。随着感知、空间追踪以及实时渲染技术的进步 [Azuma, 1997a],能够使数字内容与真实物理场景对齐成为可能,AR 逐渐演化为一种技术框架,使用户能够将虚拟元素作为其周围环境的一部分进行感知和交互,并广泛应用于工业指导、教育、导航与交互媒体等领域。 然而,随着技术进步不断提升 AR 对内容保真度、交互精确性及自然响应性的要求,传统 AR 架构背后的组合式范式暴露出固有局限。现有系统通常依赖显式建模的资产(assets)、预定义的交互规则以及确定性的图形管线。这种结构使得合成高保真交互变得困难,例如流体材料行为、复杂机械动力学,甚至生物体的响应性。此外,扩展到更广阔、更具表现力的内容空间往往会增加内容创作负担并降低系统稳定性:生成高保真 3D 资产需要大量人工投入,但即便是精心制作的资产,其行为表现力仍然有限,使得真正响应式或逼真的交互难以实现。 与此同时,生成式模型的快速发展,尤其是基于扩散模型的视频生成模型 [Ho et al., 2022; Kong et al., 2024],引入了一种构建视觉体验的全新方式。这类模型能够在高层条件(如文本意图 [Luo et al., 2023]、运动提示 [Bai et al., 2025]、参考帧 [Hu, 2024] 或行为信号 [Guo et al., 2025])的驱动下,生成时间连贯、语义扎实的视频内容,覆盖并超越物理世界与想象世界的场景。与其将场景视为增强的固定背景,生成式视频模型将“现实”表示为一种可学习、可扩展的过程,其中物理一致性与时间演化在统一的潜空间中表达。随着此类模型逐步迈向实时推理 [Yin et al., 2025] 与可控流式生成 [Lin et al., 2025b],它们将计算重点从“叠加内容”转移至“在交互驱动下生成世界的演化”。 本文从概念与技术两方面,对生成式增强现实(Generative Augmented Reality, GAR)作为下一代空间计算(spatial computing)的计算框架,进行前瞻性综述。我们的主要贡献包括: • 形式化传统 AR 组合式管线向生成式世界再合成的计算转变,并从感知基础、控制流、资产管理与渲染机制等方面给出对比性表述。 • 综述支撑 GAR 的关键技术,包括流式视频生成模型、计算效率与质量优化、多模态控制机制以及资产管理方法。 • 分析 GAR 的未来应用图景,以及其在空间体验、具身创造、动态故事生成、协作式世界构建与混合现实生态系统方面的潜在变革能力。

成为VIP会员查看完整内容
0

相关内容

面向大语言模型的智能体化强化学习图景:综述
边缘人工智能:分类法、系统综述及未来方向
专知会员服务
61+阅读 · 2024年7月8日
基于大型语言模型的游戏智能体综述
专知会员服务
66+阅读 · 2024年4月3日
基于大型语言模型的多智能体:进展与挑战综述
专知会员服务
135+阅读 · 2024年2月6日
大语言模型的前世、今生与未来
专知会员服务
110+阅读 · 2023年9月8日
综述| 当图神经网络遇上强化学习
图与推荐
35+阅读 · 2022年7月1日
深度学习与医学图像分析
人工智能前沿讲习班
40+阅读 · 2019年6月8日
基于Tacotron模型的语音合成实践
深度学习每日摘要
15+阅读 · 2018年12月25日
深度学习与计算机视觉任务应用综述
深度学习与NLP
50+阅读 · 2018年12月18日
干货 | 基于深度学习的目标检测算法综述
AI科技评论
18+阅读 · 2018年9月1日
深度学习时代的目标检测算法
炼数成金订阅号
40+阅读 · 2018年3月19日
基于注意力机制的图卷积网络
科技创新与创业
74+阅读 · 2017年11月8日
深度学习目标检测概览
AI研习社
46+阅读 · 2017年10月13日
国家自然科学基金
8+阅读 · 2017年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
17+阅读 · 2009年12月31日
国家自然科学基金
21+阅读 · 2009年12月31日
国家自然科学基金
17+阅读 · 2008年12月31日
A Survey of Large Language Models
Arxiv
491+阅读 · 2023年3月31日
Arxiv
81+阅读 · 2023年3月26日
Arxiv
25+阅读 · 2023年3月17日
Augmentation for small object detection
Arxiv
13+阅读 · 2019年2月19日
VIP会员
相关VIP内容
面向大语言模型的智能体化强化学习图景:综述
边缘人工智能:分类法、系统综述及未来方向
专知会员服务
61+阅读 · 2024年7月8日
基于大型语言模型的游戏智能体综述
专知会员服务
66+阅读 · 2024年4月3日
基于大型语言模型的多智能体:进展与挑战综述
专知会员服务
135+阅读 · 2024年2月6日
大语言模型的前世、今生与未来
专知会员服务
110+阅读 · 2023年9月8日
相关资讯
综述| 当图神经网络遇上强化学习
图与推荐
35+阅读 · 2022年7月1日
深度学习与医学图像分析
人工智能前沿讲习班
40+阅读 · 2019年6月8日
基于Tacotron模型的语音合成实践
深度学习每日摘要
15+阅读 · 2018年12月25日
深度学习与计算机视觉任务应用综述
深度学习与NLP
50+阅读 · 2018年12月18日
干货 | 基于深度学习的目标检测算法综述
AI科技评论
18+阅读 · 2018年9月1日
深度学习时代的目标检测算法
炼数成金订阅号
40+阅读 · 2018年3月19日
基于注意力机制的图卷积网络
科技创新与创业
74+阅读 · 2017年11月8日
深度学习目标检测概览
AI研习社
46+阅读 · 2017年10月13日
相关基金
国家自然科学基金
8+阅读 · 2017年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
17+阅读 · 2009年12月31日
国家自然科学基金
21+阅读 · 2009年12月31日
国家自然科学基金
17+阅读 · 2008年12月31日
微信扫码咨询专知VIP会员