Recent advances in generative video models have led to significant breakthroughs in high-fidelity video synthesis, specifically in controllable video generation where the generated video is conditioned on text and action inputs, e.g., in instruction-guided video editing and world modeling in robotics. Despite these exceptional capabilities, controllable video models often hallucinate - generating future video frames that are misaligned with physical reality - which raises serious concerns in many tasks such as robot policy evaluation and planning. However, state-of-the-art video models lack the ability to assess and express their confidence, impeding hallucination mitigation. To rigorously address this challenge, we propose C3, an uncertainty quantification (UQ) method for training continuous-scale calibrated controllable video models for dense confidence estimation at the subpatch level, precisely localizing the uncertainty in each generated video frame. Our UQ method introduces three core innovations to empower video models to estimate their uncertainty. First, our method develops a novel framework that trains video models for correctness and calibration via strictly proper scoring rules. Second, we estimate the video model's uncertainty in latent space, avoiding training instability and prohibitive training costs associated with pixel-space approaches. Third, we map the dense latent-space uncertainty to interpretable pixel-level uncertainty in the RGB space for intuitive visualization, providing high-resolution uncertainty heatmaps that identify untrustworthy regions. Through extensive experiments on large-scale robot learning datasets (Bridge and DROID) and real-world evaluations, we demonstrate that our method not only provides calibrated uncertainty estimates within the training distribution, but also enables effective out-of-distribution detection.


翻译:生成式视频模型的最新进展在高保真视频合成领域取得了显著突破,特别是在可控视频生成方面——生成的视频以文本和动作输入为条件,例如在指令引导的视频编辑和机器人世界建模中。尽管具备这些卓越能力,可控视频模型常常产生幻觉——生成与物理现实不符的未来视频帧——这在机器人策略评估与规划等许多任务中引发了严重关切。然而,当前最先进的视频模型缺乏评估和表达其置信度的能力,阻碍了幻觉缓解。为严谨应对这一挑战,我们提出了C3,一种不确定性量化方法,用于训练连续尺度校准的可控视频模型,实现亚补丁级别的密集置信度估计,精确定位每个生成视频帧中的不确定性。我们的不确定性量化方法通过三项核心创新赋能视频模型估计其不确定性。首先,该方法开发了一种新颖框架,通过严格适当评分规则训练视频模型以实现正确性和校准。其次,我们在潜在空间中估计视频模型的不确定性,避免了像素空间方法相关的训练不稳定性和过高训练成本。第三,我们将密集的潜在空间不确定性映射到RGB空间中可解释的像素级不确定性以实现直观可视化,提供高分辨率不确定性热图以识别不可信区域。通过对大规模机器人学习数据集(Bridge和DROID)的广泛实验及实际场景评估,我们证明该方法不仅能在训练分布内提供校准的不确定性估计,还能实现有效的分布外检测。

0
下载
关闭预览

相关内容

图机器学习 2.2-2.4 Properties of Networks, Random Graph
图与推荐
10+阅读 · 2020年3月28日
DeepMind:用PopArt进行多任务深度强化学习
论智
29+阅读 · 2018年9月14日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员