Humans learn by observing, interacting with environments, and internalizing physics and causality. Here, we aim to ask whether an agent can similarly acquire human-like reasoning from interaction and keep improving with more experience. We study this in a Game-to-Unseen (G2U) setting, curating 1,000+ heterogeneous games with diverse physical and causal mechanisms, and evaluate at three human-like levels: Survival, Curiosity, Utility, from primitive intuition to goal-driven reasoning. Our analysis reveals complementary failures: VLM/VLA agents reason but lack look-ahead in interactive settings, while world models imagine but imitate visual patterns rather than analyze physics and causality. We therefore propose IPR (Interactive Physical Reasoner), using world-model rollouts to score and reinforce a VLM's policy, and introduce PhysCode, a physics-centric action code aligning semantic intent with dynamics to provide a shared action space for prediction and reasoning. Pretrained on 1,000+ games, our IPR performs robustly on three levels, matches GPT-5 overall, and surpasses it on Curiosity. We find that performance improves with more training games and interaction steps, and that the model also zero-shot transfers to unseen games. These results support physics-centric interaction as a path to steadily improving physical reasoning.


翻译:人类通过观察、与环境交互,并内化物理规律和因果关系进行学习。本文旨在探究智能体是否能够通过类似交互方式习得类人推理能力,并随着经验积累持续提升。我们在“游戏到未见”(G2U)设定下开展研究,构建了包含1,000余款具有多样化物理与因果机制的游戏环境,并从三个类人认知层次进行评估:生存、好奇心和实用性——涵盖从原始直觉到目标驱动的推理过程。分析揭示了互补性缺陷:视觉语言模型(VLM/VLA)虽能推理,但在交互场景中缺乏前瞻性;世界模型虽能想象,却仅模仿视觉模式而非分析物理与因果关系。为此,我们提出交互式物理推理器(IPR),利用世界模型推演来评估并强化视觉语言模型的策略,同时引入以物理为中心的动作编码(PhysCode),将语义意图与动力学对齐,为预测与推理提供共享动作空间。在1,000余款游戏上预训练后,我们的IPR在三个认知层次均表现稳健,整体性能与GPT-5相当,并在好奇心维度实现超越。研究发现,模型性能随训练游戏数量与交互步数增加而提升,且能零样本迁移至未见游戏。这些结果表明,以物理为中心的交互是实现物理推理能力持续提升的有效路径。

0
下载
关闭预览

相关内容

Tina:基于 LoRA 的轻量级推理模型
专知会员服务
16+阅读 · 4月24日
DeepSeek模型综述:V1 V2 V3 R1-Zero
专知会员服务
116+阅读 · 2月11日
Pytorch多模态框架MMF
专知
50+阅读 · 2020年6月20日
将Python用于NLP:Pattern 库简介
Python程序员
15+阅读 · 2019年6月7日
Auto-Keras与AutoML:入门指南
云栖社区
18+阅读 · 2019年2月9日
DeepMind:用PopArt进行多任务深度强化学习
论智
29+阅读 · 2018年9月14日
Natural 自然语言处理(NLP)「全解析」
人工智能学家
14+阅读 · 2017年9月23日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
VIP会员
相关VIP内容
Tina:基于 LoRA 的轻量级推理模型
专知会员服务
16+阅读 · 4月24日
DeepSeek模型综述:V1 V2 V3 R1-Zero
专知会员服务
116+阅读 · 2月11日
相关资讯
Pytorch多模态框架MMF
专知
50+阅读 · 2020年6月20日
将Python用于NLP:Pattern 库简介
Python程序员
15+阅读 · 2019年6月7日
Auto-Keras与AutoML:入门指南
云栖社区
18+阅读 · 2019年2月9日
DeepMind:用PopArt进行多任务深度强化学习
论智
29+阅读 · 2018年9月14日
Natural 自然语言处理(NLP)「全解析」
人工智能学家
14+阅读 · 2017年9月23日
相关基金
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员