Nature子刊 | 像婴儿一样学习，DeepMind新模型28小时学会物理世界规则

会员服务 ·

Nature子刊 | 像婴儿一样学习，DeepMind新模型28小时学会物理世界规则

2022 年 7 月 12 日 机器之心

机器之心报道

编辑：小舟、陈萍

Deepmind 旨在建立一个能够学习直观物理学的模型，并剖析模型实现这种能力的原因。

从 AlphaFold 到数学推理，DeepMind 一直在尝试将 AI 和基础科学结合。现在，DeepMind 又创建了一个可以学习简单物理规则的新模型。

发育心理学家测试分析了婴儿如何通过目光来跟随物体的运动。例如，当播放视频中有一个球突然消失时，孩子们会表现出惊讶。

DeepMind 的计算机科学家 Luis Piloto 及其同事希望为人工智能 (AI) 开发类似的测试。该团队使用立方体和球等简单物体的动画视频训练了一个神经网络，该模型通过从大量数据中发现模式来学习。研究论文于 7 月 11 日发表在《Nature Human Behaviour》上。

论文地址：https://www.nature.com/articles/s41562-022-01394-8
数据集地址：https://github.com/deepmind/physical_concepts

该模型通过自动编码和跟踪对象进行物理学习，因此命名为 PLATO (Physics Learning through Auto-encoding and Tracking Objects)。PLATO 接收来自视频的原始图像和突出显示场景中每个对象目标的图像版本。PLATO 旨在开发对象物理特性的内部表征，例如它们的位置和速度。

该系统接受了大约 30 个小时的视频训练，这些视频展示了简单的运动机制（例如一个球从斜坡上滚下来），并开发了预测这些对象在不同情况下行为的能力。特别地，PLATO 学习了连续性和稳固性，保证目标的轨迹是不间断的，物体形状是持久的。随着视频的播放，模型的预测会变得更加准确。

当播放带有「不可能」事件的视频时，例如一个物体突然消失，PLATO 可以度量视频和它自己的预测之间的差异，从而提供一种「惊讶」的衡量标准。

Piloto 说：「PLATO 并非设计为婴儿行为模型，但它可以测试关于人类婴儿如何学习的假设。我们希望认知科学家最终可以使用它来模拟婴儿的行为。」

英属哥伦比亚大学的计算机科学家 Jeff Clune 表示，「将 AI 与人类婴儿的学习方式进行比较是一个重要的研究方向。PLATO 的研究者手工设计了许多赋予人工智能模型优势的先验知识。」Clune 等研究人员正试图让程序开发自己的算法来理解物理世界。

运用发展心理学的知识

为了在 AI 系统中追求更丰富的物理直觉，DeepMind 的研究团队从发展心理学中汲取灵感。研究团队构建了一个深度学习系统，该系统整合了发展心理学的核心见解，即物理学是在离散对象及其相互作用的层面上理解的。

直觉物理学的核心依赖于一组离散的概念（例如，对象的持久性、稳固性、连续性等），可以区分、操作和单独探测。传统的 AI 学习直观物理的标准方法通过视频或状态预测指标、二元结果预测、问答性能或强化学习任务来学习物理世界。这些方法似乎需要理解直觉物理学的某些方面，但并没有明确地操作或战略性地探索一组明确的概念。

另一方面，发展心理学认为一个物理概念对应于一组未来如何展开的期望。例如人们期望物体不会神奇地从一个地方突然传送到另一个地方，而是通过时间和空间追踪连续的路径，这就有了连续性的概念。因此，有一种测量特定物理概念知识的方法：违反期望 (VoE) 范式。

使用 VoE 范式探索特定概念时，研究人员向婴儿展示视觉上相似的阵列（称为探测（probe）），这些阵列与物理概念一致（物理上可能）或不一致（物理上不可能）。在这个范式中，「惊讶」是通过凝视持续时间来衡量的。

方法介绍

首先，DeepMind 提出了一个非常丰富的视频语料库 —— Physical Concepts 数据集 。该数据集包含 VoE 探测视频，针对五个重要的物理概念，这些概念在发展心理学中被视为核心要素，包括连续性、目标持久性和稳固性。第四种是不可变性，用于捕捉某些目标属性 (例如形状) 不会改变的概念；第五个概念是方向惯性，涉及到运动物体在与惯性原理一致的方向上发生变化的期望。

最重要的是 Physical Concepts 数据集还包括一个单独的视频语料库作为训练数据。这些视频展示了各种程序生成的物理事件。

图 2：用于训练模型的视频数据集示例

PLATO 模型架构

Deepmind 旨在建立一个能够学习直观物理学的模型，并剖析模型实现这种能力的原因。PLATO 模型中实例化了 AI 领域一些先进的系统。

首先是目标个性化过程。目标个性化过程将视觉的连续感知输入切割成一组离散的实体，其中每个实体都有一组对应的属性。在 PLATO 中，每个分段的视频帧通过感知模块分解为一组目标代码（图 3a-c），从而实现从视觉输入到个体目标的映射。PLATO 没有学习分割场景，但给定一个分割目标，其学习一个压缩表示。

其次，目标跟踪（或目标索引）为每个目标分配一个索引，从而实现跨时间目标感知和动态属性计算之间的对应关系（图 3b，c）。在 PLATO 中，目标代码在目标缓冲区中的帧上累积和跟踪（图 3d）。

最后一个组件是这些被跟踪目标的关系处理，这一过程受到发展心理学中提出的「物理推理系统」的启发，该系统可以动态地处理物体的表征，产生新的表征，这些表征会受到物体与其他物体之间关系和互动的影响。

PLATO 学习目标内存和目标感知历史之间的交互作用（图 3d），以生成针对下一个目标的预测视频帧并更新基于目标的内存。

图 3：PLATO 包括两个组件：感知模块（左）和动态预测（右）

实验结果

在测试时，当使用五种不同的随机种子进行训练时，PLATO 在所有五个探测类别中都显示出强大的 VoE 效果。

图 5：PLATO 在 Physical Concepts 数据集的探测中显示出稳健的效果。

Physical Concepts 数据集中的训练语料库共包含 300000 个视频。用保守计算方法，大约需要 52 天的持续视觉体验。从 AI 和开发的角度来看，这存在一个问题，即在测试中产生 VoE 效果实际上需要多少训练数据。为了评估这一点，Deepmind 在大小逐渐减小的数据集上训练了三个 PLATO 动态预测器的随机种子（图 6），计算了所有五个探测类别的 VoE 效应的总平均值。

在仅对 50000 个示例进行训练后，研究结果表明，在使用少至 50000 个示例（相当于 28 小时的视觉体验）进行训练后，Deepmind 的模型中出现了稳健的 VoE 效果。