李飞飞团队：将因果推理能力赋予代理，以完成目标导向任务

2019 年 10 月 23 日 极市平台

加入极市专业CV交流群，与6000+来自腾讯，华为，百度，北大，清华，中科院等名企名校视觉开发者互动交流！更有机会与李开复老师等大牛群内互动！

同时提供每月大咖直播分享、真实项目需求对接、干货资讯汇总，行业技术交流。关注 极市平台 公众号，回复 加群，立刻申请入群~

来源：图灵TOPIA

作者：Suraj Nair等

编译：刘静

近日，斯坦福大学李飞飞组的研究者发表论文《CAUSAL INDUCTION FROM VISUAL OBSERVATIONS FOR GOAL DIRECTED TASKS》，为代理建立了元学习算法，以从代理的视觉观察中发现因果关系，并使用此类因果知识执行目标导向的任务。

主要贡献如下：

1)从原始的视觉观察中进行因果归纳；

2)为目标条件策略进行因果图编码。

两者都能更好地推广到未知的因果结构中。他们认为，通过利用迭代预测和注意力，它有助于因果归纳模型和以目标为条件的策略来关注因果图的相关部分。使用这种方法，与以前因果结构有限的著作相比，该方法对新问题实例的泛化性更好。在这项工作中，他们从启发式策略收集的观测数据中归纳出因果结构。

因果推理一直是人类和其他智能动物与现实世界互动的必不可少的能力。在此项工作中，研究人员开发了基于学习的方法，以有向无环图的形式来归纳因果知识，该方法可用于关联学习的目标-条件策略，以在具有潜在因果结构的新型环境中执行任务。

在因果归纳模型和目标条件策略中利用注意力机制，从而使其能够从代理的视觉观察中逐步生成因果图，并有选择地使用归纳图来确定行动。 实验结果表明，该方法可以有效地推广到具有未知因果结构的新环境中去完成新任务。

以下是论文具体介绍：

因果推理是自然智能的一个组成部分。人们已经观察到，人类和其他智能动物将对因果进行推理的能力作为一种生存手段。这种能力在幼儿与物质世界的互动中起着至关重要的作用。行为心理学研究表明，幼儿从他们与世界的游戏中发现了潜在的因果机制，他们的因果知识反过来促进了他们随后对物体、概念、语言和物理的学习。

如今，人工智能等以数据为中心的方法（如深度网络）在从大量数据（如图像到类别标签）的输入和输出之间学习关联方面取得了巨大的成功。然而，经验证据表明，这些方法中缺乏正确的因果模型对泛化构成了重大威胁，导致图像字幕模型生成了不切实际的标题，深度强化学习策略在新型问题实例中失败了，并且迁移学习模型以适应新的distribution的速度较慢。

在这项工作中，我们建议赋予基于学习的交互式代理以因果推理的能力，以在视觉环境中完成目标导向的任务。

想象一下，家用机器人第一次进入新家。在不事先了解布线配置的情况下，它必须先拨动开关并理清灯和开关之间的对应关系，然后才能命令其打开厨房灯或浴室灯。我们将切换开关的第一阶段称为因果归纳，在此阶段，主体通过执行动作并观察其结果来发现潜在的因果关系。

我们将打开特定光源的第二阶段称为因果推理，其中代理使用获取的因果关系来指导其完成任务的动作。为了建立有效的因果归纳和推理计算模型，我们必须在测试时解决对新型因果关系和新任务目标的归纳，这两者在训练中都是看不到的。

我们将此视为继Dasgupta等人之后的两个阶段的元学习问题。

在第一阶段，我们使用因果归纳模型根据代理干预的观察数据构建因果结构，即随机变量的有向无环图。 在第二阶段中，我们使用因果结构将目标条件策略置于情境中，以执行给定目标的任务。

但是，与Dasgupta等人相反，我们显式地构造因果结构而不是潜在特征编码，从而导致对长期任务中新问题实例的更好的泛化，而不是简单的单步查询。

为此，我们提出了两项技术贡献： 1）基于注意力的迭代因果归纳模型，该模型学习为环境中每个观察到的相互作用逐步更新预测的因果图，以及2）基于注意力的目标-条件策略图编码，迫使它在每个步骤上都聚焦于因果图的相关组件。我们发现通过使用因果图对归纳和推理过程进行分解，可以很好地将其泛化推广到多达50个训练因果结构的未知因果结构。

我们比较了使用真实因果结构（可提供oracle性能），直接预测因果结构的非迭代体系结构以及将观察数据编码到LSTM策略存储中的方法。与先前的工作类似（Dasgupta等，2019）。我们证明我们的方法在恢复因果图和完成目标因果任务的几种任务大小、类型和数量上的因果结构数目方面均优于基线，并获得了接近oracle的性能。

图1：因果归纳和推理过程概述。

在训练期间，每个情节都采样K个训练环境中的一个，并使用交互策略πI探查环境并收集视觉观察的轨迹。使用监督学习，我们训练了因果归纳模型F，该因果归纳模型F将观测数据的轨迹作为输入，并构造C k，即C k列的估计值，该模型捕获了潜在的因果结构。然后，将预测的结构C 1作为输入到以目标g为条件的策略πG，该策略学习在训练环境中使用因果模型有效地完成指定目标。在测试时，F和πG是固定的，并且在因果结构未知的新环境中评估了代理。

图2：迭代因果归纳网络。

我们的迭代网络体系结构，用于根据视野为H的观测数据的可视轨迹推导因果结构。首先，将每个帧编码为潜伏状态嵌入s。然后，计算跨时间步长的状态嵌入之间的差异（状态残差），并将其与相应的动作连接起来。这被馈送到边缘解码器模块，该模块预测边缘更新，以及注意力向量，该注意力向量用于加权边缘更新如何应用于节点。在最后一步，应用基于当前图的另一个边缘更新，并输出最终的预测图。

图3：因果结构的类型（左）我们探究四种因果结构的类型，一对一，一对多，一对多和MASTERSWITCH。

这些内容涵盖了标准因果映射，常见原因因果模式，常见影响因果模式和因果链。目标条件政策（右）。该策略将当前图像，目标图像和预测因果图Cˆ作为输入。当前图像和目标图像按通道进行级联并进行编码。该编码用于预测Cˆ中“效果”上的注意力向量，提取相关边缘，然后将其与图像编码连接起来以预测动作。

图4：因果关系结构上的F1分数。

与看不见的因果结构上的真实结果相比，预测的因果结构上的F1分数得分。我们比较可见结构{10，50，100，500}和问题大小{5，7}的可变数量。我们关注的迭代方法在几乎所有设置下的性能均优于比较值。

图5：策略成功率（看不见的因果结构）。

每种方法针对10、50、100或500的看不见的因果结构的每种方法的目标条件策略的最终成功率，针对5或7个开关的因果结构。我们的迭代方法可以在几乎所有设置中对看不见的任务实现最佳泛化。

论文链接：

https://arxiv.org/pdf/1910.01751.pdf

-End-

*延伸阅读

CV细分方向交流群

添加极市小助手微信（ID : cv-mart），备注：研究方向-姓名-学校/公司-城市（如：目标检测-小极-北大-深圳），即可申请加入目标检测、目标跟踪、人脸、工业检测、医学影像、三维&SLAM、图像分割等极市技术交流群，更有每月大咖直播分享、真实项目需求对接、干货资讯汇总，行业技术交流，一起来让思想之光照的更远吧~