CVPR2019满分文章 | 强化跨模态匹配和自监督模仿学习（文末源码）

会员服务 ·

CVPR2019满分文章 | 强化跨模态匹配和自监督模仿学习（文末源码）

2019 年 3 月 12 日 计算机视觉战队

首先，祝贺我党在3月成功举行了“两会”，希望我党越来越强大。在接下来将会有好几场关于IEEE会议，也会着重指向接下来人工智能的发展风向标，有兴趣的同学可以持续关注。

今天，“计算机视觉战队”给大家带来的是CVPR2019会议上几乎满分paper，那我们就开始一起学习吧！

简介

深度学习发展迅速，很多技术已经落实到具体产品，给我们生活带来了很多方便，未来会越来越多的技术实现，实现人类第四次人工智能革命。

今天说的就是一个导航技术——视觉-语言导航（Vision-language navigation，VLN），其任务就是指在真实的三维环境中让具有实体的智能体进行导航并完成自然语言指令。

今天讲的这个技术，主要解决了三个挑战性问题：1）跨模态参照；2）糟糕的反馈；3）泛化问题。

首先，提出了一种新的强化跨模态匹配（RCM）方法，它可以通过强化学习的方式同时促进局部和全局的跨模态参照，具体就是使用了一个匹配指标，它成为了鼓励模型增强外部指令和运动轨迹之间匹配的固有反馈，模型也用了一个推理导航器，它用来在局部视觉场景中执行跨模态参照。

在一个VLN benchmark数据集上进行的评估结果表明，提出的RCM模型大幅超越已有模型，SPL分数提高了10%，成为了新的SOTA。

之后，为了提高学习到的策略的泛化性，进一步提出了一个自监督模仿学习（SIL）方法，通过模仿自己以往的良好决策的方式探索未曾见过的环境。

在此，作者们表明了SIL可以逼近出更好、更高效的策略，这极大程度减小了智能体在见过和未见过的环境中的成功率表现的差别（从 30.7% 降低到 11.7%）。

Model

导航πθ是一个基于策略的代理，把输入X映射在一系列行为指令。在每一个步骤中，导航器从环境接收一个状态st（视觉场景），并需要在本地可视场景中接收文本指令。因此，设计了一个跨模态推理导航，它可以在序列学习轨迹历史、文本指令的重点和局部显著性，从而形成一个跨模态推理路径，以鼓励两种模态在步骤t处的局部动力学。

上图显示了在时间步骤t展开版本的导航器。为导航器配备全景，将m个不同的视角分为图像块，所以全景特征从视觉状态St提取的可以表示为{vt,j}j=1, vt,j表示图像块在视角j的预训练CNN特征。

History Context

一旦导航器运行一步，视觉场景就会相应地发生变化。轨迹τ1:t的历史到步骤t由一个基于注意力机制的轨迹编码器LSTM编码为历史文本：

请注意，后面采用的是都是点积注意力，将其表示为如下，(以上面的视觉特性为例)：

A. Vaswani, N. Shazeer, N. Parmar, J. Uszkoreit, L. Jones, A. N. Gomez, Ł. Kaiser, and I. Polosukhin. Attention is all you need. In Advances in Neural Information Processing Systems, pages 5998–6008, 2017.