视觉语言导航(Vision Language Navigation)是一个机器学习的新兴任务。它的目的是让一个智能体能够在真实的3D环境中根据自然语言指令导航至正确的地点。其中一个关键的研究课题是提高智能体在所有环境(已知房间和未知房间)中的导航能力,即减少智能体在不同环境中的泛化误差。

影响智能体泛化误差的主要原因是小规模数据和大导航空间之间的数据偏差。因此减少泛化误差的一个主要手段是数据增强,以往的工作提出了两种数据增强方法:场景内增强(Intra-scene Augmentation, ISA),Speaker-Follower[1]在已有场景中构建新的路径和指令;近场景增强(Near-scene Augmentation , NSA),EnvDrop[2]通过在场景中加入高斯噪声,在一定程度上突破了场景的局限性,但只是将场景扩展到了邻域。

图片

相比于原始训练集,三种数据增强方法对泛化误差影响的示意图。比起ISA和NSA,REM产生的增强数据更加偏离原有数据分布具有更强的降低泛化误差的能力。 为了解决这个问题,我们提出了一种场景间数据增强方法:随机环境混合(Random Environmental Mixup, REM)。REM 方法混合两个场景,在两个场景之间构建一个交叉连接的场景。与其他方法相比,它超越了场景本身的限制,在更广泛的数据分布下构建了增强数据。我们的实验表明,REM 产生的增强数据能将智能体导航的性能提高2个百分点以上。

成为VIP会员查看完整内容
10

相关内容

专知会员服务
35+阅读 · 2021年9月15日
国防科大《视觉-语言导航》综述论文,24页pdf154篇文献
专知会员服务
58+阅读 · 2021年8月27日
CVPR 2021 Oral | 室内动态场景中的相机重定位
专知会员服务
15+阅读 · 2021年4月12日
专知会员服务
41+阅读 · 2020年2月20日
【泡泡一分钟】变化环境下激光地图辅助视觉惯性定位
泡泡机器人SLAM
15+阅读 · 2019年5月22日
【泡泡机器人】也来谈语义SLAM/语义地图
泡泡机器人SLAM
20+阅读 · 2019年3月12日
【泡泡一分钟】DS-SLAM: 动态环境下的语义视觉SLAM
泡泡机器人SLAM
23+阅读 · 2019年1月18日
【泡泡一分钟】用于评估视觉惯性里程计的TUM VI数据集
泡泡机器人SLAM
11+阅读 · 2019年1月4日
EKF常用于目标跟踪系统的扩展卡尔曼滤波器
无人机
9+阅读 · 2017年7月25日
Arxiv
5+阅读 · 2018年10月15日
Two Stream 3D Semantic Scene Completion
Arxiv
4+阅读 · 2018年7月16日
VIP会员
相关资讯
微信扫码咨询专知VIP会员