【ICCV 2021】 REM: 用于视觉语义导航的随机环境混合 - 专知VIP

会员服务 ·

2

视觉语言导航 · ICCV 2021 ·

2021 年 8 月 8 日

【ICCV 2021】 REM: 用于视觉语义导航的随机环境混合

专知会员服务

专知，提供专业可信的知识分发服务，让认知协作更快更好！

视觉语言导航（Vision Language Navigation）是一个机器学习的新兴任务。它的目的是让一个智能体能够在真实的3D环境中根据自然语言指令导航至正确的地点。其中一个关键的研究课题是提高智能体在所有环境(已知房间和未知房间)中的导航能力，即减少智能体在不同环境中的泛化误差。

影响智能体泛化误差的主要原因是小规模数据和大导航空间之间的数据偏差。因此减少泛化误差的一个主要手段是数据增强，以往的工作提出了两种数据增强方法：场景内增强(Intra-scene Augmentation, ISA)，Speaker-Follower[1]在已有场景中构建新的路径和指令；近场景增强(Near-scene Augmentation , NSA)，EnvDrop[2]通过在场景中加入高斯噪声，在一定程度上突破了场景的局限性，但只是将场景扩展到了邻域。

图片

相比于原始训练集，三种数据增强方法对泛化误差影响的示意图。比起ISA和NSA，REM产生的增强数据更加偏离原有数据分布具有更强的降低泛化误差的能力。为了解决这个问题，我们提出了一种场景间数据增强方法：随机环境混合（Random Environmental Mixup, REM）。REM 方法混合两个场景，在两个场景之间构建一个交叉连接的场景。与其他方法相比，它超越了场景本身的限制，在更广泛的数据分布下构建了增强数据。我们的实验表明，REM 产生的增强数据能将智能体导航的性能提高2个百分点以上。

成为VIP会员查看完整内容

10

相关内容

视觉语言导航

视觉语言导航

【ICCV2021】用于群体行为识别的动态时空推理网络

专知会员服务

35+阅读 · 2021年9月15日

国防科大《视觉-语言导航》综述论文，24页pdf154篇文献

国防科大《视觉-语言导航》综述论文，24页pdf154篇文献

专知会员服务

58+阅读 · 2021年8月27日

【斯坦福】多模态常识推理:使用具有可解释性的视频和自然语言的

专知会员服务

33+阅读 · 2021年7月26日

CVPR 2021 Oral | 室内动态场景中的相机重定位

CVPR 2021 Oral | 室内动态场景中的相机重定位

专知会员服务

15+阅读 · 2021年4月12日

【AAAI2020】基于属性指导和纯视觉的注意力对齐的小样本识别

【AAAI2020】基于属性指导和纯视觉的注意力对齐的小样本识别

专知会员服务

13+阅读 · 2021年1月14日

【CVPR2020】视觉导航的神经拓扑SLAM，56页ppt，Neural Topological SLAM for Visual Navigation

【CVPR2020】视觉导航的神经拓扑SLAM，56页ppt，Neural Topological SLAM for Visual Navigation

专知会员服务

13+阅读 · 2020年6月18日

【CVPR2020】视觉导航的神经拓扑SLAM，Neural Topological SLAM for Visual Navigation

【CVPR2020】视觉导航的神经拓扑SLAM，Neural Topological SLAM for Visual Navigation

专知会员服务

49+阅读 · 2020年5月26日

[CVPR 2020 Oral-牛津] RandLA-Net:大场景三维点云语义分割新框架

[CVPR 2020 Oral-牛津] RandLA-Net:大场景三维点云语义分割新框架

专知会员服务

24+阅读 · 2020年3月15日

【华盛顿大学】用于视觉和语言导航的多视图学习，Multi-View Learning for Vision-and-Language Navigation

【华盛顿大学】用于视觉和语言导航的多视图学习，Multi-View Learning for Vision-and-Language Navigation

专知会员服务

30+阅读 · 2020年3月11日

【IJCV2020】通过迭代亲密学习实现弱监督语义分割

专知会员服务

41+阅读 · 2020年2月20日

【泡泡一分钟】变化环境下激光地图辅助视觉惯性定位

【泡泡一分钟】变化环境下激光地图辅助视觉惯性定位

泡泡机器人SLAM

15+阅读 · 2019年5月22日

【泡泡机器人】也来谈语义SLAM/语义地图

【泡泡机器人】也来谈语义SLAM/语义地图

泡泡机器人SLAM

20+阅读 · 2019年3月12日

【泡泡一分钟】用于视觉里程计的从深度相机中快速提取柱面和平面方法

【泡泡一分钟】用于视觉里程计的从深度相机中快速提取柱面和平面方法

泡泡机器人SLAM

13+阅读 · 2019年2月13日

【泡泡一分钟】DS-SLAM: 动态环境下的语义视觉SLAM

【泡泡一分钟】DS-SLAM: 动态环境下的语义视觉SLAM

泡泡机器人SLAM

23+阅读 · 2019年1月18日

【泡泡一分钟】用于评估视觉惯性里程计的TUM VI数据集

【泡泡一分钟】用于评估视觉惯性里程计的TUM VI数据集

泡泡机器人SLAM

11+阅读 · 2019年1月4日

【泡泡图灵智库】DS-SLAM:一种面向动态环境的语义视觉SLAM(arXiv)

【泡泡图灵智库】DS-SLAM:一种面向动态环境的语义视觉SLAM(arXiv)

泡泡机器人SLAM

26+阅读 · 2018年12月14日

【泡泡一分钟】基于级联特征网络的RBG-D图像语义分割（ICCV-2017）

【泡泡一分钟】基于级联特征网络的RBG-D图像语义分割（ICCV-2017）

泡泡机器人SLAM

3+阅读 · 2018年10月11日

【泡泡一分钟】基于场景流传播的动态街道场景的语义建图和目标检测

【泡泡一分钟】基于场景流传播的动态街道场景的语义建图和目标检测

泡泡机器人SLAM

8+阅读 · 2018年4月29日

【泡泡一分钟】用于街景语义分割的全分辨率残差网络（CVPR-12）

【泡泡一分钟】用于街景语义分割的全分辨率残差网络（CVPR-12）

泡泡机器人SLAM

5+阅读 · 2017年11月2日

EKF常用于目标跟踪系统的扩展卡尔曼滤波器

EKF常用于目标跟踪系统的扩展卡尔曼滤波器

无人机

9+阅读 · 2017年7月25日

A Multi-Scale A Contrario method for Unsupervised Image Anomaly Detection

Arxiv

0+阅读 · 2021年10月5日

SeanNet: Semantic Understanding Network for Localization Under Object Dynamics

Arxiv

0+阅读 · 2021年10月5日

Season-invariant GNSS-denied visual localization for UAVs

Arxiv

0+阅读 · 2021年10月5日

Dense Contrastive Learning for Self-Supervised Visual Pre-Training

Arxiv

18+阅读 · 2021年4月4日

Visual Semantic Navigation using Scene Priors

Arxiv

5+阅读 · 2018年10月15日

Unsupervised Adversarial Visual Level Domain Adaptation for Learning Video Object Detectors from Images

Arxiv

3+阅读 · 2018年10月4日

Two Stream 3D Semantic Scene Completion

Two Stream 3D Semantic Scene Completion

Arxiv

4+阅读 · 2018年7月16日

A Projected Gradient Descent Method for CRF Inference allowing End-To-End Training of Arbitrary Pairwise Potentials

Arxiv

3+阅读 · 2018年1月2日

Exploring Models and Data for Remote Sensing Image Caption Generation

Arxiv

13+阅读 · 2017年12月21日

A review on cloud robotics based frameworks to solve simultaneous localization and mapping (slam) problem

Arxiv

4+阅读 · 2017年1月29日

VIP会员

相关主题

视觉语言导航

相关VIP内容

【ICCV2021】用于群体行为识别的动态时空推理网络

专知会员服务

35+阅读 · 2021年9月15日

国防科大《视觉-语言导航》综述论文，24页pdf154篇文献

国防科大《视觉-语言导航》综述论文，24页pdf154篇文献

专知会员服务

58+阅读 · 2021年8月27日

【斯坦福】多模态常识推理:使用具有可解释性的视频和自然语言的

专知会员服务

33+阅读 · 2021年7月26日

CVPR 2021 Oral | 室内动态场景中的相机重定位

CVPR 2021 Oral | 室内动态场景中的相机重定位

专知会员服务

15+阅读 · 2021年4月12日

【AAAI2020】基于属性指导和纯视觉的注意力对齐的小样本识别

【AAAI2020】基于属性指导和纯视觉的注意力对齐的小样本识别

专知会员服务

13+阅读 · 2021年1月14日

【CVPR2020】视觉导航的神经拓扑SLAM，56页ppt，Neural Topological SLAM for Visual Navigation

【CVPR2020】视觉导航的神经拓扑SLAM，56页ppt，Neural Topological SLAM for Visual Navigation

专知会员服务

13+阅读 · 2020年6月18日

【CVPR2020】视觉导航的神经拓扑SLAM，Neural Topological SLAM for Visual Navigation

【CVPR2020】视觉导航的神经拓扑SLAM，Neural Topological SLAM for Visual Navigation

专知会员服务

49+阅读 · 2020年5月26日

[CVPR 2020 Oral-牛津] RandLA-Net:大场景三维点云语义分割新框架

[CVPR 2020 Oral-牛津] RandLA-Net:大场景三维点云语义分割新框架

专知会员服务

24+阅读 · 2020年3月15日

【华盛顿大学】用于视觉和语言导航的多视图学习，Multi-View Learning for Vision-and-Language Navigation

【华盛顿大学】用于视觉和语言导航的多视图学习，Multi-View Learning for Vision-and-Language Navigation

专知会员服务

30+阅读 · 2020年3月11日

【IJCV2020】通过迭代亲密学习实现弱监督语义分割

专知会员服务

41+阅读 · 2020年2月20日

热门VIP内容

相关资讯

【泡泡一分钟】变化环境下激光地图辅助视觉惯性定位

【泡泡一分钟】变化环境下激光地图辅助视觉惯性定位

泡泡机器人SLAM

15+阅读 · 2019年5月22日

【泡泡机器人】也来谈语义SLAM/语义地图

【泡泡机器人】也来谈语义SLAM/语义地图

泡泡机器人SLAM

20+阅读 · 2019年3月12日

【泡泡一分钟】用于视觉里程计的从深度相机中快速提取柱面和平面方法

【泡泡一分钟】用于视觉里程计的从深度相机中快速提取柱面和平面方法

泡泡机器人SLAM

13+阅读 · 2019年2月13日

【泡泡一分钟】DS-SLAM: 动态环境下的语义视觉SLAM

【泡泡一分钟】DS-SLAM: 动态环境下的语义视觉SLAM

泡泡机器人SLAM

23+阅读 · 2019年1月18日

【泡泡一分钟】用于评估视觉惯性里程计的TUM VI数据集

【泡泡一分钟】用于评估视觉惯性里程计的TUM VI数据集

泡泡机器人SLAM

11+阅读 · 2019年1月4日

【泡泡图灵智库】DS-SLAM:一种面向动态环境的语义视觉SLAM(arXiv)

【泡泡图灵智库】DS-SLAM:一种面向动态环境的语义视觉SLAM(arXiv)

泡泡机器人SLAM

26+阅读 · 2018年12月14日

【泡泡一分钟】基于级联特征网络的RBG-D图像语义分割（ICCV-2017）

【泡泡一分钟】基于级联特征网络的RBG-D图像语义分割（ICCV-2017）

泡泡机器人SLAM

3+阅读 · 2018年10月11日

【泡泡一分钟】基于场景流传播的动态街道场景的语义建图和目标检测

【泡泡一分钟】基于场景流传播的动态街道场景的语义建图和目标检测

泡泡机器人SLAM

8+阅读 · 2018年4月29日

【泡泡一分钟】用于街景语义分割的全分辨率残差网络（CVPR-12）

【泡泡一分钟】用于街景语义分割的全分辨率残差网络（CVPR-12）

泡泡机器人SLAM

5+阅读 · 2017年11月2日

EKF常用于目标跟踪系统的扩展卡尔曼滤波器

EKF常用于目标跟踪系统的扩展卡尔曼滤波器

无人机

9+阅读 · 2017年7月25日

相关论文

A Multi-Scale A Contrario method for Unsupervised Image Anomaly Detection

Arxiv

0+阅读 · 2021年10月5日

SeanNet: Semantic Understanding Network for Localization Under Object Dynamics

Arxiv

0+阅读 · 2021年10月5日

Season-invariant GNSS-denied visual localization for UAVs

Arxiv

0+阅读 · 2021年10月5日

Dense Contrastive Learning for Self-Supervised Visual Pre-Training

Arxiv

18+阅读 · 2021年4月4日

Visual Semantic Navigation using Scene Priors

Arxiv

5+阅读 · 2018年10月15日

Unsupervised Adversarial Visual Level Domain Adaptation for Learning Video Object Detectors from Images

Arxiv

3+阅读 · 2018年10月4日

Two Stream 3D Semantic Scene Completion

Two Stream 3D Semantic Scene Completion

Arxiv

4+阅读 · 2018年7月16日

A Projected Gradient Descent Method for CRF Inference allowing End-To-End Training of Arbitrary Pairwise Potentials

Arxiv

3+阅读 · 2018年1月2日

Exploring Models and Data for Remote Sensing Image Caption Generation

Arxiv

13+阅读 · 2017年12月21日

A review on cloud robotics based frameworks to solve simultaneous localization and mapping (slam) problem

Arxiv

4+阅读 · 2017年1月29日

微信扫码咨询专知VIP会员