Visual place recognition is a challenging task in computer vision and a key component of camera-based localization and navigation systems. Recently, Convolutional Neural Networks (CNNs) achieved high results and good generalization capabilities. They are usually trained using pairs or triplets of images labeled as either similar or dissimilar, in a binary fashion. In practice, the similarity between two images is not binary, but continuous. Furthermore, training these CNNs is computationally complex and involves costly pair and triplet mining strategies. We propose a Generalized Contrastive loss (GCL) function that relies on image similarity as a continuous measure, and use it to train a siamese CNN. Furthermore, we present three techniques for automatic annotation of image pairs with labels indicating their degree of similarity, and deploy them to re-annotate the MSLS, TB-Places, and 7Scenes datasets. We demonstrate that siamese CNNs trained using the GCL function and the improved annotations consistently outperform their binary counterparts. Our models trained on MSLS outperform the state-of-the-art methods, including NetVLAD, NetVLAD-SARE, AP-GeM and Patch-NetVLAD, and generalize well on the Pittsburgh30k, Tokyo 24/7, RobotCar Seasons v2 and Extended CMU Seasons datasets. Furthermore, training a siamese network using the GCL function does not require complex pair mining. We release the source code at https://github.com/marialeyvallina/generalized_contrastive_loss.


翻译:视觉场景识别是计算机视觉中的一项挑战性任务,也是基于相机的定位和导航系统的关键组成部分。最近,卷积神经网络(CNN)在此任务中取得了高准确度和良好的泛化能力。通常采用成对或三元组的图像,以二进制形式标记为相似或不相似,并用于训练CNN。然而实际上,两个图像之间的相似性不是二进制,而是连续的。此外,训练这些CNN非常耗时,并涉及高昂的成对和三元组挖掘策略。本文提出一种基于连续图像相似性度量的通用对比损失(GCL)函数,并用它来训练孪生CNN。此外,我们提出三种技术,用于自动注释具有指示它们相似度程度标签的图像对,并将它们部署到重新注释的MSLS,TB-Places和7Scenes数据集中。我们证明了使用GCL函数和改进的注释训练的孪生CNN始终优于它们的二进制对应物。我们在MSLS上训练的模型优于NetVLAD,NetVLAD-SARE,AP-GeM和Patch-NetVLAD等最先进的方法,并且在Pittsburgh30k,Tokyo 24/7,RobotCar Seasons v2和Extended CMU Seasons数据集上具有良好的泛化能力。此外,使用GCL函数训练孪生网络不需要进行复杂的成对挖掘。我们在https://github.com/marialeyvallina/generalized_contrastive_loss上公开了源代码。

0
下载
关闭预览

相关内容

专知会员服务
20+阅读 · 2021年7月28日
【MIT】反偏差对比学习,Debiased Contrastive Learning
专知会员服务
90+阅读 · 2020年7月4日
专知会员服务
59+阅读 · 2020年3月19日
Multi-Task Learning的几篇综述文章
深度学习自然语言处理
15+阅读 · 2020年6月15日
ICRA 2019 论文速览 | 基于Deep Learning 的SLAM
计算机视觉life
41+阅读 · 2019年7月22日
ICRA 2019 论文速览 | 传统SLAM、三维视觉算法进展
计算机视觉life
50+阅读 · 2019年7月16日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
无监督元学习表示学习
CreateAMind
26+阅读 · 2019年1月4日
Unsupervised Learning via Meta-Learning
CreateAMind
41+阅读 · 2019年1月3日
vae 相关论文 表示学习 1
CreateAMind
12+阅读 · 2018年9月6日
Capsule Networks解析
机器学习研究会
10+阅读 · 2017年11月12日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
2+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
3+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
2+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2008年12月31日
国家自然科学基金
2+阅读 · 2008年12月31日
Arxiv
0+阅读 · 2023年6月5日
Arxiv
14+阅读 · 2022年5月6日
Max-Margin Contrastive Learning
Arxiv
17+阅读 · 2021年12月21日
Arxiv
27+阅读 · 2021年11月11日
VIP会员
相关资讯
Multi-Task Learning的几篇综述文章
深度学习自然语言处理
15+阅读 · 2020年6月15日
ICRA 2019 论文速览 | 基于Deep Learning 的SLAM
计算机视觉life
41+阅读 · 2019年7月22日
ICRA 2019 论文速览 | 传统SLAM、三维视觉算法进展
计算机视觉life
50+阅读 · 2019年7月16日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
无监督元学习表示学习
CreateAMind
26+阅读 · 2019年1月4日
Unsupervised Learning via Meta-Learning
CreateAMind
41+阅读 · 2019年1月3日
vae 相关论文 表示学习 1
CreateAMind
12+阅读 · 2018年9月6日
Capsule Networks解析
机器学习研究会
10+阅读 · 2017年11月12日
相关基金
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
2+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
3+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
2+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2008年12月31日
国家自然科学基金
2+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员