Visual relationship detection aims to reason over relationships among salient objects in images, which has drawn increasing attention over the past few years. Inspired by human reasoning mechanisms, it is believed that external visual commonsense knowledge is beneficial for reasoning visual relationships of objects in images, which is however rarely considered in existing methods. In this paper, we propose a novel approach named Relational Visual-Linguistic Bidirectional Encoder Representations from Transformers (RVL-BERT), which performs relational reasoning with both visual and language commonsense knowledge learned via self-supervised pre-training with multimodal representations. RVL-BERT also uses an effective spatial module and a novel mask attention module to explicitly capture spatial information among the objects. Moreover, our model decouples object detection from visual relationship recognition by taking in object names directly, enabling it to be used on top of any object detection system. We show through quantitative and qualitative experiments that, with the transferred knowledge and novel modules, RVL-BERT achieves competitive results on two challenging visual relationship detection datasets. The source code is available at https://github.com/coldmanck/RVL-BERT.


翻译:在人类推理机制的启发下,人们认为外部视觉常识知识有助于对图像中物体的视觉关系进行推理,但在现有方法中却很少考虑到这一点。在本文中,我们提议了一种新颖的方法,名为“变异器的视觉和语言双向双向编码显示(RVL-BERT)”,该方法与通过多式演示的自我监督前培训所学的视觉和语言常识进行关联推理。 RVL-BERT还使用有效的空间模块和新的掩码注意模块明确捕捉物体之间的空间信息。此外,我们的模型脱色物体探测从视觉关系识别中直接取出物体名称,使其能够在任何物体探测系统之上使用。我们通过定量和定性实验显示,通过转让的知识和新模块,RVL-BERT在两个具有挑战性的视觉关系探测数据集上取得了竞争性的结果。源代码可在https://githbub.com/crownRcrcrcock/RngLVSet上查阅。

0
下载
关闭预览

相关内容

专知会员服务
53+阅读 · 2019年12月22日
[综述]深度学习下的场景文本检测与识别
专知会员服务
77+阅读 · 2019年10月10日
Hierarchically Structured Meta-learning
CreateAMind
23+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
25+阅读 · 2019年5月18日
Unsupervised Learning via Meta-Learning
CreateAMind
41+阅读 · 2019年1月3日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
vae 相关论文 表示学习 1
CreateAMind
12+阅读 · 2018年9月6日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
Capsule Networks解析
机器学习研究会
10+阅读 · 2017年11月12日
Knowledge Representation Learning: A Quantitative Review
Exploring Visual Relationship for Image Captioning
Arxiv
14+阅读 · 2018年9月19日
Arxiv
3+阅读 · 2017年11月21日
VIP会员
相关VIP内容
专知会员服务
53+阅读 · 2019年12月22日
[综述]深度学习下的场景文本检测与识别
专知会员服务
77+阅读 · 2019年10月10日
Top
微信扫码咨询专知VIP会员