Object detection, scene graph generation and region captioning, which are three scene understanding tasks at different semantic levels, are tied together: scene graphs are generated on top of objects detected in an image with their pairwise relationship predicted, while region captioning gives a language description of the objects, their attributes, relations, and other context information. In this work, to leverage the mutual connections across semantic levels, we propose a novel neural network model, termed as Multi-level Scene Description Network (denoted as MSDN), to solve the three vision tasks jointly in an end-to-end manner. Objects, phrases, and caption regions are first aligned with a dynamic graph based on their spatial and semantic connections. Then a feature refining structure is used to pass messages across the three levels of semantic tasks through the graph. We benchmark the learned model on three tasks, and show the joint learning across three tasks with our proposed method can bring mutual improvements over previous models. Particularly, on the scene graph generation task, our proposed method outperforms the state-of-art method with more than 3% margin.


翻译:对象探测、 场景图生成和区域说明是不同语义层次的三种场景理解任务,它们相互连接: 场景图是在一个图像中检测到的物体之上产生的, 并且预测了它们之间的对称关系, 而区域说明则给出了对象、 属性、 关系和其他背景信息的语言描述。 在这项工作中, 为了利用语义层次之间的相互连接, 我们提议了一个新型神经网络模型, 称为多层次的场景描述网络( 称为 MSDN ), 以便以端到端的方式共同解决这三种愿景任务。 对象、 词组和标题区域首先与基于其空间和语义联系的动态图表一致。 然后, 使用一个功能精细结构通过图形传递三个层次的语义任务信息。 我们用三种任务来衡量所学的模型, 并展示与我们拟议方法的三大任务之间的联合学习可以带来对前三个模型的相互改进。 特别是, 在现场图表生成任务中, 我们提议的方法比标准方法超出3%以上。

0
下载
关闭预览

相关内容

[综述]深度学习下的场景文本检测与识别
专知会员服务
77+阅读 · 2019年10月10日
MIT新书《强化学习与最优控制》
专知会员服务
270+阅读 · 2019年10月9日
最新BERT相关论文清单,BERT-related Papers
专知会员服务
52+阅读 · 2019年9月29日
【ACL2020放榜!】事件抽取、关系抽取、NER、Few-Shot 相关论文整理
深度学习自然语言处理
18+阅读 · 2020年5月22日
Hierarchically Structured Meta-learning
CreateAMind
23+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
26+阅读 · 2019年5月18日
Call for Participation: Shared Tasks in NLPCC 2019
中国计算机学会
5+阅读 · 2019年3月22日
逆强化学习-学习人先验的动机
CreateAMind
15+阅读 · 2019年1月18日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
计算机视觉领域顶会CVPR 2018 接受论文列表
Capsule Networks解析
机器学习研究会
11+阅读 · 2017年11月12日
Arxiv
4+阅读 · 2019年8月7日
Exploring Visual Relationship for Image Captioning
Arxiv
14+阅读 · 2018年9月19日
Two Stream 3D Semantic Scene Completion
Arxiv
4+阅读 · 2018年7月16日
Arxiv
6+阅读 · 2018年3月25日
VIP会员
相关VIP内容
相关资讯
【ACL2020放榜!】事件抽取、关系抽取、NER、Few-Shot 相关论文整理
深度学习自然语言处理
18+阅读 · 2020年5月22日
Hierarchically Structured Meta-learning
CreateAMind
23+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
26+阅读 · 2019年5月18日
Call for Participation: Shared Tasks in NLPCC 2019
中国计算机学会
5+阅读 · 2019年3月22日
逆强化学习-学习人先验的动机
CreateAMind
15+阅读 · 2019年1月18日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
计算机视觉领域顶会CVPR 2018 接受论文列表
Capsule Networks解析
机器学习研究会
11+阅读 · 2017年11月12日
Top
微信扫码咨询专知VIP会员