Scene graph generation has emerged as an important problem in computer vision. While scene graphs provide a grounded representation of objects, their locations and relations in an image, they do so only at the granularity of proposal bounding boxes. In this work, we propose the first, to our knowledge, framework for pixel-level segmentation-grounded scene graph generation. Our framework is agnostic to the underlying scene graph generation method and address the lack of segmentation annotations in target scene graph datasets (e.g., Visual Genome) through transfer and multi-task learning from, and with, an auxiliary dataset (e.g., MS COCO). Specifically, each target object being detected is endowed with a segmentation mask, which is expressed as a lingual-similarity weighted linear combination over categories that have annotations present in an auxiliary dataset. These inferred masks, along with a novel Gaussian attention mechanism which grounds the relations at a pixel-level within the image, allow for improved relation prediction. The entire framework is end-to-end trainable and is learned in a multi-task manner with both target and auxiliary datasets.


翻译:显像图生成已成为计算机视觉中的一个重要问题。 景象图的生成为对象、 其位置和图像中的关系提供了一种有根有据的表达方式, 它们只是在标注捆绑框的颗粒上才提供。 在这项工作中, 我们提出第一个, 据我们所知, 像素层分割框架, 以像素层为底部的场景图生成图。 我们的框架对底部图像生成方法具有不可知性, 并通过向目标场景图数据集( 如视觉基因组)传输和多任务学习, 解决目标场景图数据集( 如视觉基因组)中缺少分解说明的问题, 从而改进关联性预测。 具体地说, 所探测的每个目标对象都配有分层遮罩, 其表现为在辅助数据集中带有说明的类别上的一种语言- 相似性加权线性组合。 这些推断的遮罩, 加上一个新型高斯注意机制, 它将在图像中的像素层中建立关系, 从而改进关联性预测。 整个框架是端到端可训练的, 并且以多式的方式学习。

0
下载
关闭预览

相关内容

因果图,Causal Graphs,52页ppt
专知会员服务
238+阅读 · 2020年4月19日
专知会员服务
109+阅读 · 2020年3月12日
[综述]深度学习下的场景文本检测与识别
专知会员服务
77+阅读 · 2019年10月10日
【哈佛大学商学院课程Fall 2019】机器学习可解释性
专知会员服务
98+阅读 · 2019年10月9日
【SIGGRAPH2019】TensorFlow 2.0深度学习计算机图形学应用
专知会员服务
39+阅读 · 2019年10月9日
Hierarchically Structured Meta-learning
CreateAMind
23+阅读 · 2019年5月22日
弱监督语义分割最新方法资源列表
专知
9+阅读 · 2019年2月26日
语义分割 | context relation
极市平台
8+阅读 · 2019年2月9日
逆强化学习-学习人先验的动机
CreateAMind
15+阅读 · 2019年1月18日
无监督元学习表示学习
CreateAMind
25+阅读 · 2019年1月4日
Unsupervised Learning via Meta-Learning
CreateAMind
41+阅读 · 2019年1月3日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
语义分割+视频分割开源代码集合
极市平台
35+阅读 · 2018年3月5日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Arxiv
10+阅读 · 2020年6月12日
Bridging Knowledge Graphs to Generate Scene Graphs
Arxiv
5+阅读 · 2020年1月7日
Using Scene Graph Context to Improve Image Generation
Arxiv
6+阅读 · 2018年3月25日
Arxiv
3+阅读 · 2018年3月5日
VIP会员
相关资讯
Hierarchically Structured Meta-learning
CreateAMind
23+阅读 · 2019年5月22日
弱监督语义分割最新方法资源列表
专知
9+阅读 · 2019年2月26日
语义分割 | context relation
极市平台
8+阅读 · 2019年2月9日
逆强化学习-学习人先验的动机
CreateAMind
15+阅读 · 2019年1月18日
无监督元学习表示学习
CreateAMind
25+阅读 · 2019年1月4日
Unsupervised Learning via Meta-Learning
CreateAMind
41+阅读 · 2019年1月3日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
语义分割+视频分割开源代码集合
极市平台
35+阅读 · 2018年3月5日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Top
微信扫码咨询专知VIP会员