论文题目:

Compositional visual intelligence

作者:

Johnson Justin

贡献者:

Li, Fei Fei, 1976- degree supervisor.

Goodman, Noah, degree committee member.

Ré, Christopher, degree committee member.

Stanford University. Computer Science Departmen

网址:

https://searchworks.stanford.edu/view/12746402

论文摘要:

计算机视觉领域在过去几年取得了巨大的进步,这主要归功于卷积神经网络。尽管在传统的计算机视觉任务上取得了成功,但我们的机器系统离人类的一般视觉智能还有很长的路要走。视觉智能的一个重要方面是组合——对整体的理解源于对部分的理解。为了实现组成视觉智能的目标,我们必须探索新的计算机视觉任务,创建新的数据集,开发利用组成性的新模型。在这篇论文中,我将讨论我的工作在三个不同的计算机视觉任务涉及语言,其中包含的合规性帮助我们建立具有更丰富的视觉智能的系统。我将首先讨论图像标题描述:传统系统生成描述图像的简短句子,但是通过将图像分解为区域和描述分解为短语,我们可以生成两种更丰富的描述:密集的标题和段落。其次,我将讨论视觉问答:现有的数据集主要由简短的问题组成;为了研究更复杂的需要复合位置推理的问题,我们引入了一个新的benchark数据集。在此基础上,提出了一种可视化问题交互的显式组成模型,该模型将问题转换为功能程序,并通过组合神经模块来执行这些程序。第三,我将讨论文本到图像生成:现有的系统可以根据文本描述检索或生成单个对象的简单图像,但难以处理更复杂的描述。用对象和关系的构成场景图代替自由形式的自然语言,可以检索和生成包含多个对象的复杂图像。

成为VIP会员查看完整内容
justin_johnson_dissertation-augmented.pdf
65

相关内容

视觉问答(Visual Question Answering,VQA),是一种涉及计算机视觉和自然语言处理的学习任务。这一任务的定义如下: A VQA system takes as input an image and a free-form, open-ended, natural-language question about the image and produces a natural-language answer as the output[1]。 翻译为中文:一个VQA系统以一张图片和一个关于这张图片形式自由、开放式的自然语言问题作为输入,以生成一条自然语言答案作为输出。简单来说,VQA就是给定的图片进行问答。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等
【斯坦福大学博士论文】自监督场景表示学习, 97页pdf
专知会员服务
92+阅读 · 2020年6月19日
CVPR 2020 | 深度视觉推理2.0:组合式目标指代理解
AI科技评论
15+阅读 · 2020年3月20日
计算机视觉精品资料
平均机器
11+阅读 · 2019年4月7日
自然语言处理常识推理综述论文,60页pdf
专知
69+阅读 · 2019年4月4日
【学界】 李飞飞学生最新论文:利用场景图生成图像
GAN生成式对抗网络
15+阅读 · 2018年4月9日
Arxiv
22+阅读 · 2019年11月24日
Arxiv
21+阅读 · 2019年3月25日
VIP会员
相关VIP内容
【斯坦福大学博士论文】自监督场景表示学习, 97页pdf
专知会员服务
92+阅读 · 2020年6月19日
微信扫码咨询专知VIP会员