斯坦福李飞飞高徒Johnson博士论文: 组成式计算机视觉智能,195页PDF - 专知VIP

会员服务 ·

20

视觉问答 · 李飞飞 · 计算机视觉 · Justin Johnson · 斯坦福大学 (Stanford University) ·

2019 年 10 月 27 日

斯坦福李飞飞高徒Johnson博士论文: 组成式计算机视觉智能,195页PDF

专知会员服务

专知，提供专业可信的知识分发服务，让认知协作更快更好！

论文题目：

Compositional visual intelligence

作者：

Johnson Justin

贡献者：

Li, Fei Fei, 1976- degree supervisor.

Goodman, Noah, degree committee member.

Ré, Christopher, degree committee member.

Stanford University. Computer Science Departmen

网址：

https://searchworks.stanford.edu/view/12746402

论文摘要：

计算机视觉领域在过去几年取得了巨大的进步，这主要归功于卷积神经网络。尽管在传统的计算机视觉任务上取得了成功，但我们的机器系统离人类的一般视觉智能还有很长的路要走。视觉智能的一个重要方面是组合——对整体的理解源于对部分的理解。为了实现组成视觉智能的目标，我们必须探索新的计算机视觉任务，创建新的数据集，开发利用组成性的新模型。在这篇论文中，我将讨论我的工作在三个不同的计算机视觉任务涉及语言，其中包含的合规性帮助我们建立具有更丰富的视觉智能的系统。我将首先讨论图像标题描述:传统系统生成描述图像的简短句子，但是通过将图像分解为区域和描述分解为短语，我们可以生成两种更丰富的描述:密集的标题和段落。其次，我将讨论视觉问答:现有的数据集主要由简短的问题组成;为了研究更复杂的需要复合位置推理的问题，我们引入了一个新的benchark数据集。在此基础上，提出了一种可视化问题交互的显式组成模型，该模型将问题转换为功能程序，并通过组合神经模块来执行这些程序。第三，我将讨论文本到图像生成:现有的系统可以根据文本描述检索或生成单个对象的简单图像，但难以处理更复杂的描述。用对象和关系的构成场景图代替自由形式的自然语言，可以检索和生成包含多个对象的复杂图像。

成为VIP会员查看完整内容

justin_johnson_dissertation-augmented.pdf

71

相关内容

视觉问答

视觉问答（Visual Question Answering，VQA），是一种涉及计算机视觉和自然语言处理的学习任务。这一任务的定义如下： A VQA system takes as input an image and a free-form, open-ended, natural-language question about the image and produces a natural-language answer as the output[1]。翻译为中文：一个VQA系统以一张图片和一个关于这张图片形式自由、开放式的自然语言问题作为输入，以生成一条自然语言答案作为输出。简单来说，VQA就是给定的图片进行问答。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等

【斯坦福大学博士论文】自监督场景表示学习， 97页pdf

【斯坦福大学博士论文】自监督场景表示学习， 97页pdf

专知会员服务

95+阅读 · 2020年6月19日

【斯坦福大学博士论文】机器学习中的凸优化问题,108页pdf

【斯坦福大学博士论文】机器学习中的凸优化问题,108页pdf

专知会员服务

162+阅读 · 2020年6月14日

【斯坦福大学博士论文】大规模和高维统计学习方法和算法，147页pdf

【斯坦福大学博士论文】大规模和高维统计学习方法和算法，147页pdf

专知会员服务

104+阅读 · 2020年6月13日

【综述】计算机视觉驱动的时尚研究，35页pdf带你了解领域最新进展

【综述】计算机视觉驱动的时尚研究，35页pdf带你了解领域最新进展

专知会员服务

38+阅读 · 2020年4月2日

【斯坦福大学】场景图谱表示在计算机视觉中的应用，41页ppt

【斯坦福大学】场景图谱表示在计算机视觉中的应用，41页ppt

专知会员服务

52+阅读 · 2020年1月8日

【CMU博士论文2019】建立知识感知的自然语言理解系统，附118页论文全文下载

【CMU博士论文2019】建立知识感知的自然语言理解系统，附118页论文全文下载

专知会员服务

52+阅读 · 2019年10月27日

斯坦福陈丹琦博士论文：神经网络阅读理解与更多【附156页pdf】

斯坦福陈丹琦博士论文：神经网络阅读理解与更多【附156页pdf】

专知会员服务

65+阅读 · 2019年10月27日

【伯克利博士论文】如何让机器人多技能？通过最大熵强化学习(107页pdf)

【伯克利博士论文】如何让机器人多技能？通过最大熵强化学习(107页pdf)

专知会员服务

78+阅读 · 2019年10月27日

【斯坦福大学李飞飞高徒朱玉可博士毕业论文和PPT，158页pdf与96页slides】闭合感知-动作循环:实现通用机器人的自治，能够理解并与现实世界交互的通用机器人构建智能

【斯坦福大学李飞飞高徒朱玉可博士毕业论文和PPT，158页pdf与96页slides】闭合感知-动作循环:实现通用机器人的自治，能够理解并与现实世界交互的通用机器人构建智能

专知会员服务

104+阅读 · 2019年10月22日

【CVPR 2019 | tutorial】视觉识别Visual Recognition and Beyond，Facebook|Ross Girshick，Justin Johnson（李飞飞高徒）

【CVPR 2019 | tutorial】视觉识别Visual Recognition and Beyond，Facebook|Ross Girshick，Justin Johnson（李飞飞高徒）

专知会员服务

29+阅读 · 2019年6月16日

CVPR 2020 | 深度视觉推理2.0：组合式目标指代理解

CVPR 2020 | 深度视觉推理2.0：组合式目标指代理解

AI科技评论

15+阅读 · 2020年3月20日

【AAAI2020论文】用于视觉对话中深度视觉理解的自适应双向编码模型—DualVD, 中科院信工所于静等

【AAAI2020论文】用于视觉对话中深度视觉理解的自适应双向编码模型—DualVD, 中科院信工所于静等

专知

20+阅读 · 2019年11月24日

7 Papers | 李飞飞新论文；深度学习代码搜索综述；Adobe用GAN生成动画

7 Papers | 李飞飞新论文；深度学习代码搜索综述；Adobe用GAN生成动画

机器之心

9+阅读 · 2019年10月13日

AI更懂人话：谷歌发布全新对话数据集，模仿智能助理

AI更懂人话：谷歌发布全新对话数据集，模仿智能助理

新智元

5+阅读 · 2019年9月7日

计算机视觉精品资料

计算机视觉精品资料

平均机器

11+阅读 · 2019年4月7日

自然语言处理常识推理综述论文，60页pdf

自然语言处理常识推理综述论文，60页pdf

专知

73+阅读 · 2019年4月4日

斯坦福陈丹琦博士论文：神经网络阅读理解与更多【附156页pdf】

斯坦福陈丹琦博士论文：神经网络阅读理解与更多【附156页pdf】

专知

62+阅读 · 2018年12月15日

【学界】李飞飞学生最新论文：利用场景图生成图像

【学界】李飞飞学生最新论文：利用场景图生成图像

GAN生成式对抗网络

15+阅读 · 2018年4月9日

AI学会了视觉推理，“脑补”看不清的物体 | 李佳李飞飞等的CVPR论文

AI学会了视觉推理，“脑补”看不清的物体 | 李佳李飞飞等的CVPR论文

量子位

6+阅读 · 2018年3月31日

李飞飞力赞论文：描述视频密集事件新模型 !（附论文）

李飞飞力赞论文：描述视频密集事件新模型 !（附论文）

数据派THU

10+阅读 · 2017年11月11日

Curriculum Learning for Reinforcement Learning Domains: A Framework and Survey

Curriculum Learning for Reinforcement Learning Domains: A Framework and Survey

Arxiv

20+阅读 · 2020年3月10日

MHSAN: Multi-Head Self-Attention Network for Visual Semantic Embedding

MHSAN: Multi-Head Self-Attention Network for Visual Semantic Embedding

Arxiv

4+阅读 · 2020年1月11日

Causality for Machine Learning

Arxiv

26+阅读 · 2019年11月24日

Unified Vision-Language Pre-Training for Image Captioning and VQA

Unified Vision-Language Pre-Training for Image Captioning and VQA

Arxiv

8+阅读 · 2019年10月3日

Activitynet 2019 Task 3: Exploring Contexts for Dense Captioning Events in Videos

Activitynet 2019 Task 3: Exploring Contexts for Dense Captioning Events in Videos

Arxiv

3+阅读 · 2019年7月11日

Fine-tune BERT for Extractive Summarization

Arxiv

21+阅读 · 2019年3月25日

Supervised and Unsupervised Transfer Learning for Question Answering

Arxiv

4+阅读 · 2018年4月21日

A Generative Model For Zero Shot Learning Using Conditional Variational Autoencoders

Arxiv

9+阅读 · 2018年1月27日

Train Once, Test Anywhere: Zero-Shot Learning for Text Classification

Arxiv

4+阅读 · 2017年12月23日

A Unified approach for Conventional Zero-shot, Generalized Zero-shot and Few-shot Learning

Arxiv

4+阅读 · 2017年10月26日

VIP会员

相关主题

计算机视觉

斯坦福大学 (Stanford University)

相关VIP内容

【斯坦福大学博士论文】自监督场景表示学习， 97页pdf

【斯坦福大学博士论文】自监督场景表示学习， 97页pdf

专知会员服务

95+阅读 · 2020年6月19日

【斯坦福大学博士论文】机器学习中的凸优化问题,108页pdf

【斯坦福大学博士论文】机器学习中的凸优化问题,108页pdf

专知会员服务

162+阅读 · 2020年6月14日

【斯坦福大学博士论文】大规模和高维统计学习方法和算法，147页pdf

【斯坦福大学博士论文】大规模和高维统计学习方法和算法，147页pdf

专知会员服务

104+阅读 · 2020年6月13日

【综述】计算机视觉驱动的时尚研究，35页pdf带你了解领域最新进展

【综述】计算机视觉驱动的时尚研究，35页pdf带你了解领域最新进展

专知会员服务

38+阅读 · 2020年4月2日

【斯坦福大学】场景图谱表示在计算机视觉中的应用，41页ppt

【斯坦福大学】场景图谱表示在计算机视觉中的应用，41页ppt

专知会员服务

52+阅读 · 2020年1月8日

【CMU博士论文2019】建立知识感知的自然语言理解系统，附118页论文全文下载

【CMU博士论文2019】建立知识感知的自然语言理解系统，附118页论文全文下载

专知会员服务

52+阅读 · 2019年10月27日

斯坦福陈丹琦博士论文：神经网络阅读理解与更多【附156页pdf】

斯坦福陈丹琦博士论文：神经网络阅读理解与更多【附156页pdf】

专知会员服务

65+阅读 · 2019年10月27日

【伯克利博士论文】如何让机器人多技能？通过最大熵强化学习(107页pdf)

【伯克利博士论文】如何让机器人多技能？通过最大熵强化学习(107页pdf)

专知会员服务

78+阅读 · 2019年10月27日

【斯坦福大学李飞飞高徒朱玉可博士毕业论文和PPT，158页pdf与96页slides】闭合感知-动作循环:实现通用机器人的自治，能够理解并与现实世界交互的通用机器人构建智能

【斯坦福大学李飞飞高徒朱玉可博士毕业论文和PPT，158页pdf与96页slides】闭合感知-动作循环:实现通用机器人的自治，能够理解并与现实世界交互的通用机器人构建智能

专知会员服务

104+阅读 · 2019年10月22日

【CVPR 2019 | tutorial】视觉识别Visual Recognition and Beyond，Facebook|Ross Girshick，Justin Johnson（李飞飞高徒）

【CVPR 2019 | tutorial】视觉识别Visual Recognition and Beyond，Facebook|Ross Girshick，Justin Johnson（李飞飞高徒）

专知会员服务

29+阅读 · 2019年6月16日

热门VIP内容

开通专知VIP会员享更多权益服务

最新，DeepSeek-R1论文登上Nature封面，附83页补充材料

人工智能与未来战争

自动驾驶中的轨迹预测大型基础模型：全面综述

万字长文《对抗雷达系统的电子战综述》

相关资讯

CVPR 2020 | 深度视觉推理2.0：组合式目标指代理解

CVPR 2020 | 深度视觉推理2.0：组合式目标指代理解

AI科技评论

15+阅读 · 2020年3月20日

【AAAI2020论文】用于视觉对话中深度视觉理解的自适应双向编码模型—DualVD, 中科院信工所于静等

【AAAI2020论文】用于视觉对话中深度视觉理解的自适应双向编码模型—DualVD, 中科院信工所于静等

专知

20+阅读 · 2019年11月24日

7 Papers | 李飞飞新论文；深度学习代码搜索综述；Adobe用GAN生成动画

7 Papers | 李飞飞新论文；深度学习代码搜索综述；Adobe用GAN生成动画

机器之心

9+阅读 · 2019年10月13日

AI更懂人话：谷歌发布全新对话数据集，模仿智能助理

AI更懂人话：谷歌发布全新对话数据集，模仿智能助理

新智元

5+阅读 · 2019年9月7日

计算机视觉精品资料

计算机视觉精品资料

平均机器

11+阅读 · 2019年4月7日

自然语言处理常识推理综述论文，60页pdf

自然语言处理常识推理综述论文，60页pdf

专知

73+阅读 · 2019年4月4日

斯坦福陈丹琦博士论文：神经网络阅读理解与更多【附156页pdf】

斯坦福陈丹琦博士论文：神经网络阅读理解与更多【附156页pdf】

专知

62+阅读 · 2018年12月15日

【学界】李飞飞学生最新论文：利用场景图生成图像

【学界】李飞飞学生最新论文：利用场景图生成图像

GAN生成式对抗网络

15+阅读 · 2018年4月9日

AI学会了视觉推理，“脑补”看不清的物体 | 李佳李飞飞等的CVPR论文

AI学会了视觉推理，“脑补”看不清的物体 | 李佳李飞飞等的CVPR论文

量子位

6+阅读 · 2018年3月31日

李飞飞力赞论文：描述视频密集事件新模型 !（附论文）

李飞飞力赞论文：描述视频密集事件新模型 !（附论文）

数据派THU

10+阅读 · 2017年11月11日

相关论文

Curriculum Learning for Reinforcement Learning Domains: A Framework and Survey

Curriculum Learning for Reinforcement Learning Domains: A Framework and Survey

Arxiv

20+阅读 · 2020年3月10日

MHSAN: Multi-Head Self-Attention Network for Visual Semantic Embedding

MHSAN: Multi-Head Self-Attention Network for Visual Semantic Embedding

Arxiv

4+阅读 · 2020年1月11日

Causality for Machine Learning

Arxiv

26+阅读 · 2019年11月24日

Unified Vision-Language Pre-Training for Image Captioning and VQA

Unified Vision-Language Pre-Training for Image Captioning and VQA

Arxiv

8+阅读 · 2019年10月3日

Activitynet 2019 Task 3: Exploring Contexts for Dense Captioning Events in Videos

Activitynet 2019 Task 3: Exploring Contexts for Dense Captioning Events in Videos

Arxiv

3+阅读 · 2019年7月11日

Fine-tune BERT for Extractive Summarization

Arxiv

21+阅读 · 2019年3月25日

Supervised and Unsupervised Transfer Learning for Question Answering

Arxiv

4+阅读 · 2018年4月21日

A Generative Model For Zero Shot Learning Using Conditional Variational Autoencoders

Arxiv

9+阅读 · 2018年1月27日

Train Once, Test Anywhere: Zero-Shot Learning for Text Classification

Arxiv

4+阅读 · 2017年12月23日

A Unified approach for Conventional Zero-shot, Generalized Zero-shot and Few-shot Learning

Arxiv

4+阅读 · 2017年10月26日

微信扫码咨询专知VIP会员