免费 | 从文本匹配到图文匹配:所见所想所找 - 基于生成模型的多模态检索 - 专知

会员服务 ·

0

免费 | 从文本匹配到图文匹配:所见所想所找 - 基于生成模型的多模态检索

2018 年 3 月 23 日 AI研习社 AI慕课

互联网存在大量的文本和图像数据。目前，文本匹配是搜索引擎非常重要的一个组成。而文本匹配也是自然语言处理中一个重要的基础问题。

例如，我们搜索一个网页，则是网页内容和用户搜索查询的一个相关性匹配问题。然而，我们不仅仅需要文本，有时候我们需要检索图像。比如，我需要检索“一个戴着帽子并穿着红色裙子的小女孩躺在一片长满鲜花的草地上”。检索这样一张图片，简单的文本和图像属性匹配已经很难做到了。

这样一个问题不仅仅需要理解文本还需要对图片理解，该技术是多个模式识别任务的核心算法。传统的方法是对文本和图像进行特征提取，然后对high-level特征进行匹配。然而，这种方法会陷入对属性的匹配，而没有考虑的图片的空间关系，例如，”女孩”，”帽子”和”草地”它们之间是有空间关系的，仅仅进行高层次特征匹配，显然无法考虑这点。

给定一段文字描述，我们想要检索到最符合描述的图像，一名画家可以比普通人找到更符合的图像，那是因为训练有素的画家知道预期的图片是什么样；同样，给一幅图片让我们检索最恰当的文字描述，一名作家也往往会给出比普通人更好的描述，因为作家具备更强的文字表达能力。我们把这种对检索目标有预期的过程称为--”Imagine”。基于这种思想，我们提出了一种基于生成模型的跨模态检索模型，我们取名为”所看所想所找”。

所看，我们看了图片或文字，并理解；

所想，我们脑补可能的匹配结果；

所找，我们根据脑补的结果和实际的结果去找需要的。

基于“文本匹配”及NLP的相关话题，AI慕课学院邀请了来自新加坡南洋理工大学的玖强博士3月27日（周二，晚8:30）为大家带来一次主题分享！

公开课主题

从文本匹配到图文匹配:

所见所想所找－基于生成模型的多模态检索

内容大纲

1. 单模态检索技术到多模态检索

什么是单模态检索
什么是多模态检索
多模态检索问题的挑战

2. 所见所想所找

所见：基于深度模型的图像和文本特征提取
所想：基于生成模型的“脑补”

a.从图像生成预期文本

b.从文本生成预期图像

所见：全局和局部双重匹配

讲师介绍

玖强博士，新加坡南洋理工大学博士，精通算法，软硬兼修，目前主要研究方向是计算机视觉和自然语言处理结合，例如，图像/视频理解, 图像/视频自动描述生成，人机对话，多模态检索。

在算法和神经网络方面，侧重卷积神经网络，递归神经网络，增强学习，对抗学习，无监督学习等。

发表多篇人工智能及计算机视觉顶级会议和期刊，包括CVPR(Spotlight), ICCV、AAAI(Oral)、PR等，并为多个会议和期刊审稿人。

上课时间

3月27日（周二）晚上20:30-21:30

如何报名

直播平台：腾讯课堂

报名方式：点击阅读原文或扫码进入课程页面直接报名

登录查看更多

44

相关内容

多模态检索

多模态检索

【CVPR2020-微软&FB】自监督学习的视觉语言建模，115页ppt讲述多模态预训练进展

【CVPR2020-微软&FB】自监督学习的视觉语言建模，115页ppt讲述多模态预训练进展

专知会员服务

57+阅读 · 2020年6月18日

【CVPR 2020-人大】基于层次图推理的细粒度文本视频跨模态检索

【CVPR 2020-人大】基于层次图推理的细粒度文本视频跨模态检索

专知会员服务

65+阅读 · 2020年4月5日

【WWW2020-UIUC】为新闻故事生成具有代表性的标题

【WWW2020-UIUC】为新闻故事生成具有代表性的标题

专知会员服务

26+阅读 · 2020年3月18日

【哈工大】基于抽取的高考作文生成

【哈工大】基于抽取的高考作文生成

专知会员服务

36+阅读 · 2020年3月10日

微软亚洲研究院新论文-《多模态预训练语言模型UniViLM》面向多模态理解和生成的统一视频和语言预训练模型

微软亚洲研究院新论文-《多模态预训练语言模型UniViLM》面向多模态理解和生成的统一视频和语言预训练模型

专知会员服务

106+阅读 · 2020年2月19日

慕尼黑大学LMU博士论文：自然语言文本神经网络信息提取，240页pdf

慕尼黑大学LMU博士论文：自然语言文本神经网络信息提取，240页pdf

专知会员服务

73+阅读 · 2020年1月13日

图像内容自动描述技术综述

图像内容自动描述技术综述

专知会员服务

84+阅读 · 2019年11月17日

【MLA 2019】图像的非监督增强匹配，清华大学张长水教授

【MLA 2019】图像的非监督增强匹配，清华大学张长水教授

专知会员服务

26+阅读 · 2019年11月6日

问答与对话-技术与系统之问答系统【唐都钰段楠】第十四届中国中文信息学会暑期学校暨中国中文信息学会《前沿科技讲习班》ATT第14期

问答与对话-技术与系统之问答系统【唐都钰段楠】第十四届中国中文信息学会暑期学校暨中国中文信息学会《前沿科技讲习班》ATT第14期

专知会员服务

49+阅读 · 2019年10月23日

WSDM 2019教程—李航、何向南等，深度学习匹配在搜索和推荐中的应用

WSDM 2019教程—李航、何向南等，深度学习匹配在搜索和推荐中的应用

专知会员服务

74+阅读 · 2019年10月19日

AAAI 2020 | 多模态基准指导的生成式多模态自动文摘

AAAI 2020 | 多模态基准指导的生成式多模态自动文摘

AI科技评论

16+阅读 · 2020年1月5日

复旦大学：利用场景图针对图像序列进行故事生成 | AAAI 2020

复旦大学：利用场景图针对图像序列进行故事生成 | AAAI 2020

AI科技评论

10+阅读 · 2019年12月23日

【微软ICLR2020提交论文】多模态预训练表示UNITER：通用图像-文本语言表示学习

【微软ICLR2020提交论文】多模态预训练表示UNITER：通用图像-文本语言表示学习

专知

50+阅读 · 2019年10月20日

基于知识图谱的文本挖掘 - 超越文本挖掘

基于知识图谱的文本挖掘 - 超越文本挖掘

专知

37+阅读 · 2019年8月18日

深度文本匹配在智能客服中的应用

深度文本匹配在智能客服中的应用

AI100

18+阅读 · 2018年10月24日

基于深度表达学习的图像语义解析：全面综述

基于深度表达学习的图像语义解析：全面综述

FCS

8+阅读 · 2018年10月8日

SIGIR 2018基于知识图谱的文本信息检索（附222页PPT下载）

SIGIR 2018基于知识图谱的文本信息检索（附222页PPT下载）

专知

17+阅读 · 2018年7月13日

【干货】基于属性学习和额外知识库的图像描述生成和视觉问答

【干货】基于属性学习和额外知识库的图像描述生成和视觉问答

专知

18+阅读 · 2017年12月25日

深度图像先验：无需学习即可生成新图像

深度图像先验：无需学习即可生成新图像

论智

45+阅读 · 2017年12月4日

基于图片内容的深度学习图片检索（一）

基于图片内容的深度学习图片检索（一）

七月在线实验室

20+阅读 · 2017年10月1日

Multi-Modal Graph Neural Network for Joint Reasoning on Vision and Scene Text

Multi-Modal Graph Neural Network for Joint Reasoning on Vision and Scene Text

Arxiv

10+阅读 · 2020年3月31日

Neural Image Captioning

Neural Image Captioning

Arxiv

5+阅读 · 2019年7月2日

Monocular Total Capture: Posing Face, Body, and Hands in the Wild

Monocular Total Capture: Posing Face, Body, and Hands in the Wild

Arxiv

4+阅读 · 2018年12月4日

Image Captioning based on Deep Reinforcement Learning

Image Captioning based on Deep Reinforcement Learning

Arxiv

9+阅读 · 2018年9月13日

Sem-GAN: Semantically-Consistent Image-to-Image Translation

Sem-GAN: Semantically-Consistent Image-to-Image Translation

Arxiv

4+阅读 · 2018年7月12日

Learning Cross-Modal Deep Embeddings for Multi-Object Image Retrieval using Text and Sketch

Arxiv

5+阅读 · 2018年4月28日

Bottom-Up and Top-Down Attention for Image Captioning and Visual Question Answering

Arxiv

14+阅读 · 2018年3月14日

Mono-Camera 3D Multi-Object Tracking Using Deep Learning Detections and PMBM Filtering

Arxiv

9+阅读 · 2018年2月27日

Predicting Visual Features from Text for Image and Video Caption Retrieval

Arxiv

5+阅读 · 2018年1月29日

DeepSeek: Content Based Image Search & Retrieval

Arxiv

11+阅读 · 2018年1月11日

VIP会员

相关主题

多模态检索

相关性匹配

相关VIP内容

【CVPR2020-微软&FB】自监督学习的视觉语言建模，115页ppt讲述多模态预训练进展

【CVPR2020-微软&FB】自监督学习的视觉语言建模，115页ppt讲述多模态预训练进展

专知会员服务

57+阅读 · 2020年6月18日

【CVPR 2020-人大】基于层次图推理的细粒度文本视频跨模态检索

【CVPR 2020-人大】基于层次图推理的细粒度文本视频跨模态检索

专知会员服务

65+阅读 · 2020年4月5日

【WWW2020-UIUC】为新闻故事生成具有代表性的标题

【WWW2020-UIUC】为新闻故事生成具有代表性的标题

专知会员服务

26+阅读 · 2020年3月18日

【哈工大】基于抽取的高考作文生成

【哈工大】基于抽取的高考作文生成

专知会员服务

36+阅读 · 2020年3月10日

微软亚洲研究院新论文-《多模态预训练语言模型UniViLM》面向多模态理解和生成的统一视频和语言预训练模型

微软亚洲研究院新论文-《多模态预训练语言模型UniViLM》面向多模态理解和生成的统一视频和语言预训练模型

专知会员服务

106+阅读 · 2020年2月19日

慕尼黑大学LMU博士论文：自然语言文本神经网络信息提取，240页pdf

慕尼黑大学LMU博士论文：自然语言文本神经网络信息提取，240页pdf

专知会员服务

73+阅读 · 2020年1月13日

图像内容自动描述技术综述

图像内容自动描述技术综述

专知会员服务

84+阅读 · 2019年11月17日

【MLA 2019】图像的非监督增强匹配，清华大学张长水教授

【MLA 2019】图像的非监督增强匹配，清华大学张长水教授

专知会员服务

26+阅读 · 2019年11月6日

问答与对话-技术与系统之问答系统【唐都钰段楠】第十四届中国中文信息学会暑期学校暨中国中文信息学会《前沿科技讲习班》ATT第14期

问答与对话-技术与系统之问答系统【唐都钰段楠】第十四届中国中文信息学会暑期学校暨中国中文信息学会《前沿科技讲习班》ATT第14期

专知会员服务

49+阅读 · 2019年10月23日

WSDM 2019教程—李航、何向南等，深度学习匹配在搜索和推荐中的应用

WSDM 2019教程—李航、何向南等，深度学习匹配在搜索和推荐中的应用

专知会员服务

74+阅读 · 2019年10月19日

热门VIP内容

相关资讯

AAAI 2020 | 多模态基准指导的生成式多模态自动文摘

AAAI 2020 | 多模态基准指导的生成式多模态自动文摘

AI科技评论

16+阅读 · 2020年1月5日

复旦大学：利用场景图针对图像序列进行故事生成 | AAAI 2020

复旦大学：利用场景图针对图像序列进行故事生成 | AAAI 2020

AI科技评论

10+阅读 · 2019年12月23日

【微软ICLR2020提交论文】多模态预训练表示UNITER：通用图像-文本语言表示学习

【微软ICLR2020提交论文】多模态预训练表示UNITER：通用图像-文本语言表示学习

专知

50+阅读 · 2019年10月20日

基于知识图谱的文本挖掘 - 超越文本挖掘

基于知识图谱的文本挖掘 - 超越文本挖掘

专知

37+阅读 · 2019年8月18日

深度文本匹配在智能客服中的应用

深度文本匹配在智能客服中的应用

AI100

18+阅读 · 2018年10月24日

基于深度表达学习的图像语义解析：全面综述

基于深度表达学习的图像语义解析：全面综述

FCS

8+阅读 · 2018年10月8日

SIGIR 2018基于知识图谱的文本信息检索（附222页PPT下载）

SIGIR 2018基于知识图谱的文本信息检索（附222页PPT下载）

专知

17+阅读 · 2018年7月13日

【干货】基于属性学习和额外知识库的图像描述生成和视觉问答

【干货】基于属性学习和额外知识库的图像描述生成和视觉问答

专知

18+阅读 · 2017年12月25日

深度图像先验：无需学习即可生成新图像

深度图像先验：无需学习即可生成新图像

论智

45+阅读 · 2017年12月4日

基于图片内容的深度学习图片检索（一）

基于图片内容的深度学习图片检索（一）

七月在线实验室

20+阅读 · 2017年10月1日

相关论文

Multi-Modal Graph Neural Network for Joint Reasoning on Vision and Scene Text

Multi-Modal Graph Neural Network for Joint Reasoning on Vision and Scene Text

Arxiv

10+阅读 · 2020年3月31日

Neural Image Captioning

Neural Image Captioning

Arxiv

5+阅读 · 2019年7月2日

Monocular Total Capture: Posing Face, Body, and Hands in the Wild

Monocular Total Capture: Posing Face, Body, and Hands in the Wild

Arxiv

4+阅读 · 2018年12月4日

Image Captioning based on Deep Reinforcement Learning

Image Captioning based on Deep Reinforcement Learning

Arxiv

9+阅读 · 2018年9月13日

Sem-GAN: Semantically-Consistent Image-to-Image Translation

Sem-GAN: Semantically-Consistent Image-to-Image Translation

Arxiv

4+阅读 · 2018年7月12日

Learning Cross-Modal Deep Embeddings for Multi-Object Image Retrieval using Text and Sketch

Arxiv

5+阅读 · 2018年4月28日

Bottom-Up and Top-Down Attention for Image Captioning and Visual Question Answering

Arxiv

14+阅读 · 2018年3月14日

Mono-Camera 3D Multi-Object Tracking Using Deep Learning Detections and PMBM Filtering

Arxiv

9+阅读 · 2018年2月27日

Predicting Visual Features from Text for Image and Video Caption Retrieval

Arxiv

5+阅读 · 2018年1月29日

DeepSeek: Content Based Image Search & Retrieval

Arxiv

11+阅读 · 2018年1月11日

大家都在搜

李清照词作

大型语言模型

CMU博士论文

图与推荐指南针

综述——隐私保护集合交集计算技术研究

微信扫码咨询专知VIP会员