主题: Vision and Language: the text modality in computer vision

简介: 长期以来,文档图像分析一直致力于创建智能阅读系统,其重点仅在于理解以图像形式呈现的文本和图形信息。 另一方面,总体而言,计算机视觉显示出以各种方式利用多模式信息的日益增长的趋势。从一种模态转换为另一种模态或派生出模态之间的联合嵌入是两个关键范式。文本通常是感兴趣的形式之一,尽管很少是指图像形式的文本。 在本教程中,我们将从文档分析和计算机视觉的最新进展中汲取经验,以展示当前如何在最先进的研究中处理作为形式的文本。我们将回顾各种方法和应用,重点关注用于多模式嵌入和跨模式翻译的深度学习技术,这些技术为建模文本和视觉信息之间的相关性提供了非常强大的框架。 本教程将介绍的一些应用程序示例包括:

  • 词点检测,目的是为字符串的视觉(图像)和文本(转录)表示之间的相关性建模。

  • 动态词典生成, 其目的是通过利用场景的视觉信息,动态地提出在图像中极有可能出现的单词字典,以此作为促进后续场景文本识别的手段。 在一种模式(文本)作为另一种模式(图像)的监督信号的情况下,对视觉特征进行自我监督学习,提供了一种学习有用特征的机制,从而避免了昂贵的注释。

  • 图像的跨模式/多模式语义检索, 其目的是对视觉信息和从文本信息中导出的语义之间的相关性进行建模,以实现跨模式图像检索。

  • 图像字幕, 目标是从视觉域转换到文本域(自然语言)。我们将在本教程中讨论的现有方法的有趣变化是,如何将图像中或要描述的图像中的文本信息整合到字幕处理过程中。

嘉宾介绍: Dimosthenis Karatzas是巴塞罗那大学的副教授,西班牙巴塞罗那的计算机视觉中心(CVC)副主任。在CVC,他领导视觉和语言研究领域,在计算机视觉和文本分析的交汇处工作。他与他人合着了100多种参考期刊和会议出版物,H指数为23。他曾获得2013年度IAPR / ICDAR青年研究奖和2017年Google院系研究奖。D. Karatzas在其领域的主要会议(ICDAR,DAS,CBDAR,ICPR,ICFHR)中担任过各种职务,包括-主持IWRR 2014/16/18和CBDAR 2015/17。D. Karatzas是“健壮的阅读比赛”系列的主要组织者。他是国际阅读系统技术委员会的主席。模式识别协会。D. Karatzas是SPIE英国分会的创始成员和执行委员会成员,而他目前是IAPR教育委员会的成员和IEEE IAPR的成员。他是图书馆生活实验室(Library Living Lab)的创始人之一,该实验室是公共图书馆中的开放式参与式创新空间。

成为VIP会员查看完整内容
24

相关内容

文档识别主要应用于学习工作等一些关于文档处理的办公领域,可以快速高效利用OCR技术对文案文档、证书、票据、病历、说明书、简历、合同等各类纸质文档进行识别,另外可以通过云端技术将识别后的内容以及图像上传到服务器进行备份储存,并具备方便的检索功能,可以使用户简单方便的找到备份的内容。
AI综述专栏|多模态学习研究进展综述
人工智能前沿讲习班
64+阅读 · 2018年7月13日
白翔:复杂开放场景中的文本理解
深度学习大讲堂
12+阅读 · 2018年6月5日
【AIDL专栏】鲁继文:面向视觉内容理解的深度度量学习
人工智能前沿讲习班
32+阅读 · 2018年5月22日
Arxiv
6+阅读 · 2018年11月1日
Arxiv
3+阅读 · 2018年4月11日
Arxiv
3+阅读 · 2017年11月12日
VIP会员
相关VIP内容
相关资讯
微信扫码咨询专知VIP会员