主题: Graph-based Methods in Pattern Recognition and Document Image Analysis

简介: 模式识别和文档图像分析中的许多任务被公式化为图形匹配问题。尽管问题具有NP难性,但快速准确的收敛已在模式识别的广泛应用中取得了重大进展。因此,学习基于图的表示形式和相关技术是真正兴趣。在本教程中,我们将介绍用于获得不同应用程序的图形表示的许多方法。之后,我们将解释用于在图域中识别,分类,检测和许多其他任务的基于图的不同算法,方法和技术。我们将介绍最近的趋势,包括图卷积网络和图中的消息传递,重点介绍在各种模式识别问题中的应用,例如化学分子分类和网络图形表示中的检测。此外,除了这些算法在文档图像分析和识别(尤其是模式识别)领域的不同应用之外,还将提供相关经验。

嘉宾介绍: DUTTA Anjan是位于巴塞罗那计算机视觉中心的P-SPHERE项目下的Marie-Curie博士后。他于2014年获得巴塞罗那自治大学(UAB)的计算机科学博士学位。他是IJCV,IEEE TCYB,IEEE TNNLS,PR,PRL等期刊的定期审稿人,并经常担任BMVC,ICPR,ACPR和ICFHR等各种科学会议的程序委员会委员。他最近的研究兴趣围绕视觉对象的基于图形的表示和解决计算机视觉,模式识别和机器学习中各种任务的基于图形的算法。

Luqman Muhammad Muzzamil博士是文档图像分析,模式识别和计算机视觉的研究科学家。自2015年11月以来,卢克曼目前在拉罗谢尔大学(法国)的L3i实验室担任研究工程师。Luqman曾在波尔多生物信息学中心(波尔多生物信息中心)担任研究工程师,并在拉罗谢尔大学(法国)的L3i实验室担任Jean-Marc Ogier教授的博士后研究员。 Luqman拥有FrançoisRabelais的图尔大学(法国)和巴塞罗那的Autonoma大学(西班牙)的计算机科学博士学位。他的博士学位论文由Jean-Yves Ramel教授和Josep Llados教授共同指导。他的研究兴趣包括结构模式识别,文档图像分析,基于相机的文档分析和识别,图形识别,机器学习,计算机视觉,增强现实和仿生学。

成为VIP会员查看完整内容
0
26

相关内容

ICDAR是一个非常成功的旗舰会议系列,是文献分析界研究人员、科学家和实践者的最大和最重要的国际会议。该会议得到了IAPR-TC 10/11的认可,成立于近30年前。第15届文件分析与识别国际会议(ICDAR 2019)由澳大利亚悉尼科技大学(UTS)主办,并在悉尼国际会议中心(ICC)举行。接受的论文由会议出版服务(CPS)出版,并提交给IEEE Xplore数字图书馆。官网链接:http://icdar2019.org/

题目: Text Detection and Recognition in the Wild: A Review

简介: 自然图像中文本的检测和识别是计算机视觉领域中的两个主要问题,在体育视频分析,自动驾驶,工业自动化等方面有广泛的应用。他们面临着常见的挑战性问题,这些问题是如何在多种环境条件下表示和影响文本的因素。当前最新的文本检测和/或识别方法已经利用了深度学习体系结构发展,并报告了基准数据集在以下情况下具有更高的准确性:处理多分辨率和多方位的文本。但是,仍然存在一些影响野生图像中文本的挑战,由于现有模型无法归纳为看不见的数据和标记数据的不足,导致现有方法的执行力不行。因此,与该领域的先前调查不同,该调查的目的如下:首先,提供的不仅是对场景文本检测和识别方面的进展的看法,而且还提出了使用统一评估进行广泛实验的结果,该框架评估在挑战性案例中所选方法的预训练模型,并对这些技术应用相同的评估标准。其次,确定在检测或识别野外图像中存在的几个挑战,即平面旋转,多方向和多分辨率文本,透视变形,照明反射,部分遮挡,复杂字体和特殊字符。最后,论文提供了对该领域潜在研究方向的洞察力,以解决仍面临场景文本检测和识别技术的挑战。

成为VIP会员查看完整内容
0
32

题目: Graph Summarization Methods and Applications: A Survey

摘要:

虽然计算资源的进步使处理大量数据成为可能,但人类识别这些数据模式的能力并没有相应提高。因此,压缩和简化数据的高效计算方法对于提取可操作的见解变得至关重要。特别是,虽然对数据摘要技术进行了广泛的研究,但直到最近才开始流行对相互关联的数据或图进行汇总。这项调查是一个结构化的,全面的概述了最先进的方法,以总结图形数据。我们首先讨论了图形摘要背后的动机和挑战。然后,我们根据作为输入的图形类型对摘要方法进行分类,并根据核心方法进一步组织每个类别。最后,我们讨论了总结在真实世界图上的应用,并通过描述该领域的一些开放问题进行了总结。

作者简介:

Yike Liu是密西根大学物理系五年级的博士生,也是计算机科学与工程系的一名硕士研究生。我是叶杰平教授的顾问。主要研究方向是深度学习和强化学习,尤其是在交通数据上的应用。在此之前,从事过基于图形的机器学习和数据挖掘,特别是图形总结和图形聚类,在这些工作中,开发了图形挖掘算法,帮助更好地理解底层的图形组织并理解它。

Tara Safavi是密西根大学博士研究生,研究重点是知识表示及其在以人为中心的任务中的使用、评估和解释,还对更广泛的AI+社会问题感兴趣,比如隐私、偏见和环境可持续性。研究目前得到了美国国家科学基金会(NSF)研究生奖学金和谷歌女性科技创造者奖学金的支持。

成为VIP会员查看完整内容
0
35

主题: Deep Learning for Document Analysis, Text Recognition, and Language Modeling

简介:

深度学习已经成为许多与OCR和文档分析相关的识别任务的主要方法。本教程将介绍深度学习在文档分析问题中的应用:

  • OCR和文本识别的模型,包括最近的发展
  • 用于布局分析和预处理的DL方法
  • 用于语言建模和OCR的DL模型的最新进展
  • 获取训练数据;半监督和无监督方法
  • 用于大规模加工的工具

本课程将提供大量基于PyTorch的示例,建议要对深度学习和Python有基本的了解。

嘉宾介绍:

Thomas Breuel致力于深度学习及其在NVIDIA研究中的应用。在此之前,他是谷歌大脑,IBM和施乐帕洛阿尔托研究中心的研究员。他是凯泽斯劳滕大学的计算机科学教授和图像理解与模式识别(IUPR)的负责人。他在文档分析、计算机视觉和机器学习等领域发表了大量论文,并为OCR、文档分析和机器学习等领域的多个开源项目提供了帮助。

成为VIP会员查看完整内容
0
18

论文题目: Graph Convolutional Networks with Motif-based Attention

论文摘要:

深度卷积神经网络在计算机视觉和语音识别领域的成功,使得研究人员开始研究该体系结构对图结构数据的泛化。最近提出的一种称为图卷积网络的方法能够在节点分类方面取得最新的成果。然而,由于所提出的方法依赖于spectral图卷积的局部一阶近似,因此无法捕获图中节点间的高阶相互作用。在这项工作中,我们提出了一个motif-based的图注意力模型,称为Motif Convolutional Networks,它通过使用加权多跳motif邻接矩阵来捕获高阶邻域,从而泛华了过去的方法。一个新的注意力机制被用来允许每个单独的节点选择最相关的邻居来应用它的过滤器。我们在不同领域(社会网络和生物信息学)的图上评估了我们的方法,结果表明它能够在半监督节点分类任务上胜过一组有竞争力的基准方法。其他结果证明了attention的有用性,表明不同的节点对不同的高阶邻域进行了优先排序。

论文作者:

John Boaz Lee于2015-1019年在伍斯特理工学院计算机科学系的攻读博士学位。研究领域包括深度学习、数据挖掘、信息与社会网络分析、强化学习等。2020年1月,将加入Facebook研究的核心数据科学团队作为研究科学家。

Ryan A. Rossi目前在Adobe Research工作。研究领域是机器学习,从社会和物理现象跨越理论、算法和大型复杂关系(网络/图)数据的应用。在普渡大学获得了计算机科学的博士和硕士学位。Ryan A. Rossi的论文主要研究关系机器学习和动态网络数据的挖掘,并且获得了国家科学基金研究生奖学金(NSF GRFP)、国防科学与工程研究生奖学金(NDSEG)、普渡大学弗雷德里克·n·安德鲁斯奖学金以及比尔斯兰博士学位论文奖学金。还是网络存储库项目的联合创始人,该项目是第一个具有交互式可视图形分析功能的数据存储库,可以帮助研究人员通过web实时查找、探索和理解图形数据。

孔祥南的研究兴趣集中在数据挖掘和机器学习上,重点在于解决生物医学和社会应用中的数据科学问题。孔博士对设计算法以解决各种研究领域中的数据多样性问题特别感兴趣,这些领域包括生物医学研究,社会计算,神经科学和商业智能。他一直致力于神经科学,生物医学信息学和社交网络领域的图形数据挖掘,并且在数据挖掘的顶级会议和期刊上发表了论文,包括KDD,ICDM,SDM,WWW,WSDM,CIKM,TKDE。

成为VIP会员查看完整内容
0
39

教程题目:Graph-Based Meaning Representations: Design and Processing

教程简介

近年来,人们对以标记有向图的形式对句子意义进行编码和处理产生了广泛的兴趣。举例说明这条研究路线的框架包括:抽象意义表示、基于图的最小递归语义表示、双向语义依赖图和通用概念认知注释。

作为对高级的基于向量的意义表征的补充,对这种层次结构和离散的语义表示的解析,从早期开始就是自然语言理解的基石,并将继续为理解自然语言做出重要贡献。本教程将

  • 简要回顾正式和语言语义的相关背景;
  • 半正式地定义语义图的不同风格和相关术语的统一抽象视图;
  • 调查基于图的意义表示的共同框架和现有的图库;
  • 提供不同解析方法的代表性选择的技术概述。

最终目标是提供不同语义图库和相关解析工作的统一视图,从而减少NLP开发人员和用户从这个令人兴奋的领域最近的成功和最佳实践中获益的障碍。

组织者:

Alexander Koller是一名计算语言学教授,哥伦比亚大学和爱丁堡大学的博士后。研究兴趣包括为自然语言现象提出简洁的数学模型和解决自然语言处理中有用问题的有效算法。特别是在计算语义、语法形式和自然语言生成(NLG)方面做了大量的研究。

Stephan Oepen在柏林、伏尔加格勒和萨尔布吕肯学习了语言学、德语和俄语语言学、计算机科学和计算语言学。2011年至2017年,他在奥斯陆大学(University of Oslo)领导语言技术部门。在此之前,他曾在DFKI和Saarland大学(均为德国)、YY技术公司(山景城)和斯坦福大学(均为美国)工作。他的研究围绕着语言学和计算机技术的结合,在那里他发表了大约90篇经过同行评审的研究论文和会议论文,并与其他人共同创建了全球网络和北欧语言处理实验室(NLPL)。Oepen已经指导完成了5个博士项目和12个理学硕士学位。他是计算语言学编辑委员会和欧洲计算语言学协会执行委员会的成员,同时也是ACL自然语言解析特别兴趣小组的秘书和计算语言学协会欧洲分会2017年会议和自然语言处理经验方法2018年会议的区域联席主席。在2017-18学年,Oepen在挪威科学与文学院高级研究中心联合指导一个国际研究小组。

孙薇薇,计算语言学家。目前在北京大学王选计算机研究所工作,也是北京大学中国语言学中心的兼职研究员。萨尔大学计算语言学系的博士研究生,导师是Hans Uszkoreit教授。研究集中于应用图对语法和语义分析进行编码,以及利用以图为中心的形式主义和算法来明确地表达语言理论。

成为VIP会员查看完整内容
abstract.pdf
Graph-Based Meaning.pdf
0
6

报告主题: Generative adversarial networks and adversarial methods in biomedical image analysis

报告摘要: 生成对抗网络(GANs)是深度生成模型的一个强大的子类,目前不仅受到计算机视觉和机器学习社区的广泛关注,而且还受到医学成像社区的广泛关注。GANs背后的关键思想是两个神经网络共同优化:一个网络试图合成与真实数据点相似的样本,而另一个网络评估结果与样本参考数据库的一致性。使用GANs进行样本合成可能用于解决大型和不同的带注释数据库的不足。此外,在对抗性博弈中优化的两个网络的概念被用来提供额外的损失项,以提高现有图像分析方法的性能。对抗性方法已成功地应用于典型的医学图像分析中,如去噪、重建、分割和检测。此外,对抗性训练在半监督学习和异常检测等领域也有新的应用。在本教程中,我们将在五个部分中提供关于GANs和医学图像分析中的对抗方法的基础和高级材料。我们将着重于机器学习和计算机视觉文献中最先进的核心论文,以及它们与医学影像分析作品的关系。为了使这些概念具体化,我们将提供一些医学成像应用的例子,这些应用都来自我们自己的工作和其他人的工作。

邀请嘉宾

Anirban Mukhopadhyay,达姆施塔特工业大学(德国)

Jelmer Wolterink,阿姆斯特丹大学医学中心(荷兰)

Konstantinos Kamnitsas,帝国理工学院(英国)

Jelmer Wolterink,阿姆斯特丹大学医学中心(荷兰)

成为VIP会员查看完整内容
Lecture_2.pdf
Lecture_1.pdf
Lecture_4.pdf
Lecture_3.pdf
0
26

报告嘉宾:刘成林(中国科学院自动化研究所) 报告时间:2019年10月16日(星期三)晚上20:30(北京时间) 报告题目:文档分析与识别技术回顾与反思

报告人简介: 刘成林,1989年本科毕业于武汉大学,1992年获北京工业大学工学硕士学位,1995年获中国科学院自动化研究所工学博士学位。1996年至1999年先后在韩国科学技术院(KAIST)和日本东京农工大学从事博士后研究工作。1999年至2004年在日立中央研究所先后任研究员和主任研究员。2005年1月回国,入选中国科学院“百人计划”(引进海外杰出人才计划)。现任中国科学院自动化研究所研究员、副所长,模式识别国家重点实验室主任,中国科学院大学人工智能学院副院长。研究方向为模式识别、图像处理、机器学习、文字识别与文档分析等。在国内外期刊和学术会议上发表论文300余篇,其中包括国际期刊(IEEE Trans. on PAMI, Pattern Recognition等)第一作者论文20篇。合著文字识别方面的英文专著一本。获得授权发明专利5项。由于其在手写文字识别研究方面的突出成就,2005年在国际模式识别协会主办的国际文档分析与识别会议上获得IAPR/ICDAR Young Investigator Award (青年学者奖)。2008年获得国家杰出青年科学基金。现任国际期刊Pattern Recognition的副主编, Image and Vision Computing, International Journal on Document Analysis and Recognition和Cognitive Computation的编委,国内期刊《自动化学报》副主编。中国人工智能学会会士、模式识别专委会主任,中国自动化学会理事、模式识别与机器智能专委会主任,中国图象图形学学会常务理事,美国电气电子工程师协会会士 (IEEE Fellow)、国际模式识别学会会士(IAPR Fellow)。

个人主页:

http://www.nlpr.ia.ac.cn/liucl

报告摘要: 自上世纪50年代以来,文字识别(广义地,称为文档分析)的研究和应用取得了巨大的进展。50-70年代以统计模式识别和特征匹配方法为主;80-90年代提出了很多结构分析方法,并且字符切分、字符串识别和版面分析受到重视;2000年以来继续在文档分析与识别的各个方面持续提高;2013年开始深度学习(深度神经网络)逐渐成为主导性的方法,使文字检测和识别的性能得到明显提升。随着识别精度不断提升和应用的展开,文字识别的可靠性、泛化性、可解释性要求开始凸显,在这些方面传统的模式识别和文字识别方法表现出一定的优势或互补性,与深度学习方法结合可开辟新的研究途径。本报告对文字识别领域历史上主要方法进行回顾,对当前主要方法的特点和一些最新研究动态进行分析,并对将来的研究提出一些建议。

参考文献:

[1] G. Nagy, G.L. Shelton, Self-corrective character recognition systems, IEEE Trans. Information Theory, 12(2): 215-222, 1966.

[2] H. Fujisawa, Forty years of research in character and document recognition—an industrial perspective, Pattern Recognition, 41(8): 2453-2446, 2008.

[3] Cheng-Lin Liu, In-Jung Kim, Jin H. Kim, Model-based stroke extraction and matching for handwritten Chinese character recognition, Pattern Recognition, 34(12): 2339-2352, 2001.

[4] Xu-Yao Zhang, Yoshua Bengio, Cheng-Lin Liu, New benchmark for online and offline handwritten Chinese character recognition with deep convolutional network and adaptation, Pattern Recognition, 61: 348-360, 2017.

[5] Yi-Chao Wu, Fei Yin, Cheng-Lin Liu, Improving handwritten Chinese text recognition using neural network language models and convolutional neural network shape models, Pattern Recognition, 65: 251-264, 2017.

[6] Fei Yin, Yi-Chao Wu, Xu-Yao Zhang, Cheng-Lin Liu, Scene Text Recognition with Sliding Convolutional Character Models, arXiv:1709.01727, 2017.

成为VIP会员查看完整内容
文档分析与识别技术回顾与反思.pdf
0
28

主题: Vision and Language: the text modality in computer vision

简介: 长期以来,文档图像分析一直致力于创建智能阅读系统,其重点仅在于理解以图像形式呈现的文本和图形信息。 另一方面,总体而言,计算机视觉显示出以各种方式利用多模式信息的日益增长的趋势。从一种模态转换为另一种模态或派生出模态之间的联合嵌入是两个关键范式。文本通常是感兴趣的形式之一,尽管很少是指图像形式的文本。 在本教程中,我们将从文档分析和计算机视觉的最新进展中汲取经验,以展示当前如何在最先进的研究中处理作为形式的文本。我们将回顾各种方法和应用,重点关注用于多模式嵌入和跨模式翻译的深度学习技术,这些技术为建模文本和视觉信息之间的相关性提供了非常强大的框架。 本教程将介绍的一些应用程序示例包括:

  • 词点检测,目的是为字符串的视觉(图像)和文本(转录)表示之间的相关性建模。

  • 动态词典生成, 其目的是通过利用场景的视觉信息,动态地提出在图像中极有可能出现的单词字典,以此作为促进后续场景文本识别的手段。 在一种模式(文本)作为另一种模式(图像)的监督信号的情况下,对视觉特征进行自我监督学习,提供了一种学习有用特征的机制,从而避免了昂贵的注释。

  • 图像的跨模式/多模式语义检索, 其目的是对视觉信息和从文本信息中导出的语义之间的相关性进行建模,以实现跨模式图像检索。

  • 图像字幕, 目标是从视觉域转换到文本域(自然语言)。我们将在本教程中讨论的现有方法的有趣变化是,如何将图像中或要描述的图像中的文本信息整合到字幕处理过程中。

嘉宾介绍: Dimosthenis Karatzas是巴塞罗那大学的副教授,西班牙巴塞罗那的计算机视觉中心(CVC)副主任。在CVC,他领导视觉和语言研究领域,在计算机视觉和文本分析的交汇处工作。他与他人合着了100多种参考期刊和会议出版物,H指数为23。他曾获得2013年度IAPR / ICDAR青年研究奖和2017年Google院系研究奖。D. Karatzas在其领域的主要会议(ICDAR,DAS,CBDAR,ICPR,ICFHR)中担任过各种职务,包括-主持IWRR 2014/16/18和CBDAR 2015/17。D. Karatzas是“健壮的阅读比赛”系列的主要组织者。他是国际阅读系统技术委员会的主席。模式识别协会。D. Karatzas是SPIE英国分会的创始成员和执行委员会成员,而他目前是IAPR教育委员会的成员和IEEE IAPR的成员。他是图书馆生活实验室(Library Living Lab)的创始人之一,该实验室是公共图书馆中的开放式参与式创新空间。

成为VIP会员查看完整内容
0
23
小贴士
相关VIP内容
相关资讯
图像/视频去噪算法资源集锦
专知
11+阅读 · 2019年12月14日
VALSE Webinar 19-24期 去雨去雾专题
VALSE
17+阅读 · 2019年9月12日
VALSE Webinar 19-16期 云深可知处:视觉SLAM
VALSE
12+阅读 · 2019年7月4日
针对计算机视觉一些问题的分析
AI研习社
6+阅读 · 2018年8月20日
【AIDL专栏】鲁继文:面向视觉内容理解的深度度量学习
人工智能前沿讲习班
31+阅读 · 2018年5月22日
【报告分享】刘成林:文档分析及模式识别系统学习领域研究进展与热点
相关论文
Zobeir Raisi,Mohamed A. Naiel,Paul Fieguth,Steven Wardell,John Zelek
14+阅读 · 2020年6月8日
Multi-Modal Graph Neural Network for Joint Reasoning on Vision and Scene Text
Difei Gao,Ke Li,Ruiping Wang,Shiguang Shan,Xilin Chen
10+阅读 · 2020年3月31日
Commonsense Knowledge Base Completion with Structural and Semantic Context
Chaitanya Malaviya,Chandra Bhagavatula,Antoine Bosselut,Yejin Choi
16+阅读 · 2019年12月19日
Scene Text Detection and Recognition: The Deep Learning Era
Shangbang Long,Xin He,Cong Yao
16+阅读 · 2019年9月5日
Bryan Wilder,Eric Ewing,Bistra Dilkina,Milind Tambe
6+阅读 · 2019年5月31日
FocusNet: An attention-based Fully Convolutional Network for Medical Image Segmentation
Chaitanya Kaul,Suresh Manandhar,Nick Pears
4+阅读 · 2019年2月8日
Scene Coordinate and Correspondence Learning for Image-Based Localization
Mai Bui,Shadi Albarqouni,Slobodan Ilic,Nassir Navab
5+阅读 · 2018年7月23日
Xiaolong Wang,Yufei Ye,Abhinav Gupta
18+阅读 · 2018年4月8日
Zheng Zhang,Qin Zou,Qian Wang,Yuewei Lin,Qingquan Li
5+阅读 · 2018年3月19日
Top