Recognizing text from natural images is still a hot research topic in computer vision due to its various applications. Despite the enduring research of several decades on optical character recognition (OCR), recognizing texts from natural images is still a challenging task. This is because scene texts are often in irregular arrangements (curved, arbitrarily-oriented or seriously distorted), which have not yet been well addressed in the literature. Existing methods on text recognition mainly work with regular (horizontal and frontal) texts and cannot be trivially generalized to handle irregular texts. In this paper, we develop the arbitrary orientation network (AON) to capture the deep features of irregular texts (e.g. arbitrarily-oriented, perspective or curved), which are combined into an attention-based decoder to generate character sequence. The whole network can be trained end-to-end by using only images and word-level labels. Extensive experiments on various benchmarks, including the CUTE80, SVT-Perspective, IIIT5k, SVT and ICDAR datasets, show that the proposed AON-based method substantially outperforms the existing methods.


翻译:尽管数十年来对光学字符识别(OCR)进行了长期研究,但承认自然图像的文本仍是一项艰巨的任务,这是因为现场文本往往处于非常规安排(弯曲、任意取向或严重扭曲)中,文献中尚未充分述及这些安排。现有的文本识别方法主要是与常规(横向和正面)文本合作,不能被轻描淡写地笼统地用于处理非常规文本。在本文件中,我们开发了任意定向网络(AON),以捕捉非常规文本的深度特征(如任意定向、视角或曲线),这些文本被合并成基于关注的解码器以生成字符序列。整个网络可以通过仅使用图像和字级标签进行终端到终端培训。对各种基准进行广泛的实验,包括CUTE80、SVT-Persperpect、IIIT5k、SVT和ICDAR数据集,表明拟议的AON方法大大超出现有方法。

3
下载
关闭预览

相关内容

iOS 8 提供的应用间和应用跟系统的功能交互特性。
  • Today (iOS and OS X): widgets for the Today view of Notification Center
  • Share (iOS and OS X): post content to web services or share content with others
  • Actions (iOS and OS X): app extensions to view or manipulate inside another app
  • Photo Editing (iOS): edit a photo or video in Apple's Photos app with extensions from a third-party apps
  • Finder Sync (OS X): remote file storage in the Finder with support for Finder content annotation
  • Storage Provider (iOS): an interface between files inside an app and other apps on a user's device
  • Custom Keyboard (iOS): system-wide alternative keyboards

Source: iOS 8 Extensions: Apple’s Plan for a Powerful App Ecosystem
Keras François Chollet 《Deep Learning with Python 》, 386页pdf
专知会员服务
143+阅读 · 2019年10月12日
强化学习最新教程,17页pdf
专知会员服务
167+阅读 · 2019年10月11日
[综述]深度学习下的场景文本检测与识别
专知会员服务
77+阅读 · 2019年10月10日
机器学习入门的经验与建议
专知会员服务
90+阅读 · 2019年10月10日
Hierarchically Structured Meta-learning
CreateAMind
23+阅读 · 2019年5月22日
Call for Participation: Shared Tasks in NLPCC 2019
中国计算机学会
5+阅读 · 2019年3月22日
行为识别(action recognition)目前的难点在哪?
极市平台
36+阅读 · 2019年2月14日
Unsupervised Learning via Meta-Learning
CreateAMind
41+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
美国化学会 (ACS) 北京代表处招聘
知社学术圈
11+阅读 · 2018年9月4日
人工智能 | 国际会议截稿信息9条
Call4Papers
4+阅读 · 2018年3月13日
上百份文字的检测与识别资源,包含数据集、code和paper
数据挖掘入门与实战
17+阅读 · 2017年12月7日
人工智能 | 国际会议截稿信息5条
Call4Papers
6+阅读 · 2017年11月22日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Arxiv
20+阅读 · 2020年6月8日
Learning to Weight for Text Classification
Arxiv
8+阅读 · 2019年3月28日
Dynamic Transfer Learning for Named Entity Recognition
Arxiv
3+阅读 · 2018年12月13日
VIP会员
相关资讯
Hierarchically Structured Meta-learning
CreateAMind
23+阅读 · 2019年5月22日
Call for Participation: Shared Tasks in NLPCC 2019
中国计算机学会
5+阅读 · 2019年3月22日
行为识别(action recognition)目前的难点在哪?
极市平台
36+阅读 · 2019年2月14日
Unsupervised Learning via Meta-Learning
CreateAMind
41+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
美国化学会 (ACS) 北京代表处招聘
知社学术圈
11+阅读 · 2018年9月4日
人工智能 | 国际会议截稿信息9条
Call4Papers
4+阅读 · 2018年3月13日
上百份文字的检测与识别资源,包含数据集、code和paper
数据挖掘入门与实战
17+阅读 · 2017年12月7日
人工智能 | 国际会议截稿信息5条
Call4Papers
6+阅读 · 2017年11月22日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Top
微信扫码咨询专知VIP会员