新视角：用图像分类来建模文字识别也可以SOTA！ - 专知

会员服务 ·

0

新视角：用图像分类来建模文字识别也可以SOTA！

2021 年 2 月 23 日 极市平台

↑ 点击蓝字关注极市平台

作者丨mileistone@知乎（已授权）

来源丨https://zhuanlan.zhihu.com/p/352348349?

编辑丨极市平台

极市导读

本文介绍了一个文字识别的新工作：CSTR，通过文字识别任务建模为图像分类，且不需要字符级别的标注。该模型像其他图像分类模型一样容易实现，因为是纯卷积所以训练、推理非常高效。 >>加入极市CV技术交流群，走在计算机视觉的最前沿

我们最近做了一个文字识别的工作：CSTR: A Classification Perspective on Scene Text Recognition（https://arxiv.org/abs/2102.10884），简单介绍如下。

当前文字识别有两种建模视角：seq2seq-based和segmentation-based。

seq2seq-based的方法首先将图片encode为特征序列（比如CNN、RNN、Transformer encoder或者它们的组合），然后对特征序列进行decode（比如CTC、RNN、attention based RNN、Transformer decoder等）。

segmentation-based的方法首先定位出字符的位置，然后识别出各个位置的字符，最后将字符组合成字符串。

过去达到SOTA的文字识别方法大部分是seq2seq-based，但是seq2seq-based的方法pipeline复杂（大部分还需要STN模块来对图像进行矫正）。

segmentation-based的方法简洁很多，但是需要字符级别的标注，字符级别的标注成本高昂，在实际生产环境中不太可能使用这样精细的标注方式。

我们提出了一种图像分类的建模视角：classification-based。即将文字识别任务建模为图像分类，整体pipeline比segmentation-based的方法更简单，而且不需要字符级别的标注。classification-based的模型像其他图像分类模型一样容易实现，因为是纯卷积所以训练、推理非常高效。

CSTR模型结构，ϕ为end token

我们的classification-based模型即CSTR，在六个常用的公开数据集上的效果如下表所示。我们的模型没有STN模块，仅仅只有一个图像分类器，训练数据集为常用的两个合成的数据集SynthText (ST)和MJSynth (MJ)，仅使用单词级别的标注，测试的时候没用任何TTA，整体效果基本达到SOTA。

CSTR与业界经典模型指标比较

代码将在我们的文字识别工具箱vedastr（https://github.com/Media-Smart/vedastr）中开源。

CSTR: A Classification Perspective on Scene Text Recognitionarxiv.org

https://arxiv.org/abs/2102.10884

Media-Smart/vedastr

https://github.com/Media-Smart/vedastr

推荐阅读

大年三十问候导师的后果...

2021-02-12

化繁为简，一张图看懂梯度、散度、旋度、Jacobian、Hessian和Laplacian

2021-02-15

擦除：提升 CNN 特征可视化的 3 种重要手段

2021-02-16

# CV技术社群邀请函 #

△长按添加极市小助手

添加极市小助手微信（ID : cvmart2）

备注：姓名-学校/公司-研究方向-城市（如：小极-北大-目标检测-深圳）

即可申请加入极市目标检测/图像分割/工业检测/人脸/医学影像/3D/SLAM/自动驾驶/超分辨率/姿态估计/ReID/GAN/图像增强/OCR/视频理解等技术交流群

每月大咖直播分享、真实项目需求对接、求职内推、算法竞赛、干货资讯汇总、与 10000+来自港科大、北大、清华、中科院、CMU、腾讯、百度等名校名企视觉开发者互动交流~

△点击卡片关注极市平台，获取最新CV干货

觉得有用麻烦给个在看啦~

登录查看更多

0

相关内容

文字识别

利用计算机自动识别字符的技术，是模式识别应用的一个重要领域。人们在生产和生活中，要处理大量的文字、报表和文本。为了减轻人们的劳动，提高处理效率，50年代开始探讨一般文字识别方法，并研制出光学字符识别器。60年代出现了采用磁性墨水和特殊字体的实用机器。60年代后期，出现了多种字体和手写体文字识别机，其识别精度和机器性能都基本上能满足要求。如用于信函分拣的手写体数字识别机和印刷体英文数字识别机。70年代主要研究文字识别的基本理论和研制高性能的文字识别机，并着重于汉字识别的研究。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等

【CVPR2021】基于Transformer的视频分割领域

【CVPR2021】基于Transformer的视频分割领域

专知会员服务

38+阅读 · 2021年4月16日

[CVPR 2021] 序列到序列对比学习的文本识别

[CVPR 2021] 序列到序列对比学习的文本识别

专知会员服务

29+阅读 · 2021年4月14日

【CVPR2021】基于Transformers 从序列到序列的角度重新思考语义分割

【CVPR2021】基于Transformers 从序列到序列的角度重新思考语义分割

专知会员服务

44+阅读 · 2021年3月15日

【ICLR2021】IEPT:用于少样本学习的实例级和片段级代理任务

【ICLR2021】IEPT:用于少样本学习的实例级和片段级代理任务

专知会员服务

15+阅读 · 2021年2月15日

【WSDM2021】弱监督下的分层元数据感知文档分类

【WSDM2021】弱监督下的分层元数据感知文档分类

专知会员服务

11+阅读 · 2020年11月16日

字节跳动李航提出AMBERT！超越BERT！多粒度token预训练语言模型

字节跳动李航提出AMBERT！超越BERT！多粒度token预训练语言模型

专知会员服务

41+阅读 · 2020年8月31日

【ICML2020】统一预训练伪掩码语言模型

【ICML2020】统一预训练伪掩码语言模型

专知会员服务

27+阅读 · 2020年7月23日

新杀器来了！Facebook AI提出DETR：用Transformers来进行端到端的目标检测

新杀器来了！Facebook AI提出DETR：用Transformers来进行端到端的目标检测

专知会员服务

51+阅读 · 2020年5月28日

【CVPR2020-中科院计算所】多模态GNN：在视觉信息和场景文字上联合推理

【CVPR2020-中科院计算所】多模态GNN：在视觉信息和场景文字上联合推理

专知会员服务

61+阅读 · 2020年4月7日

【CVPR2020-哈工大-京东】自监督结构建模的目标识别，Self-supervised Structure Modeling

【CVPR2020-哈工大-京东】自监督结构建模的目标识别，Self-supervised Structure Modeling

专知会员服务

43+阅读 · 2020年4月1日

【CVPR2020-中科院计算所】多模态GNN：在视觉信息和场景文字上联合推理

【CVPR2020-中科院计算所】多模态GNN：在视觉信息和场景文字上联合推理

专知

7+阅读 · 2020年4月7日

ICCV2019 | 百度&港大提出CSVT：大规模弱标注中文场景文本数据集及一种新的弱监督端到端文本识别新方法

ICCV2019 | 百度&港大提出CSVT：大规模弱标注中文场景文本数据集及一种新的弱监督端到端文本识别新方法

CVer

9+阅读 · 2019年11月23日

多项NLP任务新SOTA，Facebook提出预训练模型BART

多项NLP任务新SOTA，Facebook提出预训练模型BART

机器之心

22+阅读 · 2019年11月4日

ICCV 2019 | 旷视研究院提出新型矫正网络ScRN，优化场景文字识别性能

ICCV 2019 | 旷视研究院提出新型矫正网络ScRN，优化场景文字识别性能

极市平台

5+阅读 · 2019年8月28日

双重注意力网络：中科院自动化所提出新的自然场景图像分割框架（附源码）

双重注意力网络：中科院自动化所提出新的自然场景图像分割框架（附源码）

极市平台

7+阅读 · 2018年9月19日

用这种方法实现无监督端到端图像分类！（附论文）

用这种方法实现无监督端到端图像分类！（附论文）

数据派THU

8+阅读 · 2018年8月10日

OpenAI：无监督训练加微小调整，只用一个模型即可解决多种NLP任务

OpenAI：无监督训练加微小调整，只用一个模型即可解决多种NLP任务

论智

9+阅读 · 2018年6月12日

深度序列学习助力文字识别

深度序列学习助力文字识别

机器学习研究会

7+阅读 · 2017年12月7日

微信OCR（2）--深度序列学习助力文字识别

微信OCR（2）--深度序列学习助力文字识别

微信AI

9+阅读 · 2017年12月7日

深度学习CTPN+CRNN模型实现图片内文字的定位与识别(OCR)

深度学习CTPN+CRNN模型实现图片内文字的定位与识别(OCR)

数据挖掘入门与实战

16+阅读 · 2017年11月25日

MDETR -- Modulated Detection for End-to-End Multi-Modal Understanding

Arxiv

6+阅读 · 2021年4月26日

Experimental Design for Overparameterized Learning with Application to Single Shot Deep Active Learning

Arxiv

0+阅读 · 2021年4月25日

Visual Saliency Transformer

Arxiv

0+阅读 · 2021年4月25日

Token Labeling: Training a 85.4% Top-1 Accuracy Vision Transformer with 56M Parameters on ImageNet

Token Labeling: Training a 85.4% Top-1 Accuracy Vision Transformer with 56M Parameters on ImageNet

Arxiv

0+阅读 · 2021年4月23日

Token Labeling: Training a 85.5% Top-1 Accuracy Vision Transformer with 56M Parameters on ImageNet

Arxiv

0+阅读 · 2021年4月22日

Contrastive Triple Extraction with Generative Transformer

Arxiv

13+阅读 · 2021年2月4日

Classification by Attention: Scene Graph Classification with Prior Knowledge

Arxiv

8+阅读 · 2020年11月19日

Span-based Joint Entity and Relation Extraction with Transformer Pre-training

Arxiv

7+阅读 · 2019年9月17日

Visual Question Answering as Reading Comprehension

Arxiv

3+阅读 · 2018年11月29日

CNN-RNN: A Unified Framework for Multi-label Image Classification

Arxiv

7+阅读 · 2016年4月15日

VIP会员

相关主题

相关VIP内容

【CVPR2021】基于Transformer的视频分割领域

【CVPR2021】基于Transformer的视频分割领域

专知会员服务

38+阅读 · 2021年4月16日

[CVPR 2021] 序列到序列对比学习的文本识别

[CVPR 2021] 序列到序列对比学习的文本识别

专知会员服务

29+阅读 · 2021年4月14日

【CVPR2021】基于Transformers 从序列到序列的角度重新思考语义分割

【CVPR2021】基于Transformers 从序列到序列的角度重新思考语义分割

专知会员服务

44+阅读 · 2021年3月15日

【ICLR2021】IEPT:用于少样本学习的实例级和片段级代理任务

【ICLR2021】IEPT:用于少样本学习的实例级和片段级代理任务

专知会员服务

15+阅读 · 2021年2月15日

【WSDM2021】弱监督下的分层元数据感知文档分类

【WSDM2021】弱监督下的分层元数据感知文档分类

专知会员服务

11+阅读 · 2020年11月16日

字节跳动李航提出AMBERT！超越BERT！多粒度token预训练语言模型

字节跳动李航提出AMBERT！超越BERT！多粒度token预训练语言模型

专知会员服务

41+阅读 · 2020年8月31日

【ICML2020】统一预训练伪掩码语言模型

【ICML2020】统一预训练伪掩码语言模型

专知会员服务

27+阅读 · 2020年7月23日

新杀器来了！Facebook AI提出DETR：用Transformers来进行端到端的目标检测

新杀器来了！Facebook AI提出DETR：用Transformers来进行端到端的目标检测

专知会员服务

51+阅读 · 2020年5月28日

【CVPR2020-中科院计算所】多模态GNN：在视觉信息和场景文字上联合推理

【CVPR2020-中科院计算所】多模态GNN：在视觉信息和场景文字上联合推理

专知会员服务

61+阅读 · 2020年4月7日

【CVPR2020-哈工大-京东】自监督结构建模的目标识别，Self-supervised Structure Modeling

【CVPR2020-哈工大-京东】自监督结构建模的目标识别，Self-supervised Structure Modeling

专知会员服务

43+阅读 · 2020年4月1日

热门VIP内容

开通专知VIP会员享更多权益服务

《乌克兰无人机产业：志愿者与政策在构建新兴无人机产业中的协同作用》最新报告

《人工智能辅助决策中的数据可视化：系统性综述》

人工智能驱动弹药制造现代化：美国陆军转型之路

《敏捷作战部署中枢纽-辐条基地选址优化研究》80页

相关资讯

【CVPR2020-中科院计算所】多模态GNN：在视觉信息和场景文字上联合推理

【CVPR2020-中科院计算所】多模态GNN：在视觉信息和场景文字上联合推理

专知

7+阅读 · 2020年4月7日

ICCV2019 | 百度&港大提出CSVT：大规模弱标注中文场景文本数据集及一种新的弱监督端到端文本识别新方法

ICCV2019 | 百度&港大提出CSVT：大规模弱标注中文场景文本数据集及一种新的弱监督端到端文本识别新方法

CVer

9+阅读 · 2019年11月23日

多项NLP任务新SOTA，Facebook提出预训练模型BART

多项NLP任务新SOTA，Facebook提出预训练模型BART

机器之心

22+阅读 · 2019年11月4日

ICCV 2019 | 旷视研究院提出新型矫正网络ScRN，优化场景文字识别性能

ICCV 2019 | 旷视研究院提出新型矫正网络ScRN，优化场景文字识别性能

极市平台

5+阅读 · 2019年8月28日

双重注意力网络：中科院自动化所提出新的自然场景图像分割框架（附源码）

双重注意力网络：中科院自动化所提出新的自然场景图像分割框架（附源码）

极市平台

7+阅读 · 2018年9月19日

用这种方法实现无监督端到端图像分类！（附论文）

用这种方法实现无监督端到端图像分类！（附论文）

数据派THU

8+阅读 · 2018年8月10日

OpenAI：无监督训练加微小调整，只用一个模型即可解决多种NLP任务

OpenAI：无监督训练加微小调整，只用一个模型即可解决多种NLP任务

论智

9+阅读 · 2018年6月12日

深度序列学习助力文字识别

深度序列学习助力文字识别

机器学习研究会

7+阅读 · 2017年12月7日

微信OCR（2）--深度序列学习助力文字识别

微信OCR（2）--深度序列学习助力文字识别

微信AI

9+阅读 · 2017年12月7日

深度学习CTPN+CRNN模型实现图片内文字的定位与识别(OCR)

深度学习CTPN+CRNN模型实现图片内文字的定位与识别(OCR)

数据挖掘入门与实战

16+阅读 · 2017年11月25日

相关论文

MDETR -- Modulated Detection for End-to-End Multi-Modal Understanding

Arxiv

6+阅读 · 2021年4月26日

Experimental Design for Overparameterized Learning with Application to Single Shot Deep Active Learning

Arxiv

0+阅读 · 2021年4月25日

Visual Saliency Transformer

Arxiv

0+阅读 · 2021年4月25日

Token Labeling: Training a 85.4% Top-1 Accuracy Vision Transformer with 56M Parameters on ImageNet

Token Labeling: Training a 85.4% Top-1 Accuracy Vision Transformer with 56M Parameters on ImageNet

Arxiv

0+阅读 · 2021年4月23日

Token Labeling: Training a 85.5% Top-1 Accuracy Vision Transformer with 56M Parameters on ImageNet

Arxiv

0+阅读 · 2021年4月22日

Contrastive Triple Extraction with Generative Transformer

Arxiv

13+阅读 · 2021年2月4日

Classification by Attention: Scene Graph Classification with Prior Knowledge

Arxiv

8+阅读 · 2020年11月19日

Span-based Joint Entity and Relation Extraction with Transformer Pre-training

Arxiv

7+阅读 · 2019年9月17日

Visual Question Answering as Reading Comprehension

Arxiv

3+阅读 · 2018年11月29日

CNN-RNN: A Unified Framework for Multi-label Image Classification

Arxiv

7+阅读 · 2016年4月15日

大家都在搜

CMU博士论文

无人机集群

久别重逢话双塔

国防科技创新

论文浅尝 - ICLR2020 | 通过神经逻辑归纳学习有效地解释

微信扫码咨询专知VIP会员