In the deployment of scene-text spotting systems on mobile platforms, lightweight models with low computation are preferable. In concept, end-to-end (E2E) text spotting is suitable for such purposes because it performs text detection and recognition in a single model. However, current state-of-the-art E2E methods rely on heavy feature extractors, recurrent sequence modellings, and complex shape aligners to pursue accuracy, which means their computations are still heavy. We explore the opposite direction: How far can we go without bells and whistles in E2E text spotting? To this end, we propose a text-spotting method that consists of simple convolutions and a few post-processes, named Context-Free TextSpotter. Experiments using standard benchmarks show that Context-Free TextSpotter achieves real-time text spotting on a GPU with only three million parameters, which is the smallest and fastest among existing deep text spotters, with an acceptable transcription quality degradation compared to heavier ones. Further, we demonstrate that our text spotter can run on a smartphone with affordable latency, which is valuable for building stand-alone OCR applications.


翻译:在移动平台上部署现场文字识别系统时,使用低计算法的轻量模型比较可取。在概念上,端到端的文本识别方法适合用于这种目的,因为它在单一的模型中进行文本检测和识别。然而,目前最先进的E2E方法依赖于重特性提取器、经常性序列模型和复杂的形状匹配器,以追求准确性,这意味着其计算仍然十分繁重。我们探索相反的方向:在E2E文本识别中,我们能有多远地不响铃声和哨声?为此,我们建议一种文本定位方法,包括简单的组合和几个后处理器,称为 " 环境自由文本布景 " 。使用标准基准的实验显示, " 环境自由文本布景器 " 能够在GPU上实时定位文本,只有300万个参数,这是现有深层文本识别器中最小和最快的,与较重的图像质量退化是可以接受的。此外,我们证明,我们的文本定位器可以运行智能的手机,具有可承受的胶着。

0
下载
关闭预览

相关内容

Linux导论,Introduction to Linux,96页ppt
专知会员服务
76+阅读 · 2020年7月26日
专知会员服务
59+阅读 · 2020年3月19日
Stabilizing Transformers for Reinforcement Learning
专知会员服务
57+阅读 · 2019年10月17日
《DeepGCNs: Making GCNs Go as Deep as CNNs》
专知会员服务
30+阅读 · 2019年10月17日
[综述]深度学习下的场景文本检测与识别
专知会员服务
77+阅读 · 2019年10月10日
分布式并行架构Ray介绍
CreateAMind
9+阅读 · 2019年8月9日
计算机类 | PLDI 2020等国际会议信息6条
Call4Papers
3+阅读 · 2019年7月8日
Unsupervised Learning via Meta-Learning
CreateAMind
41+阅读 · 2019年1月3日
华科白翔老师团队ECCV2018 OCR论文:Mask TextSpotter
极市平台
3+阅读 · 2018年7月31日
IEEE2018|An Accurate and Real-time 3D Tracking System for Robots
(TensorFlow)实时语义分割比较研究
机器学习研究会
9+阅读 · 2018年3月12日
ResNet, AlexNet, VGG, Inception:各种卷积网络架构的理解
全球人工智能
19+阅读 · 2017年12月17日
【推荐】ResNet, AlexNet, VGG, Inception:各种卷积网络架构的理解
机器学习研究会
20+阅读 · 2017年12月17日
【推荐】YOLO实时目标检测(6fps)
机器学习研究会
20+阅读 · 2017年11月5日
Arxiv
20+阅读 · 2020年6月8日
VIP会员
相关资讯
分布式并行架构Ray介绍
CreateAMind
9+阅读 · 2019年8月9日
计算机类 | PLDI 2020等国际会议信息6条
Call4Papers
3+阅读 · 2019年7月8日
Unsupervised Learning via Meta-Learning
CreateAMind
41+阅读 · 2019年1月3日
华科白翔老师团队ECCV2018 OCR论文:Mask TextSpotter
极市平台
3+阅读 · 2018年7月31日
IEEE2018|An Accurate and Real-time 3D Tracking System for Robots
(TensorFlow)实时语义分割比较研究
机器学习研究会
9+阅读 · 2018年3月12日
ResNet, AlexNet, VGG, Inception:各种卷积网络架构的理解
全球人工智能
19+阅读 · 2017年12月17日
【推荐】ResNet, AlexNet, VGG, Inception:各种卷积网络架构的理解
机器学习研究会
20+阅读 · 2017年12月17日
【推荐】YOLO实时目标检测(6fps)
机器学习研究会
20+阅读 · 2017年11月5日
Top
微信扫码咨询专知VIP会员