3.9MB超小超强文本识别模型,支持20000个字符的识别,平安产险提出Hamming OCR

2020 年 9 月 27 日 极市平台
↑ 点击 蓝字  关注极市平台

作者|平安产险视觉计算组
编辑丨极市平台    
本文为极市开发者投稿,转载请获授权。

极市导读

 

最近,Hamming OCR提出了Hamming Embedding和LSH局部敏感哈希分类算法。它能在保留模型能力的同时,大幅度削减场景文本识别中所需模型的大小。>>加入极市CV技术交流群,走在计算机视觉的最前沿

 

Hamming OCR 是一个基于Transformer注意力的超轻量级文本识别模型,主要基于LSH局部敏感哈希编码和Max-Margin Loss的学习算法。


Hamming OCR: A Locality Sensitive Hashing Neural Networkfor SceneText Recognition

 

背景


场景文本识别中很多模型都使用了笨重的模型,这些模型很难在移动端设备上部署。这也是最近大火的Paddle OCR使用CRNN实现其超轻量级识别模型的原因。PaddleOCR采用的策略就是暴力削减特征通道来减小模型,但是这样使得性能大幅度下降。最近在arXiv上公开的Hamming OCR提出了Hamming Embedding和LSH局部敏感哈希分类的算法,大幅度削减模型大小,同时保留模型能力。

 

简介


我们首先看FC+softmax分类层:



其中分类矩阵W占了将近20MB,这是因为onehot编码方式维度过大,字符字数多的原因。

对应的Hamming OCR中的LSH局部敏感哈希分类实现如下:


Hamming OCR使用LSH编码替代了onehot编码,把分类矩阵W的大小降低到0.5MB。初始阶段,HammingOCR使用LSH和voting生成每个字符的LSH编码。然后基于生成的LSH code采用Max-Margin算法优化。
 
在推理阶段,Hamming OCR二值化logit,然后跟所有字符的LSH编码计算汉明距离,距离最近字符的即为预测结果。
 
LSH编码很好地保留了字符之间的相似度,如下图:
 

 
很多识别模型使用Output Embedding来表达每个字符,Embedding层占了20MB。因为LSH编码的良好特性,Hamming OCR直接使用LSH编码作为字母的表达,也就是Hamming Embedding,减少20MB并且不损失精度。
 
Hamming OCR还加入了跨层共享Transformer权重、去除Feed-ForwardNetwork和FP16,最终模型只有3.9MB。模型结构如下图:

 
Hamming OCR模型的能力很强,如下图所示,最终模型不但比PaddleOCR小,精度还要更高。
 

 
模型各阶段优化之后的参数量如下图,
 

 

结论


1. Hamming OCR模型小
2. 模型能力很强
3. 支持的字符数量超大
4. 便于移动端部署
 
论文链接: https://arxiv.org/pdf/2009.10874.pdf

作者团队

产险视觉计算组(VC组)专注解决金融保险领域的计算机视觉应用问题,在ICDAR 2019票据识别及关键信息3个任务中,团队分别斩获第二,第三,第一名。同时,在Kaggle举办的百度/北大无人驾驶比赛中,获得亚军。团队积极创新,已有多项自研OCR 、关键性信息抽取技术。
 

参考文献

1. Lu, N.; Yu,W.; Qi, X.; Chen, Y.; Gong, P.; and Xiao, R. 2019. Master: Multi-aspectnon-local network for scene text recognition. arXiv preprint arXiv:1910.02562.

2. Li, H.;Wang, P.; Shen, C.; and Zhang, G. 2019. Show, attend and read: A simple andstrong baseline for irregular text recognition. In Proceedings of the AAAIConference on Artificial Intelligence, volume 33, 8610–8617.

3. Shi, B.;Bai, X.; and Yao, C. 2016. An end-to-end trainable neural network forimage-based sequence recognition and its application to scene text recognition.IEEE transactions on pattern analysis and machine intelligence 39(11):2298–2304.

4. Lan, Z.;Chen, M.; Goodman, S.; Gimpel, K.; Sharma, P.; and Soricut, R. 2019. Albert: Alite bert for selfsupervised learning of language representations. arXiv preprintarXiv:1909.11942 .


推荐阅读



添加极市小助手微信(ID : cvmart2),备注:姓名-学校/公司-研究方向-城市(如:小极-北大-目标检测-深圳),即可申请加入极市目标检测/图像分割/工业检测/人脸/医学影像/3D/SLAM/自动驾驶/超分辨率/姿态估计/ReID/GAN/图像增强/OCR/视频理解等技术交流群:每月大咖直播分享、真实项目需求对接、求职内推、算法竞赛、干货资讯汇总、与 10000+来自港科大、北大、清华、中科院、CMU、腾讯、百度等名校名企视觉开发者互动交流~

△长按添加极市小助手

△长按关注极市平台,获取 最新CV干货

觉得有用麻烦给个在看啦~   
登录查看更多
0

相关内容

[NeurIPS 2020] 球形嵌入的深度度量学习
专知会员服务
16+阅读 · 2020年11月8日
专知会员服务
12+阅读 · 2020年9月19日
【ECCV2020】OCRNet化解语义分割上下文信息缺失难题
专知会员服务
16+阅读 · 2020年8月24日
【CVPR2020】跨模态哈希的无监督知识蒸馏
专知会员服务
59+阅读 · 2020年6月25日
高效医疗图像分析的统一表示
专知会员服务
33+阅读 · 2020年6月23日
【Amazon】使用预先训练的Transformer模型进行数据增强
专知会员服务
56+阅读 · 2020年3月6日
[综述]深度学习下的场景文本检测与识别
专知会员服务
77+阅读 · 2019年10月10日
实测超轻量中文OCR开源项目,总模型仅17M
机器之心
3+阅读 · 2020年3月7日
【OCR技术】大批量生成文字训练集
七月在线实验室
9+阅读 · 2019年3月11日
文本识别 OCR 浅析:特征篇
开源中国
16+阅读 · 2018年1月6日
OCR技术浅析
机器学习研究会
40+阅读 · 2017年12月8日
深度序列学习助力文字识别
机器学习研究会
7+阅读 · 2017年12月7日
微信OCR(2)--深度序列学习助力文字识别
微信AI
9+阅读 · 2017年12月7日
深度学习CTPN+CRNN模型实现图片内文字的定位与识别(OCR)
数据挖掘入门与实战
16+阅读 · 2017年11月25日
微信OCR(1)——公众号图文识别中的文本检测
微信AI
17+阅读 · 2017年11月22日
Arxiv
0+阅读 · 2020年11月26日
Arxiv
0+阅读 · 2020年11月26日
Arxiv
3+阅读 · 2020年2月5日
Arxiv
4+阅读 · 2019年1月14日
Arxiv
6+阅读 · 2018年7月29日
VIP会员
相关VIP内容
[NeurIPS 2020] 球形嵌入的深度度量学习
专知会员服务
16+阅读 · 2020年11月8日
专知会员服务
12+阅读 · 2020年9月19日
【ECCV2020】OCRNet化解语义分割上下文信息缺失难题
专知会员服务
16+阅读 · 2020年8月24日
【CVPR2020】跨模态哈希的无监督知识蒸馏
专知会员服务
59+阅读 · 2020年6月25日
高效医疗图像分析的统一表示
专知会员服务
33+阅读 · 2020年6月23日
【Amazon】使用预先训练的Transformer模型进行数据增强
专知会员服务
56+阅读 · 2020年3月6日
[综述]深度学习下的场景文本检测与识别
专知会员服务
77+阅读 · 2019年10月10日
相关资讯
实测超轻量中文OCR开源项目,总模型仅17M
机器之心
3+阅读 · 2020年3月7日
【OCR技术】大批量生成文字训练集
七月在线实验室
9+阅读 · 2019年3月11日
文本识别 OCR 浅析:特征篇
开源中国
16+阅读 · 2018年1月6日
OCR技术浅析
机器学习研究会
40+阅读 · 2017年12月8日
深度序列学习助力文字识别
机器学习研究会
7+阅读 · 2017年12月7日
微信OCR(2)--深度序列学习助力文字识别
微信AI
9+阅读 · 2017年12月7日
深度学习CTPN+CRNN模型实现图片内文字的定位与识别(OCR)
数据挖掘入门与实战
16+阅读 · 2017年11月25日
微信OCR(1)——公众号图文识别中的文本检测
微信AI
17+阅读 · 2017年11月22日
Top
微信扫码咨询专知VIP会员