本文简要介绍ICCV2021 录用论文 From Two to One: A New Scene Text Recognizer with Visual Language Modeling Network。有别于以往的分步两阶段工作需要先进行视觉预测再利用语言模型纠正的策略,该工作提出了视觉语言网络 Vision-LAN,直接赋予视觉模型语言能力,将视觉和语言模型当作一个整体。由于语言信息是和视觉特征一同获取的,不需要额外的语言模型,Vision-LAN显著提高39%的前向速度,并且能够自适应考虑语言信息来增强视觉特征,进而达到更高的识别准确率。

成为VIP会员查看完整内容
16

相关内容

[ICCV 2021] 联合视觉语义推理:文本识别的多级解码器
专知会员服务
18+阅读 · 2021年11月28日
[ACM MM 2021]结合文字识别结果的鲁棒和精确文本视觉问答
专知会员服务
15+阅读 · 2021年11月14日
[CVPR 2021] 序列到序列对比学习的文本识别
专知会员服务
28+阅读 · 2021年4月14日
【NeurIPS 2020】一种端到端全自由度抓取姿态估计网络简介
专知会员服务
19+阅读 · 2020年10月18日
【ACM Multimedia 2020】双时间存储网络有效的视频对象分割
[ICML-Google]先宽后窄:对深度薄网络的有效训练
专知会员服务
33+阅读 · 2020年7月5日
[CVPR 2021] 序列到序列对比学习的文本识别
专知
9+阅读 · 2021年4月14日
ICCV 2019 | 精确的端到端的弱监督目标检测网络
AI科技评论
11+阅读 · 2019年12月9日
CVPR 2018 | 无监督语义分割之全卷积域适应网络
极市平台
8+阅读 · 2018年6月28日
行人对齐+重识别网络(论文解读)
极市平台
7+阅读 · 2017年10月11日
Arxiv
30+阅读 · 2021年6月30日
Arxiv
8+阅读 · 2018年5月17日
Arxiv
5+阅读 · 2018年3月30日
VIP会员
微信扫码咨询专知VIP会员