[ICCV 2021] 从二到一：一种带有视觉语言建模网络的新场景文本识别器 - 专知VIP

会员服务 ·

0

ICCV 2021 · 文本识别器 ·

2021 年 10 月 17 日

[ICCV 2021] 从二到一：一种带有视觉语言建模网络的新场景文本识别器

专知会员服务

专知，提供专业可信的知识分发服务，让认知协作更快更好！

本文简要介绍ICCV2021 录用论文 From Two to One: A New Scene Text Recognizer with Visual Language Modeling Network。有别于以往的分步两阶段工作需要先进行视觉预测再利用语言模型纠正的策略，该工作提出了视觉语言网络 Vision-LAN，直接赋予视觉模型语言能力，将视觉和语言模型当作一个整体。由于语言信息是和视觉特征一同获取的，不需要额外的语言模型，Vision-LAN显著提高39%的前向速度，并且能够自适应考虑语言信息来增强视觉特征，进而达到更高的识别准确率。

成为VIP会员查看完整内容

17

相关内容

ICCV 2021

[ICCV 2021] 联合视觉语义推理：文本识别的多级解码器

[ICCV 2021] 联合视觉语义推理：文本识别的多级解码器

专知会员服务

19+阅读 · 2021年11月28日

[ACM MM 2021]结合文字识别结果的鲁棒和精确文本视觉问答

[ACM MM 2021]结合文字识别结果的鲁棒和精确文本视觉问答

专知会员服务

16+阅读 · 2021年11月14日

【WSDM2021】双向图卷积：一种新的图卷积框架用于富文本网络

【WSDM2021】双向图卷积：一种新的图卷积框架用于富文本网络

专知会员服务

18+阅读 · 2021年1月29日

【ACM Multimedia 2020】双时间存储网络有效的视频对象分割

【ACM Multimedia 2020】双时间存储网络有效的视频对象分割

专知会员服务

10+阅读 · 2020年8月13日

【CVPR 2020-人大】基于层次图推理的细粒度文本视频跨模态检索

【CVPR 2020-人大】基于层次图推理的细粒度文本视频跨模态检索

专知会员服务

67+阅读 · 2020年4月5日

[CVPR 2021] 序列到序列对比学习的文本识别

[CVPR 2021] 序列到序列对比学习的文本识别

专知

10+阅读 · 2021年4月14日

ICCV 2019 | 精确的端到端的弱监督目标检测网络

ICCV 2019 | 精确的端到端的弱监督目标检测网络

AI科技评论

11+阅读 · 2019年12月9日

【泡泡一分钟】基于级联特征网络的RBG-D图像语义分割（ICCV-2017）

【泡泡一分钟】基于级联特征网络的RBG-D图像语义分割（ICCV-2017）

泡泡机器人SLAM

3+阅读 · 2018年10月11日

CVPR 2018 | 无监督语义分割之全卷积域适应网络

CVPR 2018 | 无监督语义分割之全卷积域适应网络

极市平台

8+阅读 · 2018年6月28日

【泡泡一分钟】用于街景语义分割的全分辨率残差网络（CVPR-12）

【泡泡一分钟】用于街景语义分割的全分辨率残差网络（CVPR-12）

泡泡机器人SLAM

5+阅读 · 2017年11月2日

Trimap-guided Feature Mining and Fusion Network for Natural Image Matting

Arxiv

0+阅读 · 2021年12月3日

Look-into-Object: Self-supervised Structure Modeling for Object Recognition

Look-into-Object: Self-supervised Structure Modeling for Object Recognition

Arxiv

15+阅读 · 2020年3月31日

MetaFuse: A Pre-trained Fusion Model for Human Pose Estimation

MetaFuse: A Pre-trained Fusion Model for Human Pose Estimation

Arxiv

7+阅读 · 2020年3月30日

BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

Arxiv

16+阅读 · 2019年5月24日

Reconstruction Network for Video Captioning

Arxiv

5+阅读 · 2018年3月30日

VIP会员

相关主题

文本识别器

相关VIP内容

[ICCV 2021] 联合视觉语义推理：文本识别的多级解码器

[ICCV 2021] 联合视觉语义推理：文本识别的多级解码器

专知会员服务

19+阅读 · 2021年11月28日

[ACM MM 2021]结合文字识别结果的鲁棒和精确文本视觉问答

[ACM MM 2021]结合文字识别结果的鲁棒和精确文本视觉问答

专知会员服务

16+阅读 · 2021年11月14日

【WSDM2021】双向图卷积：一种新的图卷积框架用于富文本网络

【WSDM2021】双向图卷积：一种新的图卷积框架用于富文本网络

专知会员服务

18+阅读 · 2021年1月29日

【ACM Multimedia 2020】双时间存储网络有效的视频对象分割

【ACM Multimedia 2020】双时间存储网络有效的视频对象分割

专知会员服务

10+阅读 · 2020年8月13日

【CVPR 2020-人大】基于层次图推理的细粒度文本视频跨模态检索

【CVPR 2020-人大】基于层次图推理的细粒度文本视频跨模态检索

专知会员服务

67+阅读 · 2020年4月5日

热门VIP内容

开通专知VIP会员享更多权益服务

美海军作战管理系统：变革战场空间的二十年

《任务与武器驱动美海军舰队设计》报告

俄罗斯“沙希德”/“天竺葵”攻击无人机

《利用动态图对网络攻击进行建模与仿真：在云安全评估中的应用》90页

相关资讯

[CVPR 2021] 序列到序列对比学习的文本识别

[CVPR 2021] 序列到序列对比学习的文本识别

专知

10+阅读 · 2021年4月14日

ICCV 2019 | 精确的端到端的弱监督目标检测网络

ICCV 2019 | 精确的端到端的弱监督目标检测网络

AI科技评论

11+阅读 · 2019年12月9日

【泡泡一分钟】基于级联特征网络的RBG-D图像语义分割（ICCV-2017）

【泡泡一分钟】基于级联特征网络的RBG-D图像语义分割（ICCV-2017）

泡泡机器人SLAM

3+阅读 · 2018年10月11日

CVPR 2018 | 无监督语义分割之全卷积域适应网络

CVPR 2018 | 无监督语义分割之全卷积域适应网络

极市平台

8+阅读 · 2018年6月28日

【泡泡一分钟】用于街景语义分割的全分辨率残差网络（CVPR-12）

【泡泡一分钟】用于街景语义分割的全分辨率残差网络（CVPR-12）

泡泡机器人SLAM

5+阅读 · 2017年11月2日

相关论文

Trimap-guided Feature Mining and Fusion Network for Natural Image Matting

Arxiv

0+阅读 · 2021年12月3日

Look-into-Object: Self-supervised Structure Modeling for Object Recognition

Look-into-Object: Self-supervised Structure Modeling for Object Recognition

Arxiv

15+阅读 · 2020年3月31日

MetaFuse: A Pre-trained Fusion Model for Human Pose Estimation

MetaFuse: A Pre-trained Fusion Model for Human Pose Estimation

Arxiv

7+阅读 · 2020年3月30日

BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

Arxiv

16+阅读 · 2019年5月24日

Reconstruction Network for Video Captioning

Arxiv

5+阅读 · 2018年3月30日

微信扫码咨询专知VIP会员