【ICCV2021】无需检测器提取特征！LeCun团队提出MDETR：实现真正的端到端多模态推理 - 专知VIP

会员服务 ·

0

检测器 · 多模态推理 · ICCV 2021 ·

2021 年 7 月 29 日

【ICCV2021】无需检测器提取特征！LeCun团队提出MDETR：实现真正的端到端多模态推理

专知会员服务

专知，提供专业可信的知识分发服务，让认知协作更快更好！

目前，多模态推理模型大多都依赖于预先训练好的目标检测器来从图像中提取proposal。然而检测器只能检测出固定类别的目标，这使得模型很难适应自由文本中视觉concept的长尾分布，因此本文提出了MDETR，一种端到端调制检测器，能够根据原始文本query直接来检测图像中的目标，基于Transformer的结构，通过在模型的早期阶段融合这两种模态的信息，来对文本和图像进行共同的推理。最终，MDETR在检测和多个下游任务上都取得了SOTA的性能。

成为VIP会员查看完整内容

18

相关内容

检测器

ICCV2021 RealVSR: 业界首个移动端真实场景视频超分数据集

专知会员服务

23+阅读 · 2021年9月28日

【ICCV2021】残差注意力：一种简单但是有效的多标签图像识别方法

专知会员服务

15+阅读 · 2021年8月26日

【ICCV2021】用于视频目标分割的联合归纳式和直推式学习

专知会员服务

9+阅读 · 2021年8月12日

【CVPR2021】探索图像超分辨率中的稀疏性以实现高效推理

【CVPR2021】探索图像超分辨率中的稀疏性以实现高效推理

专知会员服务

27+阅读 · 2021年4月17日

【CVPR2021】一种基于知识蒸馏的弱监督图像文本匹配模型

专知会员服务

34+阅读 · 2021年4月8日

【商汤科技】可变形Transformers端到端对象检测，Deformable DETR

【商汤科技】可变形Transformers端到端对象检测，Deformable DETR

专知会员服务

32+阅读 · 2020年10月11日

【浙大博士论文】面向复杂场景理解的视觉内容识别、检测与推理方法研究

【浙大博士论文】面向复杂场景理解的视觉内容识别、检测与推理方法研究

专知会员服务

140+阅读 · 2020年7月26日

【ICML 2020 】小样本学习即领域迁移

【ICML 2020 】小样本学习即领域迁移

专知会员服务

77+阅读 · 2020年6月26日

新杀器来了！Facebook AI提出DETR：用Transformers来进行端到端的目标检测

新杀器来了！Facebook AI提出DETR：用Transformers来进行端到端的目标检测

专知会员服务

50+阅读 · 2020年5月28日

融合零样本学习和小样本学习的弱监督机器学习方法综述

专知会员服务

109+阅读 · 2020年3月20日

【商汤科技】可变形Transformers端到端对象检测，Deformable DETR

【商汤科技】可变形Transformers端到端对象检测，Deformable DETR

专知

18+阅读 · 2020年10月11日

目标检测新技能！引入知识图谱:Reasoning-RCNN

目标检测新技能！引入知识图谱:Reasoning-RCNN

极市平台

12+阅读 · 2020年1月4日

阿里巴巴提出 DR Loss：解决目标检测的样本不平衡问题

阿里巴巴提出 DR Loss：解决目标检测的样本不平衡问题

CVer

5+阅读 · 2019年8月3日

性能优越！李飞飞团队首次提出一种补全视觉信息库的半监督方法

性能优越！李飞飞团队首次提出一种补全视觉信息库的半监督方法

AI前线

6+阅读 · 2019年5月11日

谷歌大脑提出NAS-FPN：这是一种学会自动架构搜索的特征金字塔网络

谷歌大脑提出NAS-FPN：这是一种学会自动架构搜索的特征金字塔网络

机器之心

4+阅读 · 2019年4月22日

谷歌大脑重磅研究：神经结构搜索发现全新特征金字塔架构，超越Mask R-CNN等

谷歌大脑重磅研究：神经结构搜索发现全新特征金字塔架构，超越Mask R-CNN等

新智元

12+阅读 · 2019年4月19日

【泡泡图灵智库】VoxelNet：基于点云的端到端3D物体检测网络（CVPR）

【泡泡图灵智库】VoxelNet：基于点云的端到端3D物体检测网络（CVPR）

泡泡机器人SLAM

3+阅读 · 2019年3月22日

鱼与熊掌可以兼得：何恺明等人一统语义分割与实例分割

鱼与熊掌可以兼得：何恺明等人一统语义分割与实例分割

机器之心

8+阅读 · 2019年1月11日

CMU最新视觉特征自监督学习模型——TextTopicNet

CMU最新视觉特征自监督学习模型——TextTopicNet

人工智能头条

9+阅读 · 2018年7月29日

无需预训练分类器，清华&旷视提出专用于目标检测的骨干网络DetNet

无需预训练分类器，清华&旷视提出专用于目标检测的骨干网络DetNet

机器之心

8+阅读 · 2018年4月19日

ClipMatrix: Text-controlled Creation of 3D Textured Meshes

Arxiv

0+阅读 · 2021年9月27日

Symmetry Protected Quantum Computation

Arxiv

0+阅读 · 2021年9月26日

Pushing on Text Readability Assessment: A Transformer Meets Handcrafted Linguistic Features

Arxiv

0+阅读 · 2021年9月25日

Attributes-Guided and Pure-Visual Attention Alignment for Few-Shot Recognition

Arxiv

7+阅读 · 2020年12月4日

Transformation Driven Visual Reasoning

Arxiv

3+阅读 · 2020年11月26日

Revisiting Metric Learning for Few-Shot Image Classification

Arxiv

5+阅读 · 2020年4月16日

Improving CNN-based Planar Object Detection with Geometric Prior Knowledge

Improving CNN-based Planar Object Detection with Geometric Prior Knowledge

Arxiv

6+阅读 · 2019年9月23日

No Metrics Are Perfect: Adversarial Reward Learning for Visual Storytelling

Arxiv

7+阅读 · 2018年4月24日

Mask-aware Photorealistic Face Attribute Manipulation

Arxiv

5+阅读 · 2018年4月24日

Single-Shot Object Detection with Enriched Semantics

Arxiv

11+阅读 · 2018年4月8日

VIP会员

相关主题

多模态推理

相关VIP内容

ICCV2021 RealVSR: 业界首个移动端真实场景视频超分数据集

专知会员服务

23+阅读 · 2021年9月28日

【ICCV2021】残差注意力：一种简单但是有效的多标签图像识别方法

专知会员服务

15+阅读 · 2021年8月26日

【ICCV2021】用于视频目标分割的联合归纳式和直推式学习

专知会员服务

9+阅读 · 2021年8月12日

【CVPR2021】探索图像超分辨率中的稀疏性以实现高效推理

【CVPR2021】探索图像超分辨率中的稀疏性以实现高效推理

专知会员服务

27+阅读 · 2021年4月17日

【CVPR2021】一种基于知识蒸馏的弱监督图像文本匹配模型

专知会员服务

34+阅读 · 2021年4月8日

【商汤科技】可变形Transformers端到端对象检测，Deformable DETR

【商汤科技】可变形Transformers端到端对象检测，Deformable DETR

专知会员服务

32+阅读 · 2020年10月11日

【浙大博士论文】面向复杂场景理解的视觉内容识别、检测与推理方法研究

【浙大博士论文】面向复杂场景理解的视觉内容识别、检测与推理方法研究

专知会员服务

140+阅读 · 2020年7月26日

【ICML 2020 】小样本学习即领域迁移

【ICML 2020 】小样本学习即领域迁移

专知会员服务

77+阅读 · 2020年6月26日

新杀器来了！Facebook AI提出DETR：用Transformers来进行端到端的目标检测

新杀器来了！Facebook AI提出DETR：用Transformers来进行端到端的目标检测

专知会员服务

50+阅读 · 2020年5月28日

融合零样本学习和小样本学习的弱监督机器学习方法综述

专知会员服务

109+阅读 · 2020年3月20日

热门VIP内容

相关资讯

【商汤科技】可变形Transformers端到端对象检测，Deformable DETR

【商汤科技】可变形Transformers端到端对象检测，Deformable DETR

专知

18+阅读 · 2020年10月11日

目标检测新技能！引入知识图谱:Reasoning-RCNN

目标检测新技能！引入知识图谱:Reasoning-RCNN

极市平台

12+阅读 · 2020年1月4日

阿里巴巴提出 DR Loss：解决目标检测的样本不平衡问题

阿里巴巴提出 DR Loss：解决目标检测的样本不平衡问题

CVer

5+阅读 · 2019年8月3日

性能优越！李飞飞团队首次提出一种补全视觉信息库的半监督方法

性能优越！李飞飞团队首次提出一种补全视觉信息库的半监督方法

AI前线

6+阅读 · 2019年5月11日

谷歌大脑提出NAS-FPN：这是一种学会自动架构搜索的特征金字塔网络

谷歌大脑提出NAS-FPN：这是一种学会自动架构搜索的特征金字塔网络

机器之心

4+阅读 · 2019年4月22日

谷歌大脑重磅研究：神经结构搜索发现全新特征金字塔架构，超越Mask R-CNN等

谷歌大脑重磅研究：神经结构搜索发现全新特征金字塔架构，超越Mask R-CNN等

新智元

12+阅读 · 2019年4月19日

【泡泡图灵智库】VoxelNet：基于点云的端到端3D物体检测网络（CVPR）

【泡泡图灵智库】VoxelNet：基于点云的端到端3D物体检测网络（CVPR）

泡泡机器人SLAM

3+阅读 · 2019年3月22日

鱼与熊掌可以兼得：何恺明等人一统语义分割与实例分割

鱼与熊掌可以兼得：何恺明等人一统语义分割与实例分割

机器之心

8+阅读 · 2019年1月11日

CMU最新视觉特征自监督学习模型——TextTopicNet

CMU最新视觉特征自监督学习模型——TextTopicNet

人工智能头条

9+阅读 · 2018年7月29日

无需预训练分类器，清华&旷视提出专用于目标检测的骨干网络DetNet

无需预训练分类器，清华&旷视提出专用于目标检测的骨干网络DetNet

机器之心

8+阅读 · 2018年4月19日

相关论文

ClipMatrix: Text-controlled Creation of 3D Textured Meshes

Arxiv

0+阅读 · 2021年9月27日

Symmetry Protected Quantum Computation

Arxiv

0+阅读 · 2021年9月26日

Pushing on Text Readability Assessment: A Transformer Meets Handcrafted Linguistic Features

Arxiv

0+阅读 · 2021年9月25日

Attributes-Guided and Pure-Visual Attention Alignment for Few-Shot Recognition

Arxiv

7+阅读 · 2020年12月4日

Transformation Driven Visual Reasoning

Arxiv

3+阅读 · 2020年11月26日

Revisiting Metric Learning for Few-Shot Image Classification

Arxiv

5+阅读 · 2020年4月16日

Improving CNN-based Planar Object Detection with Geometric Prior Knowledge

Improving CNN-based Planar Object Detection with Geometric Prior Knowledge

Arxiv

6+阅读 · 2019年9月23日

No Metrics Are Perfect: Adversarial Reward Learning for Visual Storytelling

Arxiv

7+阅读 · 2018年4月24日

Mask-aware Photorealistic Face Attribute Manipulation

Arxiv

5+阅读 · 2018年4月24日

Single-Shot Object Detection with Enriched Semantics

Arxiv

11+阅读 · 2018年4月8日

微信扫码咨询专知VIP会员