【CVPR2023】基于文本到图像扩散模型的开放词汇全景分割 - 专知VIP

会员服务 ·

11

CVPR 2023 · 扩散模型 · 全景分割 ·

2023 年 3 月 12 日

【CVPR2023】基于文本到图像扩散模型的开放词汇全景分割

专知会员服务

专知，提供专业可信的知识分发服务，让认知协作更快更好！

**本文提出ODISE:基于开放词汇扩散的全景分割，将预训练的文本-图像扩散和判别模型统一起来，以执行开放词汇全景分割。**文本到图像扩散模型已经显示出了生成具有多种开放词汇语言描述的高质量图像的显著能力。这表明它们的内部表示空间与现实世界中的开放概念高度相关。另一方面，像CLIP这样的文本-图像判别模型擅长将图像分类为开放词汇表标签。本文建议利用这两个模型的冻结表示来对实际环境中的任何类别进行全景分割。所提出方法在开放词汇表全景任务和语义分割任务上都明显优于之前的技术水平。特别是，在仅进行COCO训练的情况下，所提出方法在ADE20K数据集上达到了23.4 PQ和30.0 mIoU，比之前的最先进水平有8.3 PQ和7.9 mIoU的绝对提升。项目页面可以在这个https URL中找到。

https://www.zhuanzhi.ai/paper/33848c7c700a2f8865607247b7663849

成为VIP会员查看完整内容

23

相关内容

CVPR 2023

CVPR 2023大会将于 6 月 18 日至 22 日在温哥华会议中心举行。CVPR是IEEE Conference on Computer Vision and Pattern Recognition的缩写，即IEEE国际计算机视觉与模式识别会议。该会议是由IEEE举办的计算机视觉和模式识别领域的顶级会议，会议的主要内容是计算机视觉与模式识别技术。 CVPR 2023 共收到 9155 份提交，比去年增加了 12%，创下新纪录，今年接收了 2360 篇论文，接收率为 25.78%。作为对比，去年有 8100 多篇有效投稿，大会接收了 2067 篇，接收率为 25%。

【CVPR2023】GeoLayoutLM:视觉信息提取的几何预训练

【CVPR2023】GeoLayoutLM:视觉信息提取的几何预训练

专知会员服务

29+阅读 · 2023年4月25日

【CVPR2023】Vita-CLIP:通过多模态提示的视频和文本自适应CLIP

【CVPR2023】Vita-CLIP:通过多模态提示的视频和文本自适应CLIP

专知会员服务

38+阅读 · 2023年4月11日

【CVPR2023】用于无监督域适应的Patch-Mix Transformer: 博弈视角

【CVPR2023】用于无监督域适应的Patch-Mix Transformer: 博弈视角

专知会员服务

29+阅读 · 2023年3月27日

【CVPR2023】I2MVFormer:大语言模型生成的多视图文档监督零样本图像分类

【CVPR2023】I2MVFormer:大语言模型生成的多视图文档监督零样本图像分类

专知会员服务

20+阅读 · 2023年3月1日

【CVPR2022】提示分布学习

【CVPR2022】提示分布学习

专知会员服务

29+阅读 · 2022年5月17日

【CVPR2022】开放集半监督图像生成

【CVPR2022】开放集半监督图像生成

专知会员服务

21+阅读 · 2022年5月3日

【SIGGRAPH 2022】域增强的任意图像风格对比迁移方法

【SIGGRAPH 2022】域增强的任意图像风格对比迁移方法

专知会员服务

25+阅读 · 2022年4月20日

【CVPR2022】多视图聚合的大规模三维语义分割

【CVPR2022】多视图聚合的大规模三维语义分割

专知会员服务

20+阅读 · 2022年4月20日

【CVPR2022】ContrastMask:对比学习来分割各种

【CVPR2022】ContrastMask:对比学习来分割各种

专知会员服务

19+阅读 · 2022年3月21日

【NeurIPS 2021 】 K-Net-大统一图像分割任务：语义、实例乃至全景分割

【NeurIPS 2021 】 K-Net-大统一图像分割任务：语义、实例乃至全景分割

专知会员服务

20+阅读 · 2021年12月14日

【CVPR2023】Vita-CLIP:通过多模态提示的视频和文本自适应CLIP

【CVPR2023】Vita-CLIP:通过多模态提示的视频和文本自适应CLIP

专知

4+阅读 · 2023年4月11日

【CVPR2023】基于文本驱动软掩码的多模态表示学习

【CVPR2023】基于文本驱动软掩码的多模态表示学习

专知

1+阅读 · 2023年4月10日

【AAAI2023】用单塔Transformer统一视觉语言表示空间

【AAAI2023】用单塔Transformer统一视觉语言表示空间

专知

1+阅读 · 2022年11月27日

大“火”的扩散模型综述又一弹！UCF等《视觉扩散模型》综述，20页pdf详述三种通用的扩散建模框架

大“火”的扩散模型综述又一弹！UCF等《视觉扩散模型》综述，20页pdf详述三种通用的扩散建模框架

专知

5+阅读 · 2022年9月13日

ECCV22｜美团&上海交大开源PromptDet：无需手动标注，迈向开放词汇的目标检测

ECCV22｜美团&上海交大开源PromptDet：无需手动标注，迈向开放词汇的目标检测

极市平台

0+阅读 · 2022年7月31日

扩散+超分辨率模型强强联合，谷歌图像生成器Imagen背后的技术

扩散+超分辨率模型强强联合，谷歌图像生成器Imagen背后的技术

机器之心

0+阅读 · 2022年7月12日

CVPR 2022 | 基于序列对比学习的长视频逐帧动作表示

CVPR 2022 | 基于序列对比学习的长视频逐帧动作表示

PaperWeekly

1+阅读 · 2022年6月9日

小样本学习下的Transformer：基于谱聚类层和标签代理学习

小样本学习下的Transformer：基于谱聚类层和标签代理学习

PaperWeekly

5+阅读 · 2022年6月6日

全景分割这一年，端到端之路

全景分割这一年，端到端之路

机器之心

14+阅读 · 2018年12月24日

Facebook人工智能实验室提出「全景分割」，实现实例分割和语义分割的统一

Facebook人工智能实验室提出「全景分割」，实现实例分割和语义分割的统一

人工智能学家

11+阅读 · 2018年1月6日

基于复杂语义的个性化图像集摘要研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于自学习对比度视觉注意模型和自适应深度特征的无分类目标检测

国家自然科学基金

2+阅读 · 2015年12月31日

无监督分词及词性归纳联合方法研究

国家自然科学基金

1+阅读 · 2013年12月31日

融合多尺度上下文的图像标注研究

国家自然科学基金

2+阅读 · 2013年12月31日

面向Web主观性文本意见挖掘研究

国家自然科学基金

0+阅读 · 2012年12月31日

基于语义多边图的多物体图像类别发现及其在图像检索中的应用

国家自然科学基金

0+阅读 · 2012年12月31日

基于视觉感知启发的对象发现技术

国家自然科学基金

0+阅读 · 2011年12月31日

基于多模态概率主题模型的实体相关文本可视化

国家自然科学基金

1+阅读 · 2011年12月31日

时移不变框架小波及其应用的研究

国家自然科学基金

1+阅读 · 2009年12月31日

句子语义的视觉表示研究

国家自然科学基金

4+阅读 · 2009年12月31日

ContactArt: Learning 3D Interaction Priors for Category-level Articulated Object and Hand Poses Estimation

Arxiv

0+阅读 · 2023年5月2日

Segment Anything is A Good Pseudo-label Generator for Weakly Supervised Semantic Segmentation

Arxiv

1+阅读 · 2023年5月2日

RT-K-Net: Revisiting K-Net for Real-Time Panoptic Segmentation

Arxiv

0+阅读 · 2023年5月2日

SelfDocSeg: A Self-Supervised vision-based Approach towards Document Segmentation

Arxiv

0+阅读 · 2023年5月2日

CLIP-S$^4$: Language-Guided Self-Supervised Semantic Segmentation

Arxiv

0+阅读 · 2023年5月1日

End to End Lane detection with One-to-Several Transformer

Arxiv

0+阅读 · 2023年5月1日

Boosting Weakly-Supervised Temporal Action Localization with Text Information

Arxiv

0+阅读 · 2023年5月1日

Exploring Segmentation Approaches for Neural Machine Translation of Code-Switched Egyptian Arabic-English Text

Arxiv

0+阅读 · 2023年4月30日

Visual Semantic Relatedness Dataset for Image Captioning

Arxiv

1+阅读 · 2023年4月30日

K-Net: Towards Unified Image Segmentation

Arxiv

12+阅读 · 2021年11月1日

VIP会员

相关主题

相关VIP内容

【CVPR2023】GeoLayoutLM:视觉信息提取的几何预训练

【CVPR2023】GeoLayoutLM:视觉信息提取的几何预训练

专知会员服务

29+阅读 · 2023年4月25日

【CVPR2023】Vita-CLIP:通过多模态提示的视频和文本自适应CLIP

【CVPR2023】Vita-CLIP:通过多模态提示的视频和文本自适应CLIP

专知会员服务

38+阅读 · 2023年4月11日

【CVPR2023】用于无监督域适应的Patch-Mix Transformer: 博弈视角

【CVPR2023】用于无监督域适应的Patch-Mix Transformer: 博弈视角

专知会员服务

29+阅读 · 2023年3月27日

【CVPR2023】I2MVFormer:大语言模型生成的多视图文档监督零样本图像分类

【CVPR2023】I2MVFormer:大语言模型生成的多视图文档监督零样本图像分类

专知会员服务

20+阅读 · 2023年3月1日

【CVPR2022】提示分布学习

【CVPR2022】提示分布学习

专知会员服务

29+阅读 · 2022年5月17日

【CVPR2022】开放集半监督图像生成

【CVPR2022】开放集半监督图像生成

专知会员服务

21+阅读 · 2022年5月3日

【SIGGRAPH 2022】域增强的任意图像风格对比迁移方法

【SIGGRAPH 2022】域增强的任意图像风格对比迁移方法

专知会员服务

25+阅读 · 2022年4月20日

【CVPR2022】多视图聚合的大规模三维语义分割

【CVPR2022】多视图聚合的大规模三维语义分割

专知会员服务

20+阅读 · 2022年4月20日

【CVPR2022】ContrastMask:对比学习来分割各种

【CVPR2022】ContrastMask:对比学习来分割各种

专知会员服务

19+阅读 · 2022年3月21日

【NeurIPS 2021 】 K-Net-大统一图像分割任务：语义、实例乃至全景分割

【NeurIPS 2021 】 K-Net-大统一图像分割任务：语义、实例乃至全景分割

专知会员服务

20+阅读 · 2021年12月14日

热门VIP内容

相关资讯

【CVPR2023】Vita-CLIP:通过多模态提示的视频和文本自适应CLIP

【CVPR2023】Vita-CLIP:通过多模态提示的视频和文本自适应CLIP

专知

4+阅读 · 2023年4月11日

【CVPR2023】基于文本驱动软掩码的多模态表示学习

【CVPR2023】基于文本驱动软掩码的多模态表示学习

专知

1+阅读 · 2023年4月10日

【AAAI2023】用单塔Transformer统一视觉语言表示空间

【AAAI2023】用单塔Transformer统一视觉语言表示空间

专知

1+阅读 · 2022年11月27日

大“火”的扩散模型综述又一弹！UCF等《视觉扩散模型》综述，20页pdf详述三种通用的扩散建模框架

大“火”的扩散模型综述又一弹！UCF等《视觉扩散模型》综述，20页pdf详述三种通用的扩散建模框架

专知

5+阅读 · 2022年9月13日

ECCV22｜美团&上海交大开源PromptDet：无需手动标注，迈向开放词汇的目标检测

ECCV22｜美团&上海交大开源PromptDet：无需手动标注，迈向开放词汇的目标检测

极市平台

0+阅读 · 2022年7月31日

扩散+超分辨率模型强强联合，谷歌图像生成器Imagen背后的技术

扩散+超分辨率模型强强联合，谷歌图像生成器Imagen背后的技术

机器之心

0+阅读 · 2022年7月12日

CVPR 2022 | 基于序列对比学习的长视频逐帧动作表示

CVPR 2022 | 基于序列对比学习的长视频逐帧动作表示

PaperWeekly

1+阅读 · 2022年6月9日

小样本学习下的Transformer：基于谱聚类层和标签代理学习

小样本学习下的Transformer：基于谱聚类层和标签代理学习

PaperWeekly

5+阅读 · 2022年6月6日

全景分割这一年，端到端之路

全景分割这一年，端到端之路

机器之心

14+阅读 · 2018年12月24日

Facebook人工智能实验室提出「全景分割」，实现实例分割和语义分割的统一

Facebook人工智能实验室提出「全景分割」，实现实例分割和语义分割的统一

人工智能学家

11+阅读 · 2018年1月6日

相关基金

基于复杂语义的个性化图像集摘要研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于自学习对比度视觉注意模型和自适应深度特征的无分类目标检测

国家自然科学基金

2+阅读 · 2015年12月31日

无监督分词及词性归纳联合方法研究

国家自然科学基金

1+阅读 · 2013年12月31日

融合多尺度上下文的图像标注研究

国家自然科学基金

2+阅读 · 2013年12月31日

面向Web主观性文本意见挖掘研究

国家自然科学基金

0+阅读 · 2012年12月31日

基于语义多边图的多物体图像类别发现及其在图像检索中的应用

国家自然科学基金

0+阅读 · 2012年12月31日

基于视觉感知启发的对象发现技术

国家自然科学基金

0+阅读 · 2011年12月31日

基于多模态概率主题模型的实体相关文本可视化

国家自然科学基金

1+阅读 · 2011年12月31日

时移不变框架小波及其应用的研究

国家自然科学基金

1+阅读 · 2009年12月31日

句子语义的视觉表示研究

国家自然科学基金

4+阅读 · 2009年12月31日

相关论文

ContactArt: Learning 3D Interaction Priors for Category-level Articulated Object and Hand Poses Estimation

Arxiv

0+阅读 · 2023年5月2日

Segment Anything is A Good Pseudo-label Generator for Weakly Supervised Semantic Segmentation

Arxiv

1+阅读 · 2023年5月2日

RT-K-Net: Revisiting K-Net for Real-Time Panoptic Segmentation

Arxiv

0+阅读 · 2023年5月2日

SelfDocSeg: A Self-Supervised vision-based Approach towards Document Segmentation

Arxiv

0+阅读 · 2023年5月2日

CLIP-S$^4$: Language-Guided Self-Supervised Semantic Segmentation

Arxiv

0+阅读 · 2023年5月1日

End to End Lane detection with One-to-Several Transformer

Arxiv

0+阅读 · 2023年5月1日

Boosting Weakly-Supervised Temporal Action Localization with Text Information

Arxiv

0+阅读 · 2023年5月1日

Exploring Segmentation Approaches for Neural Machine Translation of Code-Switched Egyptian Arabic-English Text

Arxiv

0+阅读 · 2023年4月30日

Visual Semantic Relatedness Dataset for Image Captioning

Arxiv

1+阅读 · 2023年4月30日

K-Net: Towards Unified Image Segmentation

Arxiv

12+阅读 · 2021年11月1日

微信扫码咨询专知VIP会员