**本文提出ODISE:基于开放词汇扩散的全景分割,将预训练的文本-图像扩散和判别模型统一起来,以执行开放词汇全景分割。**文本到图像扩散模型已经显示出了生成具有多种开放词汇语言描述的高质量图像的显著能力。这表明它们的内部表示空间与现实世界中的开放概念高度相关。另一方面,像CLIP这样的文本-图像判别模型擅长将图像分类为开放词汇表标签。本文建议利用这两个模型的冻结表示来对实际环境中的任何类别进行全景分割。所提出方法在开放词汇表全景任务和语义分割任务上都明显优于之前的技术水平。特别是,在仅进行COCO训练的情况下,所提出方法在ADE20K数据集上达到了23.4 PQ和30.0 mIoU,比之前的最先进水平有8.3 PQ和7.9 mIoU的绝对提升。项目页面可以在这个https URL中找到。

https://www.zhuanzhi.ai/paper/33848c7c700a2f8865607247b7663849

成为VIP会员查看完整内容
23

相关内容

CVPR 2023大会将于 6 月 18 日至 22 日在温哥华会议中心举行。CVPR是IEEE Conference on Computer Vision and Pattern Recognition的缩写,即IEEE国际计算机视觉与模式识别会议。该会议是由IEEE举办的计算机视觉和模式识别领域的顶级会议,会议的主要内容是计算机视觉与模式识别技术。 CVPR 2023 共收到 9155 份提交,比去年增加了 12%,创下新纪录,今年接收了 2360 篇论文,接收率为 25.78%。作为对比,去年有 8100 多篇有效投稿,大会接收了 2067 篇,接收率为 25%。
【CVPR2023】GeoLayoutLM:视觉信息提取的几何预训练
专知会员服务
29+阅读 · 2023年4月25日
【CVPR2022】提示分布学习
专知会员服务
29+阅读 · 2022年5月17日
【CVPR2022】开放集半监督图像生成
专知会员服务
21+阅读 · 2022年5月3日
【SIGGRAPH 2022】域增强的任意图像风格对比迁移方法
专知会员服务
25+阅读 · 2022年4月20日
【CVPR2022】多视图聚合的大规模三维语义分割
专知会员服务
20+阅读 · 2022年4月20日
【CVPR2022】ContrastMask:对比学习来分割各种
专知会员服务
19+阅读 · 2022年3月21日
全景分割这一年,端到端之路
机器之心
14+阅读 · 2018年12月24日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
2+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
1+阅读 · 2011年12月31日
国家自然科学基金
1+阅读 · 2009年12月31日
国家自然科学基金
4+阅读 · 2009年12月31日
Arxiv
12+阅读 · 2021年11月1日
VIP会员
相关VIP内容
【CVPR2023】GeoLayoutLM:视觉信息提取的几何预训练
专知会员服务
29+阅读 · 2023年4月25日
【CVPR2022】提示分布学习
专知会员服务
29+阅读 · 2022年5月17日
【CVPR2022】开放集半监督图像生成
专知会员服务
21+阅读 · 2022年5月3日
【SIGGRAPH 2022】域增强的任意图像风格对比迁移方法
专知会员服务
25+阅读 · 2022年4月20日
【CVPR2022】多视图聚合的大规模三维语义分割
专知会员服务
20+阅读 · 2022年4月20日
【CVPR2022】ContrastMask:对比学习来分割各种
专知会员服务
19+阅读 · 2022年3月21日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
2+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
1+阅读 · 2011年12月31日
国家自然科学基金
1+阅读 · 2009年12月31日
国家自然科学基金
4+阅读 · 2009年12月31日
微信扫码咨询专知VIP会员