Image segmentation is often ambiguous at the level of individual image patches and requires contextual information to reach label consensus. In this paper we introduce Segmenter, a transformer model for semantic segmentation. In contrast to convolution based approaches, our approach allows to model global context already at the first layer and throughout the network. We build on the recent Vision Transformer (ViT) and extend it to semantic segmentation. To do so, we rely on the output embeddings corresponding to image patches and obtain class labels from these embeddings with a point-wise linear decoder or a mask transformer decoder. We leverage models pre-trained for image classification and show that we can fine-tune them on moderate sized datasets available for semantic segmentation. The linear decoder allows to obtain excellent results already, but the performance can be further improved by a mask transformer generating class masks. We conduct an extensive ablation study to show the impact of the different parameters, in particular the performance is better for large models and small patch sizes. Segmenter attains excellent results for semantic segmentation. It outperforms the state of the art on the challenging ADE20K dataset and performs on-par on Pascal Context and Cityscapes.


翻译:在单个图像补丁级别上,图像的分解往往模糊不清, 需要背景信息才能达成标签共识。 在本文中, 我们引入了片段, 一个变压器模型, 用于语义分解。 与基于变动的方法相比, 我们的方法允许在第一个层和整个网络上建模全球背景。 我们建建在最近的视野变异器( ViT) 上, 并将其扩展至语义分解。 要做到这一点, 我们依靠与图像补丁相对应的输出嵌入, 并从这些嵌入的嵌入中获取类标签, 并配有点向线线线解密器或遮罩变异器解密器。 我们利用了为图像分类而预先训练的变压器模型, 并显示我们可以将其微调用于中度的语义分解析的数据集。 线解码器已经能够取得优异的结果, 但是通过生成类代口罩来进一步提高性。 我们进行广泛的对比研究, 以显示不同参数的影响, 特别是性能对大模型和小片断变变体大小更好。 分解器在图像分类分类上取得极优的结果。 。 它在城市的视野上显示了艺术的状态。 K- 。 和背景上显示 。

0
下载
关闭预览

相关内容

边缘机器学习,21页ppt
专知会员服务
78+阅读 · 2021年6月21日
最新《Transformers模型》教程,64页ppt
专知会员服务
276+阅读 · 2020年11月26日
专知会员服务
306+阅读 · 2020年11月24日
专知会员服务
44+阅读 · 2020年10月31日
【ST2020硬核课】深度学习即统计学习,50页ppt
专知会员服务
63+阅读 · 2020年8月17日
一份简单《图神经网络》教程,28页ppt
专知会员服务
120+阅读 · 2020年8月2日
【哈佛大学商学院课程Fall 2019】机器学习可解释性
专知会员服务
99+阅读 · 2019年10月9日
RoBERTa中文预训练模型:RoBERTa for Chinese
PaperWeekly
57+阅读 · 2019年9月16日
PyTorch语义分割开源库semseg
极市平台
25+阅读 · 2019年6月6日
弱监督语义分割最新方法资源列表
专知
9+阅读 · 2019年2月26日
TorchSeg:基于pytorch的语义分割算法开源了
极市平台
20+阅读 · 2019年1月28日
《pyramid Attention Network for Semantic Segmentation》
统计学习与视觉计算组
44+阅读 · 2018年8月30日
【推荐】视频目标分割基础
机器学习研究会
9+阅读 · 2017年9月19日
【推荐】深度学习目标检测概览
机器学习研究会
10+阅读 · 2017年9月1日
【推荐】全卷积语义分割综述
机器学习研究会
19+阅读 · 2017年8月31日
Augmentation for small object detection
Arxiv
11+阅读 · 2019年2月19日
Arxiv
7+阅读 · 2018年12月10日
Arxiv
8+阅读 · 2018年5月15日
VIP会员
相关VIP内容
边缘机器学习,21页ppt
专知会员服务
78+阅读 · 2021年6月21日
最新《Transformers模型》教程,64页ppt
专知会员服务
276+阅读 · 2020年11月26日
专知会员服务
306+阅读 · 2020年11月24日
专知会员服务
44+阅读 · 2020年10月31日
【ST2020硬核课】深度学习即统计学习,50页ppt
专知会员服务
63+阅读 · 2020年8月17日
一份简单《图神经网络》教程,28页ppt
专知会员服务
120+阅读 · 2020年8月2日
【哈佛大学商学院课程Fall 2019】机器学习可解释性
专知会员服务
99+阅读 · 2019年10月9日
相关资讯
RoBERTa中文预训练模型:RoBERTa for Chinese
PaperWeekly
57+阅读 · 2019年9月16日
PyTorch语义分割开源库semseg
极市平台
25+阅读 · 2019年6月6日
弱监督语义分割最新方法资源列表
专知
9+阅读 · 2019年2月26日
TorchSeg:基于pytorch的语义分割算法开源了
极市平台
20+阅读 · 2019年1月28日
《pyramid Attention Network for Semantic Segmentation》
统计学习与视觉计算组
44+阅读 · 2018年8月30日
【推荐】视频目标分割基础
机器学习研究会
9+阅读 · 2017年9月19日
【推荐】深度学习目标检测概览
机器学习研究会
10+阅读 · 2017年9月1日
【推荐】全卷积语义分割综述
机器学习研究会
19+阅读 · 2017年8月31日
Top
微信扫码咨询专知VIP会员