Open-vocabulary semantic segmentation (OVSS) is an open-world task that aims to assign each pixel within an image to a specific class defined by arbitrary text descriptions. While large-scale vision-language models have shown remarkable open-vocabulary capabilities, their image-level pretraining limits effectiveness on pixel-wise dense prediction tasks like OVSS. Recent cost-based methods narrow this granularity gap by constructing pixel-text cost maps and refining them via cost aggregation mechanisms. Despite achieving promising performance, these approaches suffer from high computational costs and long inference latency. In this paper, we identify two major sources of redundancy in the cost-based OVSS framework: redundant information introduced during cost maps construction and inefficient sequence modeling in cost aggregation. To address these issues, we propose ERR-Seg, an efficient architecture that incorporates Redundancy-Reduced Hierarchical Cost maps (RRHC) and Redundancy-Reduced Cost Aggregation (RRCA). Specifically, RRHC reduces redundant class channels by customizing a compact class vocabulary for each image and integrates hierarchical cost maps to enrich semantic representation. RRCA alleviates computational burden by performing both spatial-level and class-level sequence reduction before aggregation. Overall, ERR-Seg results in a lightweight structure for OVSS, characterized by substantial memory and computational savings without compromising accuracy. Compared to previous state-of-the-art methods on the ADE20K-847 benchmark, ERR-Seg improves performance by $5.6\%$ while achieving a 3.1$\times$ speedup.


翻译:开放词汇语义分割(OVSS)是一项开放世界任务,旨在将图像中的每个像素分配给由任意文本描述定义的特定类别。尽管大规模视觉-语言模型已展现出卓越的开放词汇能力,但其图像级预训练限制了在像素级密集预测任务(如OVSS)上的有效性。近期基于代价的方法通过构建像素-文本代价图,并借助代价聚合机制对其进行优化,从而缩小了这一粒度差距。尽管取得了令人瞩目的性能,这些方法仍面临高计算成本和长推理延迟的问题。本文中,我们识别出基于代价的OVSS框架中两个主要的冗余来源:代价图构建过程中引入的冗余信息,以及代价聚合中低效的序列建模。为解决这些问题,我们提出ERR-Seg,一种高效架构,其整合了冗余削减的层次化代价图(RRHC)与冗余削减的代价聚合(RRCA)。具体而言,RRHC通过为每张图像定制紧凑的类别词汇表以减少冗余的类别通道,并集成层次化代价图以丰富语义表示。RRCA通过在聚合前执行空间级和类别级的序列削减来减轻计算负担。总体而言,ERR-Seg为OVSS构建了一个轻量化结构,其特点是在不损失精度的前提下实现了显著的内存与计算节省。在ADE20K-847基准测试中,与先前最先进的方法相比,ERR-Seg在性能上提升了$5.6\%$,同时实现了3.1$\times$的加速。

0
下载
关闭预览

相关内容

【AAAI2021】知识增强的视觉-语言预训练技术 ERNIE-ViL
专知会员服务
26+阅读 · 2021年1月29日
【NeurIPS2019】图变换网络:Graph Transformer Network
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员