Vision Transformers (ViTs) have demonstrated strong capabilities in capturing global dependencies but often struggle to efficiently represent fine-grained local details. Existing multi-scale approaches alleviate this issue by integrating hierarchical or hybrid features; however, they rely on fixed patch sizes and introduce redundant computation. To address these limitations, we propose Granularity-driven Vision Transformer (Grc-ViT), a dynamic coarse-to-fine framework that adaptively adjusts visual granularity based on image complexity. It comprises two key stages: (1) Coarse Granularity Evaluation module, which assesses visual complexity using edge density, entropy, and frequency-domain cues to estimate suitable patch and window sizes; (2) Fine-grained Refinement module, which refines attention computation according to the selected granularity, enabling efficient and precise feature learning. Two learnable parameters, α and \b{eta}, are optimized end-to-end to balance global reasoning and local perception. Comprehensive evaluations demonstrate that Grc-ViT enhances fine-grained discrimination while achieving a superior trade-off between accuracy and computational efficiency.


翻译:视觉Transformer(ViTs)在捕获全局依赖关系方面展现出强大能力,但往往难以高效表征细粒度局部细节。现有的多尺度方法通过集成层次化或混合特征缓解了这一问题,然而它们依赖于固定的分块尺寸并引入了冗余计算。为克服这些局限,我们提出粒度驱动的视觉Transformer(Grc-ViT),这是一种基于图像复杂度自适应调整视觉粒度的动态由粗到细框架。该框架包含两个关键阶段:(1)粗粒度评估模块:利用边缘密度、熵和频域线索评估视觉复杂度,以估计合适的分块与窗口尺寸;(2)细粒度优化模块:根据所选粒度优化注意力计算,实现高效精准的特征学习。两个可学习参数α与β通过端到端优化来平衡全局推理与局部感知。综合实验表明,Grc-ViT在提升细粒度判别能力的同时,实现了精度与计算效率的优越权衡。

0
下载
关闭预览

相关内容

【CVPR 2021】变换器跟踪TransT: Transformer Tracking
专知会员服务
22+阅读 · 2021年4月20日
AAAI 2022 | ProtGNN:自解释图神经网络
专知
10+阅读 · 2022年2月28日
【NeurIPS2019】图变换网络:Graph Transformer Network
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
VIP会员
相关基金
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
Top
微信扫码咨询专知VIP会员