Reasoning Segmentation requires models to interpret complex, context-dependent linguistic queries to achieve pixel-level localization. Current dominant approaches rely heavily on Supervised Fine-Tuning (SFT) or Reinforcement Learning (RL). However, SFT suffers from catastrophic forgetting and domain dependency, while RL is often hindered by training instability and rigid reliance on predefined reward functions. Although recent training-free methods circumvent these training burdens, they are fundamentally limited by a static inference paradigm. These methods typically rely on a single-pass "generate-then-segment" chain, which suffers from insufficient reasoning depth and lacks the capability to self-correct linguistic hallucinations or spatial misinterpretations. In this paper, we challenge these limitations and propose EVOL-SAM3, a novel zero-shot framework that reformulates reasoning segmentation as an inference-time evolutionary search process. Instead of relying on a fixed prompt, EVOL-SAM3 maintains a population of prompt hypotheses and iteratively refines them through a "Generate-Evaluate-Evolve" loop. We introduce a Visual Arena to assess prompt fitness via reference-free pairwise tournaments, and a Semantic Mutation operator to inject diversity and correct semantic errors. Furthermore, a Heterogeneous Arena module integrates geometric priors with semantic reasoning to ensure robust final selection. Extensive experiments demonstrate that EVOL-SAM3 not only substantially outperforms static baselines but also significantly surpasses fully supervised state-of-the-art methods on the challenging ReasonSeg benchmark in a zero-shot setting. The code is available at https://github.com/AHideoKuzeA/Evol-SAM3.


翻译:推理分割任务要求模型能够解析复杂的、依赖上下文的语言查询,以实现像素级的定位。当前的主流方法严重依赖于监督微调或强化学习。然而,监督微调存在灾难性遗忘和领域依赖性问题,而强化学习则常受限于训练不稳定以及对预定义奖励函数的僵化依赖。尽管最近的无训练方法规避了这些训练负担,但它们从根本上受限于静态的推理范式。这些方法通常依赖于单次"生成-然后分割"的链条,这存在推理深度不足的问题,并且缺乏自我纠正语言幻觉或空间误判的能力。在本文中,我们挑战这些局限,提出了EVOL-SAM3,一个新颖的零样本框架,它将推理分割重新定义为一种推理时的进化搜索过程。EVOL-SAM3不依赖于固定的提示,而是维护一个提示假设种群,并通过"生成-评估-演化"循环对其进行迭代优化。我们引入了一个视觉竞技场,通过无参考的成对竞赛来评估提示的适应度,以及一个语义突变算子来注入多样性并纠正语义错误。此外,一个异构竞技场模块将几何先验与语义推理相结合,以确保最终选择的鲁棒性。大量实验表明,EVOL-SAM3不仅在零样本设置下显著优于静态基线方法,还在具有挑战性的ReasonSeg基准测试中显著超越了完全监督的最先进方法。代码可在 https://github.com/AHideoKuzeA/Evol-SAM3 获取。

0
下载
关闭预览

相关内容

【CVPR2022】MSDN: 零样本学习的互语义蒸馏网络
专知会员服务
21+阅读 · 2022年3月8日
LibRec 每周算法:LDA主题模型
LibRec智能推荐
29+阅读 · 2017年12月4日
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
17+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
17+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员