Recent advances in vision-language reasoning underscore the importance of thinking with images, where models actively ground their reasoning in visual evidence. Yet, prevailing frameworks treat visual actions as optional tools, boosting metrics but leaving reasoning ungrounded and crops ineffective. This gap gives rise to the illusion of thinking with images: models seem visually grounded but rely on context-agnostic actions that neither refine perception nor guide reasoning toward correct answers. We address this problem by reframing visual actions as core reasoning primitives rather than optional tools, which we term visual rationalization, the visual analogue of textual Chain-of-Thought. Building on this insight, we propose Visual Rationale Learning (ViRL), an end-to-end paradigm that grounds training in the visual rationale itself. ViRL integrates (1) Process Supervision with ground-truth rationales, (2) Objective Alignment via step-level reward shaping, and (3) Fine-Grained Credit Assignment to distinguish correct, redundant, and erroneous actions. By ensuring each action contributes meaningfully to the reasoning chain, ViRL enables models to "get the right answer for the right visual reason". Trained purely with end-to-end RL, ViRL achieves state-of-the-art results across benchmarks spanning perception, hallucination, and reasoning. This work establishes visual rationalization as a task-agnostic, process-grounded paradigm for building transparent, verifiable, and trustworthy vision-language models.


翻译:视觉-语言推理领域的最新进展凸显了基于图像思考的重要性,即模型主动将其推理过程锚定于视觉证据。然而,现有框架将视觉动作视为可选工具,虽能提升评估指标,却导致推理缺乏根基且图像裁剪效果不佳。这一差距催生了“基于图像思考的幻象”:模型看似具备视觉基础,实则依赖于与上下文无关的动作,这些动作既未优化感知能力,也未将推理导向正确答案。为解决该问题,我们将视觉动作重新定义为核心推理原语而非可选工具,称之为“视觉理性化”——即文本思维链的视觉类比。基于此洞见,我们提出视觉依据学习(ViRL),一种将训练过程锚定于视觉依据本身的端到端范式。ViRL整合了:(1)基于真实依据的过程监督,(2)通过步骤级奖励塑形实现的目标对齐,以及(3)用于区分正确、冗余及错误动作的细粒度信用分配。通过确保每个动作对推理链产生实质性贡献,ViRL使模型能够“基于正确的视觉依据获得正确答案”。仅通过端到端强化学习训练,ViRL在涵盖感知、幻觉检测与推理的多项基准测试中均取得最先进性能。本工作确立了视觉理性化作为一种任务无关、过程可追溯的范式,为构建透明、可验证且可信赖的视觉-语言模型奠定基础。

0
下载
关闭预览

相关内容

【CVPR2021】基于端到端预训练的视觉-语言表征学习
专知会员服务
38+阅读 · 2021年4月9日
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
VIP会员
相关基金
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
Top
微信扫码咨询专知VIP会员