Thinking-with-images paradigms have showcased remarkable visual reasoning capability by integrating visual information as dynamic elements into the Chain-of-Thought (CoT). However, optimizing interleaved multimodal CoT (iMCoT) through reinforcement learning remains challenging, as it relies on scarce high-quality reasoning data. In this study, we propose Self-Calling Chain-of-Thought (sCoT), a novel visual reasoning paradigm that reformulates iMCoT as a language-only CoT with self-calling. Specifically, a main agent decomposes the complex visual reasoning task to atomic subtasks and invokes its virtual replicas, i.e. parameter-sharing subagents, to solve them in isolated context. sCoT enjoys substantial training effectiveness and efficiency, as it requires no explicit interleaving between modalities. sCoT employs group-relative policy optimization to reinforce effective reasoning behavior to enhance optimization. Experiments on HR-Bench 4K show that sCoT improves the overall reasoning performance by up to $1.9\%$ with $\sim 75\%$ fewer GPU hours compared to strong baseline approaches. Code is available at https://github.com/YWenxi/think-with-images-through-self-calling.


翻译:图像思维范式通过将视觉信息作为动态元素整合到思维链(CoT)中,已展现出卓越的视觉推理能力。然而,通过强化学习优化交错式多模态思维链(iMCoT)仍面临挑战,因其依赖于稀缺的高质量推理数据。本研究提出自调用思维链(sCoT),这是一种新颖的视觉推理范式,将iMCoT重新构建为具有自调用功能的纯语言CoT。具体而言,主智能体将复杂的视觉推理任务分解为原子子任务,并调用其虚拟副本(即参数共享的子智能体)在隔离上下文中解决这些子任务。sCoT无需显式的模态间交错,从而获得显著的训练效果和效率。sCoT采用组间相对策略优化来强化有效推理行为,以提升优化效果。在HR-Bench 4K上的实验表明,相较于强基线方法,sCoT将整体推理性能提升高达$1.9\\%$,同时减少约$75\\%$的GPU计算时耗。代码发布于https://github.com/YWenxi/think-with-images-through-self-calling。

0
下载
关闭预览

相关内容

【AAAI2022】用于视觉常识推理的场景图增强图像-文本学习
专知会员服务
50+阅读 · 2021年12月20日
【CVPR 2021】变换器跟踪TransT: Transformer Tracking
专知会员服务
22+阅读 · 2021年4月20日
【CVPR2021】基于端到端预训练的视觉-语言表征学习
专知会员服务
38+阅读 · 2021年4月9日
【NeurIPS2019】图变换网络:Graph Transformer Network
专知会员服务
112+阅读 · 2019年11月25日
AAAI 2022 | ProtGNN:自解释图神经网络
专知
10+阅读 · 2022年2月28日
【NeurIPS2019】图变换网络:Graph Transformer Network
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
17+阅读 · 2008年12月31日
VIP会员
相关VIP内容
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
17+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员