Reasoning goes beyond language; the real world requires reasoning about space, time, affordances, and much more that words alone cannot convey. Existing multimodal models exploring the potential of reasoning with images are brittle and do not scale. They rely on calling specialist tools, costly generation of images, or handcrafted reasoning data to switch between text and image thoughts. Instead, we offer a simpler alternative -- Mull-Tokens -- modality-agnostic latent tokens pre-trained to hold intermediate information in either image or text modalities to let the model think free-form towards the correct answer. We investigate best practices to train Mull-Tokens inspired by latent reasoning frameworks. We first train Mull-Tokens using supervision from interleaved text-image traces, and then fine-tune without any supervision by only using the final answers. Across four challenging spatial reasoning benchmarks involving tasks such as solving puzzles and taking different perspectives, we demonstrate that Mull-Tokens improve upon several baselines utilizing text-only reasoning or interleaved image-text reasoning, achieving a +3% average improvement and up to +16% on a puzzle solving reasoning-heavy split compared to our strongest baseline. Adding to conversations around challenges in grounding textual and visual reasoning, Mull-Tokens offers a simple solution to abstractly think in multiple modalities.


翻译:推理不仅限于语言;现实世界需要对空间、时间、可供性以及仅凭文字无法传达的更多内容进行推理。现有探索图像推理潜力的多模态模型脆弱且难以扩展。它们依赖于调用专业工具、昂贵的图像生成或手工制作的推理数据来在文本与图像思维之间切换。相反,我们提出了一种更简单的替代方案——Mull-Tokens——这是一种模态无关的潜在令牌,经过预训练后可在图像或文本模态中保存中间信息,使模型能够自由思考以得出正确答案。我们研究了受潜在推理框架启发的训练Mull-Tokens的最佳实践。首先,我们使用交错文本-图像轨迹的监督来训练Mull-Tokens,然后仅利用最终答案进行无监督微调。在四个涉及解谜和视角转换等任务的挑战性空间推理基准测试中,我们证明Mull-Tokens优于多个仅使用文本推理或交错图像-文本推理的基线方法,平均提升+3%,在推理密集的谜题解决子任务上相比最强基线最高提升+16%。围绕文本与视觉推理的落地挑战,Mull-Tokens为跨模态抽象思考提供了一种简洁的解决方案。

0
下载
关闭预览

相关内容

【ICML2022】知识图谱上逻辑查询的神经符号模型
专知会员服务
28+阅读 · 2022年5月25日
UTC: 用于视觉对话的任务间对比学习的统一Transformer
专知会员服务
14+阅读 · 2022年5月4日
AAAI 2022 | ProtGNN:自解释图神经网络
专知
10+阅读 · 2022年2月28日
误差反向传播——CNN
统计学习与视觉计算组
30+阅读 · 2018年7月12日
MNIST入门:贝叶斯方法
Python程序员
23+阅读 · 2017年7月3日
国家自然科学基金
17+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
VIP会员
相关VIP内容
相关资讯
AAAI 2022 | ProtGNN:自解释图神经网络
专知
10+阅读 · 2022年2月28日
误差反向传播——CNN
统计学习与视觉计算组
30+阅读 · 2018年7月12日
MNIST入门:贝叶斯方法
Python程序员
23+阅读 · 2017年7月3日
相关基金
国家自然科学基金
17+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员