视觉推理需要多模态感知和对世界的常识认知。近期,有多个视觉-语言模型(VLMs)提出,它们在各个领域都表现出出色的常识推理能力。但如何利用这些互补的VLMs的集体能力却鲜有探讨。现有的方法,如集成,仍难以以期望的高阶通信来聚合这些模型。在这项工作中,我们提出了一种新的范例Cola,用于协调多个VLMs进行视觉推理。我们的关键见解是,大型语言模型(LLM)可以通过促进自然语言通信来有效地协调多个VLMs,利用它们的独特和互补能力。大量实验表明,我们的指令调整变体,Cola-FT,在视觉问题回答(VQA),外部知识VQA,视觉蕴涵和视觉空间推理任务上都达到了业界领先的性能。此外,我们证明,我们的上下文学习变种,Cola-Zero,在零和少样本设置中表现出竞争性的性能,无需微调。通过系统的消融研究和可视化,我们验证了协调器LLM确实理解了指令提示以及VLMs的单独功能;然后协调它们,实现了令人印象深刻的视觉推理能力。

成为VIP会员查看完整内容
26

相关内容

【NeurIPS2023】大型语言模型是零样本的时间序列预测者
专知会员服务
45+阅读 · 2023年10月13日
【CVPR2022】多视图聚合的大规模三维语义分割
专知会员服务
19+阅读 · 2022年4月20日
专知会员服务
14+阅读 · 2021年10月16日
专知会员服务
21+阅读 · 2021年10月8日
专知会员服务
18+阅读 · 2021年9月23日
专知会员服务
35+阅读 · 2021年6月3日
【NAACL2021】信息解缠正则化持续学习的文本分类
专知会员服务
21+阅读 · 2021年4月11日
【KDD2020】图神经网络生成式预训练
专知
20+阅读 · 2020年7月3日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
29+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
Arxiv
131+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
326+阅读 · 2023年3月31日
Arxiv
53+阅读 · 2023年3月26日
Arxiv
111+阅读 · 2023年3月24日
Arxiv
15+阅读 · 2023年3月17日
VIP会员
相关VIP内容
【NeurIPS2023】大型语言模型是零样本的时间序列预测者
专知会员服务
45+阅读 · 2023年10月13日
【CVPR2022】多视图聚合的大规模三维语义分割
专知会员服务
19+阅读 · 2022年4月20日
专知会员服务
14+阅读 · 2021年10月16日
专知会员服务
21+阅读 · 2021年10月8日
专知会员服务
18+阅读 · 2021年9月23日
专知会员服务
35+阅读 · 2021年6月3日
【NAACL2021】信息解缠正则化持续学习的文本分类
专知会员服务
21+阅读 · 2021年4月11日
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
29+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
微信扫码咨询专知VIP会员