【NeurIPS2023】大型语言模型是视觉推理协调器 - 专知VIP

会员服务 ·

14

NeurIPS 2023 · 大型语言模型 · 视觉推理 ·

2023 年 10 月 24 日

【NeurIPS2023】大型语言模型是视觉推理协调器

专知会员服务

专知，提供专业可信的知识分发服务，让认知协作更快更好！

视觉推理需要多模态感知和对世界的常识认知。近期，有多个视觉-语言模型（VLMs）提出，它们在各个领域都表现出出色的常识推理能力。但如何利用这些互补的VLMs的集体能力却鲜有探讨。现有的方法，如集成，仍难以以期望的高阶通信来聚合这些模型。在这项工作中，我们提出了一种新的范例Cola，用于协调多个VLMs进行视觉推理。我们的关键见解是，大型语言模型（LLM）可以通过促进自然语言通信来有效地协调多个VLMs，利用它们的独特和互补能力。大量实验表明，我们的指令调整变体，Cola-FT，在视觉问题回答（VQA），外部知识VQA，视觉蕴涵和视觉空间推理任务上都达到了业界领先的性能。此外，我们证明，我们的上下文学习变种，Cola-Zero，在零和少样本设置中表现出竞争性的性能，无需微调。通过系统的消融研究和可视化，我们验证了协调器LLM确实理解了指令提示以及VLMs的单独功能；然后协调它们，实现了令人印象深刻的视觉推理能力。

成为VIP会员查看完整内容

30

相关内容

NeurIPS 2023

【NeurIPS2023】大型语言模型是零样本的时间序列预测者

【NeurIPS2023】大型语言模型是零样本的时间序列预测者

专知会员服务

47+阅读 · 2023年10月13日

【NeurIPS2021】神经解释器的动态推理

专知会员服务

15+阅读 · 2021年10月16日

【ACMMM2021】问题控制的文本感知图像描述生成

专知会员服务

19+阅读 · 2021年9月23日

【ICML2021】数据表示的几何评估

专知会员服务

38+阅读 · 2021年6月3日

【KDD2020】XGNN-可解释图神经网络，从模型级解释构建可信赖GNN

【KDD2020】XGNN-可解释图神经网络，从模型级解释构建可信赖GNN

专知会员服务

134+阅读 · 2020年6月7日

【CVPR2023】基于图像特定提示学习的零样本生成模型自适应

【CVPR2023】基于图像特定提示学习的零样本生成模型自适应

专知

5+阅读 · 2023年4月8日

【CVPR2023】自异构融合知识挖掘的长尾视觉识别

【CVPR2023】自异构融合知识挖掘的长尾视觉识别

专知

5+阅读 · 2023年4月6日

【KDD2020】图神经网络生成式预训练

【KDD2020】图神经网络生成式预训练

专知

23+阅读 · 2020年7月3日

【KDD2020】XGNN-可解释图神经网络，从模型级解释构建可信赖GNN

【KDD2020】XGNN-可解释图神经网络，从模型级解释构建可信赖GNN

专知

17+阅读 · 2020年6月7日

【CVPR2020-牛津-谷歌】语音到动作:动作识别的跨模态监督，Cross-modal Supervision

【CVPR2020-牛津-谷歌】语音到动作:动作识别的跨模态监督，Cross-modal Supervision

专知

10+阅读 · 2020年3月31日

基于三重态激子和稀土离子间能量传递的量子剪裁

国家自然科学基金

0+阅读 · 2015年12月31日

基于支撑函数的不规则形态扩展目标建模和估计研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于自主学习的Ad hoc Agent序贯决策研究

国家自然科学基金

46+阅读 · 2015年12月31日

基于决策模型和预备电位的运动想象BCI研究

国家自然科学基金

3+阅读 · 2015年12月31日

复杂多元数据的半参数统计推断

国家自然科学基金

5+阅读 · 2014年12月31日

Is ChatGPT a Good Recommender? A Preliminary Study

Arxiv

174+阅读 · 2023年4月20日

A Comprehensive Survey on Deep Graph Representation Learning

Arxiv

106+阅读 · 2023年4月11日

On Efficient Training of Large-Scale Deep Learning Models: A Literature Review

Arxiv

224+阅读 · 2023年4月7日

A Survey of Large Language Models

A Survey of Large Language Models

Arxiv

494+阅读 · 2023年3月31日

Nature Language Reasoning, A Survey

Arxiv

81+阅读 · 2023年3月26日

VIP会员

相关主题

大型语言模型

相关VIP内容

【NeurIPS2023】大型语言模型是零样本的时间序列预测者

【NeurIPS2023】大型语言模型是零样本的时间序列预测者

专知会员服务

47+阅读 · 2023年10月13日

【NeurIPS2021】神经解释器的动态推理

专知会员服务

15+阅读 · 2021年10月16日

【ACMMM2021】问题控制的文本感知图像描述生成

专知会员服务

19+阅读 · 2021年9月23日

【ICML2021】数据表示的几何评估

专知会员服务

38+阅读 · 2021年6月3日

【KDD2020】XGNN-可解释图神经网络，从模型级解释构建可信赖GNN

【KDD2020】XGNN-可解释图神经网络，从模型级解释构建可信赖GNN

专知会员服务

134+阅读 · 2020年6月7日

热门VIP内容

开通专知VIP会员享更多权益服务

前沿人工智能趋势报告（Frontier AI Trends Report）

【AAAI2026】善始则事半功倍：基于前缀优化的大语言模型推理强化学习

Andrej Karpathy：2025 年 LLM 年度回顾（2025 LLM Year in Review）

音退化问题：基于输入操控的鲁棒语音转换综述

相关资讯

【CVPR2023】基于图像特定提示学习的零样本生成模型自适应

【CVPR2023】基于图像特定提示学习的零样本生成模型自适应

专知

5+阅读 · 2023年4月8日

【CVPR2023】自异构融合知识挖掘的长尾视觉识别

【CVPR2023】自异构融合知识挖掘的长尾视觉识别

专知

5+阅读 · 2023年4月6日

【KDD2020】图神经网络生成式预训练

【KDD2020】图神经网络生成式预训练

专知

23+阅读 · 2020年7月3日

【KDD2020】XGNN-可解释图神经网络，从模型级解释构建可信赖GNN

【KDD2020】XGNN-可解释图神经网络，从模型级解释构建可信赖GNN

专知

17+阅读 · 2020年6月7日

【CVPR2020-牛津-谷歌】语音到动作:动作识别的跨模态监督，Cross-modal Supervision

【CVPR2020-牛津-谷歌】语音到动作:动作识别的跨模态监督，Cross-modal Supervision

专知

10+阅读 · 2020年3月31日

相关基金

基于三重态激子和稀土离子间能量传递的量子剪裁

国家自然科学基金

0+阅读 · 2015年12月31日

基于支撑函数的不规则形态扩展目标建模和估计研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于自主学习的Ad hoc Agent序贯决策研究

国家自然科学基金

46+阅读 · 2015年12月31日

基于决策模型和预备电位的运动想象BCI研究

国家自然科学基金

3+阅读 · 2015年12月31日

复杂多元数据的半参数统计推断

国家自然科学基金

5+阅读 · 2014年12月31日

相关论文

Is ChatGPT a Good Recommender? A Preliminary Study

Arxiv

174+阅读 · 2023年4月20日

A Comprehensive Survey on Deep Graph Representation Learning

Arxiv

106+阅读 · 2023年4月11日

On Efficient Training of Large-Scale Deep Learning Models: A Literature Review

Arxiv

224+阅读 · 2023年4月7日

A Survey of Large Language Models

A Survey of Large Language Models

Arxiv

494+阅读 · 2023年3月31日

Nature Language Reasoning, A Survey

Arxiv

81+阅读 · 2023年3月26日

微信扫码咨询专知VIP会员