本论文研究多模态基础模型如何通过上下文学习来增强其在视觉与语言之间的理解、生成与对齐能力。通过充分利用跨模态的上下文线索,我们提出了一系列方法,以提升多模态场景下模型的适应性与整体性能。 在第一章中,我们探讨了在冻结视觉与语言主干网络的条件下,如何从少样本示例中进行学习。我们提出了一种元学习框架,用于桥接视觉与语言两个模态,从而实现跨多模态少样本任务的快速适应与知识迁移。 第二章聚焦于上下文图像生成(in-context image generation)问题,并提出了 Context Diffusion——一种基于扩散模型的框架,能够直接从上下文中提供的视觉示例中进行学习。不同于以往高度依赖文本提示的方法,Context Diffusion 能够在给定视觉输入、文本输入或二者结合的情况下,生成高质量且与上下文高度一致的图像。 在第三章中,我们研究了以 CLIP 为代表的对比式视觉—语言模型及其对固定上下文长度的依赖问题。为此,我们提出了 TULIP 方法,该方法通过引入相对位置编码,并从原始 CLIP 文本编码器中进行知识蒸馏,使模型能够处理任意长度的文本描述。这一改进在长文本检索和图像生成任务中带来了显著性能提升。 最后一章探讨了长文本生成问题,重点关注医学影像报告的自动生成。我们提出了**变分主题推断(variational topic inference)**框架,用于建模句子层面的主题多样性,从而生成连贯、上下文一致、并与图像语义高度对齐的医学影像报告。 总体而言,本论文的研究工作系统性地推进了多模态基础模型的上下文学习能力,使其在跨模态理解、生成与表达方面表现得更加准确、灵活且一致。

视觉、语言与上下文

人类智能的一个决定性特征在于其对不同上下文的适应能力。这一能力的核心在于:我们能够调动过往的观察经验,并将其与新的输入相联系,从而理解和解释周围的世界。通过从过去的观察中学习,人类不断构建起一个知识储备体系,支撑着从在新环境中识别模式,到推断未知概念之间关系等多种任务。例如,我们可以通过将陌生物体与此前见过的相似物体进行关联,从而识别该物体;我们也能够借助上下文线索,将熟悉的纹理、颜色和形态进行组合,想象出全新的视觉景观,如奇幻的自然场景。这种从给定上下文中学习、适应并生成新认知的能力,是人类创造力与问题求解能力的重要基础。 视觉与语言在人类智能中尤为关键,它们构成了我们感知世界和与他人交流的主要通道。视觉使我们能够通过解析空间关系、视觉线索和物体来获取物理世界的信息;语言则提供了一种表达和交流这些理解的媒介。二者相互配合,使我们能够高效地学习、推理和共享信息。具体而言,我们依赖视觉来识别物体和场景,并借助语言为这些观察赋予语义。例如,一个孩子在学习“自行车”这一新词时,可能会通过视觉观察该物体的车轮、车架和运动方式,并将这些感知与听到或看到的词语相联系,从而将概念及其语言标签共同嵌入记忆之中。类似地,在学习烹饪等新技能时,我们会将对切菜、翻炒等操作的视觉观察,与菜谱中基于语言的指导相结合。在导航过程中,我们依靠视觉来解读路标、规则和地标,而语言则帮助我们理解诸如“在科学园左转”这样的书面指令。视觉与语言的交互同样有助于理解抽象概念:学生可能通过图示或动画对科学现象形成直观认知,同时借助文字说明理解其背后的原理。上述实例凸显了视觉与语言之间的协同作用,使人类能够更加高效地学习,并对世界形成更为深刻的理解。 人工智能(AI)的目标在于复现并扩展人类的学习能力。近年来,AI 的快速发展主要得益于基础模型(foundation models)的出现——这一术语通常指规模庞大、经过预训练、能够理解和生成多种内容的模型(Achiam et al., 2023;Chowdhery et al., 2022;Dubey et al., 2024;Gemini Team, 2023;Gemma Team, 2024)。其中,大语言模型(LLMs)引领了这一进展,它们在文本生成、问答和复杂推理任务中展现出卓越能力。ChatGPT(Schulman et al., 2022)、LLaMA(Dubey et al., 2024)、Mistral(Jiang et al., 2023)、PaLM(Chowdhery et al., 2022)以及 Claude(Anthropic, 2024)等模型,作为对话式人工智能系统,能够回答问题、辅助创意任务,并为编程问题生成代码片段。大语言模型的成功激发了将类似方法扩展至视觉领域的研究兴趣,从而催生了多模态基础模型。 此类模型的代表包括 Flamingo(Alayrac et al., 2022)、LLaVA(Liu et al., 2023)、GPT 系列模型(Achiam et al., 2023)以及 Gemini(Gemini Team, 2023)。它们能够理解图像并执行图像描述、视觉问答等任务,因而非常适合图像到文本的生成场景。与此同时,另一类基础模型,如 DALL·E(Ramesh et al., 2021)、Imagen(Saharia et al., 2022)和 Stable Diffusion(Rombach et al., 2022),则关注相反的生成过程,即从文本描述生成图像。这些模型将文本提示转化为视觉逼真的图像,为创意内容生成、设计和可视化等多个领域开辟了新的可能性。此外,多模态基础模型还扩展到学习图像与文本之间的对齐表示。CLIP(Radford et al., 2021b)和 ALIGN(Jia et al., 2021)等模型通过对比学习的方式,从图文配对数据中学习这种对齐关系,从而在无需任务特定训练的情况下,实现基于文本描述的图像分类或检索。图 1.1 展示了基础模型的整体层级结构,突出了它们在输入模态和输出形式上的异同。这些多模态基础模型的进展,使人工智能在视觉与语言的无缝融合方面更进一步,朝着更接近人类的理解与交互能力迈进。 多模态基础模型的构建需要海量数据和强大的计算资源,以学习适用于下游任务的通用表示。这类模型通常在大规模图像与文本数据集上进行训练,从而捕捉数据中复杂的模式和关系。为了以更具人类特征、更加灵活的方式运行,这些模型必须学会理解并适应上下文线索。在这一意义上,上下文可以呈现多种形式。例如,上下文可以指训练阶段未出现过的物体示例图像,以及与这些图像相关的文本描述,并要求模型在不同场景中识别该物体;上下文也可以包含任务示范,如展示如何将图像与描述配对,或如何在不同语言之间进行翻译。再如,上下文可能包括关于某种此前未见过的水果的图像—文本配对,要求模型在新环境中对该水果进行识别或描述。上下文甚至还可以涉及先前的交互信息,例如对话历史,这有助于模型生成更加相关且连贯的响应。 这种从上下文中学习的能力,与人类在日常生活中的学习与适应方式高度一致——即从有限样本中进行泛化,并将已有知识迁移到新的、未见过的情境中。基于此,本论文系统性地探讨了多模态基础模型如何有效地实现上下文学习

成为VIP会员查看完整内容
1

相关内容

【博士论文】半结构化表格数据上的信息检索
专知会员服务
21+阅读 · 9月7日
【ETZH博士论文】深度神经网络的数学理解
专知会员服务
35+阅读 · 4月27日
【ETHZ博士论文】金融网络与图学习的其他探索
专知会员服务
19+阅读 · 1月22日
【博士论文】学习对象和关系的结构化表示
专知会员服务
31+阅读 · 2024年10月14日
专知会员服务
67+阅读 · 2021年10月15日
多模态情绪识别研究综述
专知
24+阅读 · 2020年12月21日
深度多模态表示学习综述论文,22页pdf
专知
33+阅读 · 2020年6月21日
多模态多任务学习新论文
专知
46+阅读 · 2019年2月9日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
37+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
16+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
Arxiv
174+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
494+阅读 · 2023年3月31日
Arxiv
81+阅读 · 2023年3月26日
Arxiv
179+阅读 · 2023年3月24日
Arxiv
25+阅读 · 2023年3月17日
VIP会员
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
37+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
16+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
微信扫码咨询专知VIP会员