本综述全面分析了多模态大型语言模型(MLLMs)——亦称为大型视觉语言模型(LVLMs)——中的幻觉现象。这些模型在多模态任务中展示了显著的进步和非凡的能力。尽管这些发展充满希望,MLLMs常常生成与视觉内容不一致的输出,这一挑战被称为幻觉,它对模型的实际部署构成了重大障碍,并引起了对其在现实世界应用中可靠性的关注。这个问题日益受到关注,促使人们努力检测和缓解这种不准确性。我们回顾了近期在识别、评估和缓解幻觉方面的进展,提供了关于幻觉成因、评估基准、度量和应对策略的详尽概览。此外,我们还分析了当前的挑战和限制,并提出了开放性问题,勾勒出未来研究的潜在途径。通过对幻觉成因、评估基准和缓解方法进行细致的分类和概述,本综述旨在加深对MLLMs中幻觉的理解,并激发该领域的进一步发展。通过我们彻底和深入的审查,我们为加强MLLMs的鲁棒性和可靠性的持续对话做出了贡献,为研究人员和实践者提供了宝贵的见解和资源。资源可在以下网址获取:https://github.com/showlab/Awesome-MLLM-Hallucination.

** 引言**

近年来,大型语言模型(LLMs)[29, 81, 85, 99, 132]在自然语言处理(NLP)的广泛任务中占据了主导地位,实现了语言理解[39, 47]、生成[128, 140]和推理[20, 58, 87, 107, 115]方面的前所未有的进展。借助强大的LLMs能力,多模态大型语言模型(MLLMs)[22, 75, 111, 138],有时被称为大型视觉语言模型(LVLMs),正在吸引越来越多的关注。MLLMs在多模态任务中表现出有希望的能力,如图像标题生成[66]、视觉问题回答[22, 75]等。然而,随着MLLMs的快速进展,这些模型倾向于生成幻觉[69, 76, 137],产生看似合理但实际上是虚假的内容,这一趋势令人关注。

幻觉问题起源于LLMs本身。在NLP领域,幻觉问题被实证地分为两类[44]:1) 真实性幻觉,强调生成内容与可验证的现实世界事实之间的差异,通常表现为事实不一致或捏造;2) 忠实性幻觉,指生成内容与用户指令或输入提供的上下文的偏离,以及生成内容内部的自洽性。与纯LLMs相比,MLLMs中的幻觉研究主要集中在生成文本响应与提供的视觉内容之间的差异[69, 76, 137],即跨模态不一致。这种差异表明,LLMs的研究成果不能简单地转移到MLLMs上。因此,全面调查MLLMs中幻觉现象的最新进展,以激发新思想并促进该领域的发展,是迫切需要的。

在计算机视觉领域,对象识别是核心任务,包括子任务如对象分类[60]、检测[27]和分割[37]等。同样,MLLMs中的幻觉研究主要集中在对象幻觉上。在MLLMs时代之前,有一项关于图像标题生成中对象幻觉的开创性工作[90],通过比较标题和图像内容评估对象存在性。在MLLMs中,对象幻觉被实证地分为三类:1) 类别,识别给定图像中不存在或错误的对象类别;2) 属性,强调对象的属性描述,如颜色、形状、材料等;3) 关系,评估对象之间的关系,如人与对象的互动或相对位置。需要注意的是,一些文献可能将对象计数、对象事件等视为独立的幻觉类别;然而,在本工作中,我们将它们归入属性类别。

由于LLMs中幻觉的根本原因已有众多研究,因此,前沿MLLMs所面临的独特挑战需要进行深入调查。我们的分析专门针对MLLMs中幻觉的独特起源,涵盖了从数据、模型、训练到推理阶段的一系列贡献因素。此外,我们提供了专门为评估MLLMs中幻觉而设计的基准和度量的全面概述。然后,我们回顾和讨论了针对识别原因量身定做的缓解幻觉问题的最新工作。

通过我们的全面综述,我们旨在促进MLLMs领域的发展,并提供有价值的见解,加深对MLLMs中幻觉相关机会和挑战的理解。这种探索不仅增强了我们对当前MLLMs局限性的理解,还为未来研究和开发更加稳健和可靠的MLLMs提供了重要的指导。

与现有综述的比较。在追求可靠的生成性AI方面,幻觉作为一个主要挑战,已经引发了一系列关于其最新进展的综述论文。对于纯LLMs,已有几篇综述[44, 129],描述了LLMs中幻觉的格局。相比之下,关于MLLMs领域的幻觉的综述非常少。据我们所知,目前只有一项与我们同时进行的短期综述[76],探讨了LVLMs的幻觉问题。然而,我们的综述在分类和范围上都有所不同。我们呈现了一种分层且细致的幻觉分类,如图1所示,清晰地描绘了这一领域的格局。此外,我们的方法不仅限于[76]中规定的特定模型架构,而是通过追溯各种影响因素,分析幻觉的成因。我们涵盖了更广泛的文献,无论是在论文数量还是分类结构上。此外,我们的缓解策略与潜在原因紧密相关,确保了一种连贯和有针对性的方法。

本综述的组织。在本文中,我们呈现了关于MLLMs中幻觉最新发展的全面综述。综述的组织如下:我们首先提供足够的背景并定义与LLMs、MLLMs、幻觉等相关的概念。接下来,我们深入分析导致MLLMs中幻觉的各种因素。在此之后,我们展示了用于评估MLLMs中幻觉的一组度量和基准。然后,我们详细介绍了一系列旨在缓解MLLMs中幻觉的方法。最后,我们深入探讨了当前限制和未来前景的挑战和开放问题,提供见解并勾画出即将到来的研究路径。

数据

数据是MLLMs的基础,使它们能够获得跨模态理解和遵循指令的能力。然而,数据也可能无意中成为MLLMs幻觉的来源。这主要表现在三个方面:数量、质量和统计偏差。 1.1 数量。深度学习模型对数据的需求很大,特别是像MLLMs这样的大模型。数据量在构建稳健和可靠的MLLMs中扮演着重要角色。目前,图像-文本配对数据集[92]和视觉QA数据[48, 80]被用于训练MLLMs。尽管这些数据集通常比计算机视觉中的典型数据集大,但在数量上仍远不及用于训练LLMs的纯文本数据。数据不足可能导致问题多模态对齐,从而产生幻觉[96, 103]。 1.2 质量。鉴于对大规模训练数据的需求日益增加,启发式数据收集方法被用来高效地收集大量数据。虽然这些方法提供了大量数据,但它们并不保证数据质量,从而增加了幻觉的风险。与幻觉相关的数据质量可以进一步分为以下三个方面。

噪声数据。如定义部分所述,训练MLLMs涉及两个阶段。预训练阶段使用从网络上爬取的图像-文本对,这些数据样本可能不准确、未对齐或损坏。噪声数据将限制跨模态特征对齐[117, 120],这是MLLMs的基础。至于指令调整数据,流行的方法如LLaVA[75]使用先进的GPT-4[82]模型生成指令。然而,ChatGPT是一个不能解释视觉内容的语言模型,导致噪声数据的风险。此外,语言模型本身就存在幻觉问题[44],进一步增加了风险。LLaVA-1.5[74]加入了人工注释的QA数据进入指令遵循,显示了改进的结果,揭示了噪声数据的影响。

缺乏多样性。最近的研究[73, 117]显示,数据的多样性也起着至关重要的作用。对于两个训练阶段使用的数据,指令调整数据更可能有这个问题,因为它通常数量较少。一个显著的特点是,大多数遵循指令的数据样本都是关于图像内容的对话。我们将这种类型的数据视为正向指令,因为它总是忠实地反映图像内容。相比之下,负向指令数据[73]和拒绝回答响应[11]在数据集中很少。鉴于这样的训练数据,最近的研究[69, 73]观察到的一个潜在缺点是,当前模型倾向于对呈现给模型的任何指令回答“是”,即使正确的答案应该是“否”,导致幻觉。这种现象表明了数据多样性的影响。

详细描述(开放问题)。文本描述的细节程度对这一问题的影响仍是一个开放问题。如2.2节所讨论,预训练数据中的文本,如LAION[92],通常描述突出对象的总体内容。而在指令调整阶段的文本,如LLaVA-150k[75],包含更详细的描述。这个LLaVA-150k数据集是基于视觉模型识别的对象由GPT-4生成的。最近的一项研究[16]认为,在训练数据中,与对象位置、属性和非突出对象相关的详细描述通常缺失。这种属性导致跨模态对齐不完整,剥夺了模型的基础能力[62, 126]。然而,另一项研究[120]假设指令调整数据中的文本描述包含过多细节,超过了MLLMs的感知限制。当使用这种详细数据进行训练时,模型可能会试图匹配真实标注标题的细节程度和长度分布,从而冒险表达它无法从图像中辨识的细节,因此展现出幻觉。训练数据的细节水平仍是一个开放问题。

1.3 统计偏差。如[23]所述,神经网络,特别是大型语言模型,具有记忆训练数据的内在倾向。训练数据集中名词(如对象)的分布对模型的行为有强烈的影响。经常出现的对象和对象共现是两种显著的统计偏差类型,如[69, 90, 137]所讨论。例如,‘人’可能是训练数据中出现最频繁的对象之一。在推理过程中,即使给定的图像中不包含人,模型仍然倾向于预测存在人。另一方面,对象共现是指模型会记住哪两个对象通常“一起出现”的现象[90]。例如,给定一个带有冰箱的厨房图像,当询问微波炉时,MLLMs倾向于回答‘是’,因为在厨房场景中冰箱和微波炉经常一起出现。大多数数据集都存在偏见。增加数据规模可能缓解这一影响,但鉴于现实世界的长尾分布,它无法完全解决。

2 模型

目前,流行的MLLMs的架构通常包括几个组件,通常包括预训练的视觉模型、预训练的LLM和如上所述的对齐模块。由于这些模型是连接在一起的,而不是从头开始进行端到端训练,每个模块的错误都可能累积。每个模块的不良和有问题的输出可能导致幻觉。

弱视觉模型。如相关工作[31, 90, 103]所述,幻觉的一个主要潜在原因是视觉模型弱,这可能导致视觉概念的误分类或误解。即使是最强大的视觉模型在编码过程中也可能仍会经历信息丢失。弱视觉模型意味着感知能力弱,这从根本上破坏了多模态理解。

语言模型先验。现代MLLMs的架构是不平衡的。通常,语言模型比视觉模型大得多,也强得多,导致倾向于优先考虑基于语言的信息[31, 63, 64, 73, 90]。一个典型的现象是,语言模型中蕴含的知识,也称为参数知识,可以覆盖视觉内容。例如,给定一个显示红色香蕉的图像,这在现实世界中是违反直觉的,一个MLLM可能仍然回应“黄色香蕉”,因为“香蕉是黄色的”是LLM中根深蒂固的知识。这种语言/知识先验使模型忽视视觉内容并响应幻觉。

弱对齐界面。对齐界面在MLLMs中扮演着至关重要的角色,因为它充当两种模态之间的桥梁。一个弱的对齐界面很容易导致幻觉。一个弱对齐界面的潜在原因是数据,如前面章节所讨论的。除此之外,界面架构本身和训练损失设计也很重要[52, 77, 123]。最近的研究[52]认为,类似LLaVA的线性投影界面保留了大部分信息,但缺乏对投影特征的监督。[52]中的可视化显示,投影层后的特征与语言嵌入仍然不同。分布差异导致跨模态交互出现问题,导致幻觉。另一方面,类似Q-former[66]的架构对提取的视觉特征有多样化的监督,将其与语言嵌入空间对齐。然而,可学习查询的使用不可避免地导致细粒度视觉信息的丢失。

3 训练

MLLMs的训练目标基本上与LLMs相同,即自回归下一个令牌预测损失。这种损失方法直接而有效,且易于扩展,表现出在语言建模中的良好性能。然而,MLLMs领域的一些研究表明,由于视觉内容的复杂空间结构,下一个令牌预测损失可能不适合学习视觉内容[5, 16]。此外,这种损失在令牌级别进行优化,而缺乏序列级别的监督[5]。另一个观点是,与训练LLMs不同,训练MLLMs的程序中缺少RLHF阶段[96, 119],成为幻觉的潜在原因。

4 推理

就推理而言,一些工作也指出自回归生成中存在潜在问题。在生成过程中,随着序列长度的增加,自注意力将更多地聚焦于之前生成的文本令牌,即视觉内容的注意力被稀释[45, 102-104]。通过在生成期间可视化注意力图[45, 104],可以观察到生成内容更多地关注之前的特殊令牌,如标点符号,而不是视觉内容令牌。'失去注意力'的问题也会导致模型的输出响应与视觉内容无关。

结论

基于强大的大型语言模型,多模态大型语言模型在各种多模态任务中表现出卓越的性能。然而,幻觉现象对MLLMs的实际应用提出了重大挑战,引发了关于安全性、可靠性和信任度的不可否认的担忧。在这篇全面的综述中,我们对多模态大型语言模型中的幻觉进行了彻底的检查,重点关注其潜在原因、评估指标、基准和缓解方法。尽管取得了相当的进展,幻觉仍然是一个复杂且持续的问题,需要持续的研究。多模态大型语言模型中的幻觉挑战仍然引人注目,需要持续的审视和创新。鉴于这些挑战,我们在这个新兴领域概述了几个有希望的未来发展方向。通过导航幻觉的复杂景观,我们希望这篇综述能成为解决MLLMs中幻觉现象复杂性的基础资源。我们设想这篇综述能激励研究人员和实践者致力于推进研究和在这一关键研究领域开发稳健的解决方案。

成为VIP会员查看完整内容
29

相关内容

《模型量化与视觉变换器硬件加速》综述
专知会员服务
18+阅读 · 5月5日
《大型语言模型持续学习》综述
专知会员服务
48+阅读 · 4月26日
《图强化学习在组合优化中的应用》综述
专知会员服务
48+阅读 · 4月10日
《多模态大型语言模型进化》最新综述
专知会员服务
77+阅读 · 2月23日
《基础模型在现实世界机器人应用》综述
专知会员服务
44+阅读 · 2月11日
《大型视觉语言模型中的幻觉现象》综述
专知会员服务
46+阅读 · 2月2日
《多模态大模型少样本自适应》综述
专知会员服务
79+阅读 · 1月4日
《大型语言模型归因》综述
专知会员服务
66+阅读 · 2023年11月8日
多模态视觉语言表征学习研究综述
专知
25+阅读 · 2020年12月3日
【干货书】计算机科学离散数学,627页pdf
专知
54+阅读 · 2020年8月31日
【KDD2020】图神经网络:基础与应用,322页ppt
多模态深度学习综述,18页pdf
专知
45+阅读 · 2020年3月29日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Arxiv
133+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
326+阅读 · 2023年3月31日
Arxiv
56+阅读 · 2023年3月26日
Arxiv
16+阅读 · 2023年3月17日
VIP会员
相关VIP内容
《模型量化与视觉变换器硬件加速》综述
专知会员服务
18+阅读 · 5月5日
《大型语言模型持续学习》综述
专知会员服务
48+阅读 · 4月26日
《图强化学习在组合优化中的应用》综述
专知会员服务
48+阅读 · 4月10日
《多模态大型语言模型进化》最新综述
专知会员服务
77+阅读 · 2月23日
《基础模型在现实世界机器人应用》综述
专知会员服务
44+阅读 · 2月11日
《大型视觉语言模型中的幻觉现象》综述
专知会员服务
46+阅读 · 2月2日
《多模态大模型少样本自适应》综述
专知会员服务
79+阅读 · 1月4日
《大型语言模型归因》综述
专知会员服务
66+阅读 · 2023年11月8日
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
微信扫码咨询专知VIP会员