近年来,大型语言模型(LLMs)在生成连贯且类人文本方面展现了卓越的能力,捕捉到了广泛的语言模式。将 LLM 的参数规模扩展至数十亿量级,显著增强了其通用性与适配性,使其能够在极少甚至无需额外微调的情况下处理新任务。这一进步为 LLM 在各领域的应用开辟了新可能性。然而,LLM 本质上是概率模型,这导致其可靠性面临不可避免的挑战。LLM 经常产生事实幻觉,在需要复杂推理的任务中表现不佳,有时还会表现出令人反感的行为特征。本论文探索了一系列创新的方法与框架,旨在应对这些挑战,目标是创建既能利用知识解决复杂推理任务,又能维护人类价值的人工智能(AI)系统。
为了缓解幻觉并增强推理能力,本论文首先推进了知识增强推理(Knowledge-augmented Reasoning)领域的研究。知识通常分布在不同来源并以多种格式呈现。为了利用异构知识,我们提出了 Chain-of-Knowledge (CoK) 框架。CoK 将非结构化文本、知识图谱和表格数据整合进渐进式修正的思维链中,从而提高了开放域问答中的事实一致性。考虑到成功解决问题还需要对检索进行策略性控制,我们提出了基于检索增强的批评者引导规划(CR-Planner)。该框架将生成模型与轻量级批评者网络结合,由后者决定何时、如何以及检索什么,并评估中间解决方案;该架构在结合了密集知识访问与复杂推理的任务(如竞赛编程、定理证明和复杂领域检索)中取得了显著提升。此外,LLM 幻觉的另一个重要来源在于时序推理(Temporal Reasoning)。目前的 LLM 经常误解日期和数值顺序。我们提出的 TempLogic 通过蒸馏时间相关上下文、提取结构化的事件-日期三元组并执行逻辑解释器来缓解这一弱点,从而生成一致且时序准确的回答。最后,**并行上下文学习(ParaICL)**将知识增强的主题扩展到了基于示例的信息。ParaICL 将少样本示例视为特定任务的“微知识”,按语义相似度对示例进行聚类,在可控的上下文窗口内处理每个簇,随后聚合部分概率分布。该设计使模型能够在不突破 Token 限制的情况下借鉴所有可用的外部示例,并持续提升在推理基准测试中的准确率。
提升 LLM 的推理能力仅是可靠性公式的一半;同样的系统在与用户交互时还必须表现得安全。传统的安全性检查集中在显性的毒性语句上,往往忽略了更深层的行为倾向。为了填补这一空白,我们设计了一个心理安全框架,利用经过验证的人格和心理健康量表对 LLM 进行探测。分析发现,在数个最先进的 LLM 中存在较高的“暗黑人格三项”(Dark-triad)特征,由此我们提出了一种轻量级的基于偏好的微调程序,显著减弱了这些特征。这种行为审计与缓解措施强调了安全性评估的必要性——即评估应从表层毒性延伸至模型的系统性行为模式。
综上所述,本论文解决了提升 LLM 推理能力与安全性这一双重挑战。虽然 LLM 展现了卓越的文本生成能力,但仍受困于幻觉、推理失败和不良行为特征。本研究贡献了多种知识增强推理的新型框架,包括整合异构知识源的 CoK、实现策略性检索控制的 CR-Planner、提升时序推理准确性的 TempLogic 以及基于示例推理的 ParaICL。除推理改进外,本工作还引入了心理安全框架,通过基于人格的评估和基于偏好的微调,识别并缓解了 LLM 中的问题行为模式。这些贡献共同推动了既具备智力能力又具备行为可信度的 AI 系统开发,解决了 LLM 的根本性可靠性问题。