大语言模型(LLM)构成了自然语言处理与人工智能领域的范式转变。本文探索将创造力整合到人工智能系统中,以增强其与人类的交互。论述了使人工智能具备理解和生成超越字面意义、捕捉人类艺术与对话微妙之处的内容能力的必要性。为解决当前最先进人工智能模型在创造力方面的局限,本论文首先提出了一种开发无监督或弱监督机器学习模型的方法,该模型融入了隐性/常识知识。此方法通过利用外部常识知识源,实现创造性文本内容(如讽刺与隐喻)的生成。此外,讨论了为创造性任务训练人工智能而收集大规模高质量数据集的挑战,并提出了人类专家与最先进模型之间的协作努力以克服这些障碍。最后,倡导以人为中心的稳健评估方案,并展示了如何设计和开发此类方案,以便能在独立和交互式两种设置中更好地评估模型输出的创造力质量。强调现有模型的当前局限以及构建更优模型以实现高效可信的人机协作系统的未来方向作为本论文的结束。
人类交流的很大部分涉及语言或视觉的创造性运用。要开发能与人类无缝交互的人工智能系统,需要为这些系统配备创造能力。这意味着要将理解和生成超越字面意义的内容、拥抱人类艺术和对话所特有的细微差别和微妙之处的能力融入人工智能。为人工智能配备此类能力将使这些系统能更好地理解人类情感、意图及交流背后的语境。
将创造力融入人工智能系统能为众多领域带来积极变革(Anantrasirichai and Bull 2022; Amato et al. 2019)。人工智能驱动的创意助手可以教学生更擅长批判性思维(Ibna Seraj, Oteir, et al. 2022)并发展更好的写作技能(Fitria 2021; Gayed et al. 2022; Zhao 2023)。研究人员展示了科学作家如何常用延伸的隐喻和明喻,以更易于理解的方式向更广泛的受众传达陌生概念(Kim et al. 2023)。因此,通过使人工智能模型更具创造性,可以改进科学传播(Biyela et al. 2024)。生成式人工智能有潜力通过为设计师和艺术家提供新工具、灵感和能力,显著增强设计与创造力(Chung and Adar 2023; Chang et al. 2023; Tseng, Cheng, and Nichols 2024; Liu et al. 2023c; Liu et al. 2023b)。最后,人工智能驱动的创意技术能推动娱乐业的重大创新,尤其是在电影和叙事领域(Smith et al. 2017; Fu and Houlette 2002; Mirowski et al. 2023)。诸如幽默、明喻、讽刺、隐喻或习语等创造性文本常带有文化内涵。通过推进能够理解或创作此类创造性文本的计算模型,增强了社会技术系统促进更细致、具有文化意识的交流的能力,从而塑造和引导社会互动与体验。
近年来,在生成类人文本(使用大语言模型或LLM)和逼真图像(使用基于文本到图像的扩散模型)方面取得了实质性进展。由于其训练目标是最大化互联网上人类书写文本的概率或使图像与其标题匹配,而其中大部分是字面意义的——它们在生成创造性内容方面能力有限。
当今的人工智能系统令人印象深刻,但往往缺乏对世界和日常概念的推理能力,这使得创造力变得困难。特别是对于创造力而言,常识知识是一个基础支架,真正具有发明性和影响力的偏离可以从中产生。要生成讽刺或幽默(例如,“我的邻居在深夜争吵对我的耳朵来说是舒缓的”),常常颠覆常识预期,即深夜争吵是破坏性和令人不快的,因此不可能对耳朵是舒缓的。我们需要常识知识来生成高质量的隐喻(文本或视觉)。例如,要生成一个明喻“有时命运就像一场小沙尘暴”,我们需要理解沙尘暴的常识属性(不断改变方向),以确保输出是有意义或能引起共鸣的,而非完全随意。为解决上述挑战,在论文的第一章,我们讨论了如何通过为模型配备隐性/常识知识来构建用于创造力的无监督/弱监督机器学习模型。特别地,我们展示了如何将来自外部源的常识知识注入预训练语言模型,以生成比喻性语言,如讽刺、明喻和隐喻。
当前的文本/图像生成方法需要大量训练数据进行监督。然而,由于招募熟练标注员的时间和成本,为创造性任务收集大规模语料库通常很困难。为应对上述挑战,在第二章,我们展示了人类专家如何与最先进模型协作,以扩展高质量数据集,而仅依靠众包工作者或专家收集这些数据集将变得具有挑战性。特别地,我们展示了专家如何与最先进模型协作,以扩展用于比喻性语言理解和可解释性的高质量基准。我们还利用当前大语言模型和文本到图像模型的能力,展示了专家如何与它们协作创建高质量视觉隐喻,这些隐喻常用于概念插图或平面设计。
LLM研究界提出了元基准,如BigBench(Srivastava et al. 2022)、GMMSK(Cobbe et al. 2021)、MMLU(Hendrycks et al. 2020)以标准化评估和基准测试。LLM的多方面潜力及其在这些基准测试上的表现令人兴奋,然而,它们倾向于通过用一个通常称为“通用”模型为各种应用提供动力来推动标准化。这些基准测试未能捕捉模型在现实的、以用户为中心的环境中的行为。为了衡量当前模型在以人为中心的环境中的进展,我们需要更好的评估方案来判断模型输出的质量以及模型作为评估者的质量。因此,开发支持模型与人类交互的创造性系统对其成功至关重要。创造力的一个基本挑战在于,没有标准的评估方案来评估生成模型输出的质量。这引发了对当前最先进模型对领域专家在创造力方面的有用性的质疑和进一步审视。为应对这一挑战,论文第三章侧重于通过结合计算机科学和设计的技术技能以及包括人文学科在内的其他学科,为独立或交互式设置下的创意写作构建稳健的、以人为中心的评估框架。在引言剩余部分,我将概述本论文,然后总结关键贡献。
图1.1:论文贡献
第二章通过总结自然语言处理的相关工作(该领域提出了各种创造性文本生成模型)和人机交互的相关工作(该领域展示了人类专家如何评估当前模型在独立和现实协作环境中的创造能力),为这项工作提供了相应的背景。
第三章介绍了通过利用无监督和弱监督的知识增强方法来应对自然发生的训练数据缺乏的问题,以生成比喻性语言,如讽刺、明喻和隐喻。这些方法的核心在于,用知识模型生成的常识知识来增强LLM。本章从讽刺生成的无监督方法开始,接着是生成明喻和隐喻的弱监督方法。本章最后对抗测试了最先进的语言模型如何在以比喻性表达(如习语或明喻)结尾的叙事上下文中自回归地生成文本。
第四章描述了人类专家和人工智能可以协作创建创造力基准的方式,否则仅依靠专家或更糟的是依靠众包工作者来扩展这些基准将变得繁重。本章首先描述了专家如何与LLM协作,为比喻性语言理解创建高质量数据,该任务被框定为识别文本蕴含任务(Dagan, Glickman, and Magnini 2005)。随后,我们讨论了专家如何与LLM和最先进的文本到图像模型协作生成高质量视觉隐喻。本章最后展示了我们如何通过基于人类反馈编辑这些模型生成的视觉隐喻来进一步改进它们。
第五章描述了如何在与专家参与的独立和协作环境中评估大语言模型的创造力。首先,我们描述了设计一个名为“托伦斯创意写作测试”的创意写作评估标准的过程。该评估方案稳健、有理论基础,可供领域专家用于区分优秀和平庸的创意写作。然后,我们讨论在一项与新晋作家进行的纵向研究中评估LLM创造能力的过程,其中他们使用基于写作认知过程模型(Flower and Hayes 1981)的界面,在AI辅助下编写故事。
第六章描述了新的研究方向未来走向,包括融入领域特定知识和社会文化规范的知识增强模型、通过使模型适应专家偏好来改进对齐、更好地理解人类如何在日常任务中使用LLM,以及设计稳健的评估方案来测试LLM的推理、稳健性和泛化能力。