大型语言模型的起源可以追溯到自然语言处理领域,但近年来,它们无疑已成为人工智能领域最具革命性技术进步之一。大型语言模型带来的重要洞见在于,通过大规模的语言建模任务,可以获得对世界知识和语言的理解,从而构建一个能够处理多种问题的通用模型。这一发现深刻地影响了自然语言处理及众多相关学科的研究方法。研究范式已从利用大量标注数据从零开始训练专门系统,转向通过大规模预训练获取基础模型,然后对其进行微调、对齐和提示的新模式。 本书旨在概述大型语言模型的基本概念并介绍相关技术。如书名所示,本书更关注大型语言模型的基础方面,而非全面覆盖所有前沿方法。全书共分为四章:

  • 第1章:介绍预训练的基础知识。这是大型语言模型的核心基础,其中会讨论常见的预训练方法和模型架构。
  • 第2章:介绍生成式模型,也就是我们通常所指的大型语言模型。在阐述构建这些模型的基本过程后,还将探讨如何扩展模型训练规模及处理长文本。
  • 第3章:介绍大型语言模型的提示方法。将讨论各种提示策略,以及诸如链式推理和自动提示设计等更高级的方法。
  • 第4章:介绍大型语言模型的对齐方法。本章的重点是基于人类反馈的指令微调与对齐技术。

如果读者具备一定的机器学习和自然语言处理背景,并对诸如Transformer等神经网络有一定了解,那么阅读本书将非常轻松。然而,即使没有相关基础知识也无妨,因为我们力求使每一章的内容尽可能自成体系,确保读者不会因阅读难度过大而感到负担。 在撰写本书的过程中,我们逐渐意识到,这更像是我们学习大型语言模型时整理的“笔记”。通过这种笔记式的写作风格,我们希望为读者提供灵活的学习路径。无论是希望深入探索某一具体领域,还是想全面了解大型语言模型,读者都可以在这些“笔记”中找到所需的知识与启发。 预训练

神经序列模型(如Transformer [Vaswani et al., 2017])的开发以及大规模自监督学习的改进,开启了通用语言理解与生成的新篇章。这一成就主要得益于预训练的推动:我们将许多基于神经网络的系统中的通用组件分离出来,并利用自监督方法在海量无标注数据上进行训练。这些预训练模型成为了基础模型,可以通过微调或提示轻松适应不同任务。因此,自然语言处理(NLP)的研究范式发生了巨大的变化。在许多情况下,针对特定任务的大规模监督学习不再是必需的,我们只需适配预训练的基础模型即可。 尽管预训练在近年来的NLP研究中备受关注,这一概念实际上可以追溯到深度学习的早期阶段。例如,早期对深度学习系统进行预训练的尝试包括用于循环神经网络(RNN)、深度前馈网络、自编码器等的无监督学习 [Schmidhuber, 2015]。在现代深度学习时代,预训练经历了复兴,这部分归因于各种词嵌入模型的大规模无监督学习 [Mikolov et al., 2013b; Pennington et al., 2014]。与此同时,预训练在计算机视觉领域也引起了广泛关注,骨干模型通常在相对较大的标注数据集(如ImageNet)上训练,然后应用于不同的下游任务 [He et al., 2019; Zoph et al., 2020]。 在NLP领域,基于自监督学习的语言模型的开发标志着大规模预训练研究的开始。这类模型包括多个广为人知的实例,如BERT [Devlin et al., 2019] 和 GPT [Brown et al., 2020]。它们的核心理念是,通过在海量文本中训练模型预测被掩盖的词语,可以实现对通用语言的理解与生成。尽管这种方法本质上较为简单,但由此得到的模型展现出了卓越的语言结构建模能力,尽管这种能力并非通过显式训练得来。预训练任务的通用性使得这些系统在各种NLP问题上表现出强大的性能,甚至超越了许多先前开发的监督系统。近年来,预训练的大型语言模型取得了更大的成功,展示了通用人工智能的广阔前景 [Bubeck et al., 2023]。 本章讨论了NLP领域中预训练的概念,首先概述了预训练方法及其应用。接着,以BERT为例说明如何通过称为“掩码语言建模”的自监督任务来训练序列模型。随后讨论了适配预训练序列模型以应对各种NLP任务的方法。需要注意的是,本章主要关注NLP中的预训练范式,因此不会详细探讨生成式大型语言模型。关于这些模型的深入讨论将留待后续章节展开。 生成式模型 Generative Models 近年来,自然语言处理(NLP)领域的一个最重要的进步可能就是大型语言模型(LLMs)的发展。这一进步催生了能够像人类一样理解和生成自然语言的系统。这些系统甚至展现出一定的推理能力,而推理被认为是人工智能领域的一个极具挑战性的问题。借助这些成就,NLP迈出了巨大步伐,进入了一个全新的研究时代,其中许多复杂问题得以解决,例如构建能够与人类流畅交流的对话系统。 语言建模或概率语言建模的概念可以追溯到香农 [Shannon, 1951] 的早期实验。在他的研究中,设计了一种语言模型来估计英语的可预测性——在已知前 N 个字母的情况下,下一个字母的预测能力如何。尽管香农的实验尚属初步探索,语言建模的基本目标和方法几十年来基本未变。在相当长的一段时间里,特别是在2010年之前,语言建模的主流方法是 n-gram 方法 [Jurafsky and Martin, 2008]。在 n-gram 语言建模中,通过估计一个词在其前 n − 1 个词的条件概率,可以用一系列 n-gram 概率的乘积来近似一个序列的概率。这些概率通常通过收集文本中的 n-gram 平滑相对计数来估计。虽然这种方法简单直接,但在 NLP 中得到了广泛应用。例如,现代统计语音识别和机器翻译系统的成功在很大程度上依赖于 n-gram 语言模型 [Jelinek, 1998; Koehn, 2010]。 将神经网络应用于语言建模长期以来一直吸引研究者关注,但真正的突破出现在深度学习技术取得进展之后。Bengio 等人 [2003] 的研究被广泛引用,他们通过一个前馈神经网络对 n-gram 概率进行建模,并通过端到端训练的方式学习该网络。这种神经语言模型的副产品是单词的分布式表示,也称为词嵌入(word embeddings)。与将单词表示为离散变量不同,词嵌入将单词映射到低维实值向量,使得可以在连续表示空间中计算单词及其 n-gram 的语义。结果,语言模型不再受限于维度灾难,而是能够通过紧凑和密集的神经模型表示指数级数量的 n-gram。 通过神经语言模型学习词表示的想法激发了 NLP 表示学习的后续研究。然而,这种方法在提出后的最初几年并未在开发 NLP 系统中引起显著关注。然而,从2012年左右开始,通过简单的单词预测任务从大规模文本中学习词嵌入的技术取得了进展。诸如 Word2Vec 等方法被提出,用于有效学习这些嵌入,并成功应用于各种 NLP 系统 [Mikolov et al., 2013a; b]。随着这些技术的进步,研究者开始思考如何利用更强大的语言模型(如基于 LSTM 的模型 [Sutskever et al., 2014; Peters et al., 2018])学习序列的表示。随着 Transformer 的提出,序列表示的研究和兴趣迅速爆发。随着 Transformer 的兴起,语言建模的概念被泛化,以涵盖通过多种方式学习预测单词的模型。许多强大的基于 Transformer 的模型通过这些单词预测任务进行预训练,并成功应用于多种下游任务 [Devlin et al., 2019]。 事实上,在大规模数据上训练语言模型使得 NLP 研究进入了激动人心的时代。虽然语言建模长期以来被视为一种基础技术,与研究者所期望的人工智能目标并无直接联系,但它让我们看到了通过在文本中反复预测单词,智能系统可以学习到一定程度的通用知识的可能性。最近的研究表明,一个单一的、训练良好的大型语言模型可以处理大量任务,并通过少量的适配实现对新任务的泛化 [Bubeck et al., 2023]。这表明了向更高级形式人工智能迈进的一步,并激发了对开发更强大语言模型作为基础模型的进一步探索。 本章探讨生成式大型语言模型(LLMs)的基本概念。为简洁起见,我们使用“大型语言模型”或“LLMs”来指代生成模型(如 GPT),尽管这个术语也可以广泛涵盖其他类型的模型(如 BERT)。我们首先概述大型语言模型,包括构建这些模型的关键步骤。随后讨论大型语言模型的两个扩展问题:如何进行大规模训练,以及如何改进模型以处理超长文本。最后,我们对这些讨论进行总结。 提示

在大型语言模型(LLMs)的应用中,提示(Prompting)是指通过提供特定的输入或线索,让模型生成所需输出或完成某项任务的方法。例如,如果我们希望模型将一句话从英文翻译成中文,可以设计如下提示:```

复制编辑 将以下文本从英文翻译成中文。 文本:The early bird catches the worm. 翻译:


提示对于LLMs来说至关重要,因为提示的设计直接影响到模型理解用户查询并作出响应的效果。精心设计的提示可以引导模型生成更准确、相关和上下文适宜的回应。此外,这一过程是可以迭代优化的。通过分析LLM的响应,用户可以调整提示内容,使其更贴合具体需求。鉴于提示在LLMs应用中的重要性,提示设计(Prompt Design)已成为用户和开发者操作LLMs时的一项关键技能。这也催生了一个活跃的研究领域——提示工程(Prompt Engineering),研究如何设计高效的提示,以更好地利用LLMs,并提升其在现实应用中的实用性。
与提示密切相关的一个重要概念是**上下文学习**(In-context Learning)。当向LLM提供提示时,我们可以在上下文中添加新的信息,例如问题解决的演示示例。这使得模型可以从这些上下文中学习如何解决问题。以下是一个通过几个情感分类示例向模型提示的案例:```


mathematica
复制编辑
        以下是一些文本分类的示例。
示例1:We had a delightful dinner together. → 标签:Positive 
示例2:I’m frustrated with the delays. → 标签:Negative 
请问句子“That comment was quite hurtful.”的标签是什么?
标签:

上下文学习通常被视为LLMs在预训练后表现出来的一种涌现能力。尽管LLMs可以通过训练或微调来完成新任务,上下文学习提供了一种无需额外训练或微调就能高效适配模型的新方法。这或许是LLMs最显著的特性之一:它们在预训练期间确实学会了关于世界和语言的通用知识,我们可以将这些知识轻松应用于新挑战。此外,上下文学习也反映了人工智能系统朝着更具泛化性和用户友好性发展的趋势。用户无需依赖专业工程师为每个特定任务微调模型,而是可以通过更加直观的方式与LLM交互,直接提供示例或调整上下文即可。 本章重点讨论LLMs的提示技术。我们首先介绍提示工程中常见的一些有趣的提示设计,然后讨论一系列提示方法的改进。最后,我们探讨自动化提示设计的方法。 对齐

在自然语言处理(NLP)领域,对齐(Alignment)并不是一个新概念,但其含义在不同的领域和时间段内有所不同。在传统的NLP中,"对齐"通常指的是将两个集合中的相应元素进行匹配的任务,例如对齐中文句子和英文句子中的单词。随着大型语言模型(LLMs)在NLP研究中的日益重要,"对齐"这一术语的使用范围已经扩大,指的是将模型输出与人类期望对齐。对齐所解决的问题是,模型的输出可能与用户意图的特定目标或上下文不一致。例如,预训练的LLMs可能无法按照用户的指令进行操作,因为它们并未经过这样的训练。另一个例子是,LLMs可能生成有害内容或延续其训练数据中固有的偏见。这为确保LLM的输出不仅准确和相关,而且伦理上合理、无歧视性,带来了新的挑战。 单纯地进行LLM预训练可能会导致各种对齐问题。我们的终极目标是解决或减轻这些问题,以确保LLMs既准确又安全。这里有一个有趣的问题:由于大型语言模型是在海量数据上训练的,我们有理由相信,如果我们能够收集足够多涵盖各种任务并与人类偏好一致的数据,预训练可能使LLMs足够准确和安全,甚至可能消除对齐的需求。然而,现实情况是,几乎不可能收集到涵盖所有任务或充分代表人类偏好的数据。这使得仅通过预训练来实现模型对齐变得困难,至少在当前阶段,对齐仍然是LLM开发中一个非常必要且关键的步骤。 本章将重点讨论LLM的对齐方法。我们将首先讨论一般的对齐任务。接着,我们将考虑两种广泛使用的方法,分别是指令对齐(Instruction Alignment)和人类偏好对齐(Human Preference Alignment)。前者依赖于监督微调技术,指导LLMs生成紧密符合用户指令的输出。另一方面,后者通常依赖于强化学习技术,在这种方法中,LLMs根据来自人类的反馈进行训练。尽管这两种方法的动机不同,但它们通常是结合使用的,以开发出对齐良好的LLMs。 **

**

成为VIP会员查看完整内容
61

科技趋势,德勤的旗舰技术报告,探讨了三大提升力量(交互、信息和计算)以及三大基础力量(技术业 务、网络安全与信任、核心现代化)中新兴趋势的发 展。这些趋势构成了我们宏观技术力量框架的一部分 (见图1)。科技趋势2025,这是我们第十六次循环 发布的报告,展望了一个未来,在这个未来中,人工 智能将成为基础性力量。 电力对于日常生活和商业活动至关重要。随着德勤首 席技术官办公室团队完成对《2025科技趋势》的最 后润色,我们意识到人工智能几乎贯穿了每一个趋势 。我们预计未来,人工智能将无处不在,成为我们日 常所做的一切的隐形基础结构的一部分,以至于最终 我们甚至不会意识到它的存在。

成为VIP会员查看完整内容
59

本文件旨在支持美国陆军战争学院的军事战略与战役(MSC)课程。它还可为作战司令部(CCMD)、联合特遣部队(JTF)和军种司令部的指挥官、规划人员和其他参谋人员提供帮助。是对联合条令的补充,包含了联合部队指挥官(JFCs)在全球范围内实践的新兴条令要素。描绘了一种在联合指挥的较高级别上应用有待签署的条令草案、已发布的条令和新兴概念的方法,主要侧重于作战指挥级别。

纵观历史,各国领导人都制定过军事战略,规划过战役,以协调各方力量,安排多个相关行动的先后顺序,从而实现国家安全目标。乔治-华盛顿将军策划了 1781 年战役,以协调法国舰队、法国远征军和他的 “陆军主力 ”的行动,从而在约克镇击败英军。尤利西斯-格兰特(Ulysses S. Grant)中将计划在 1864 年战役中,由他的下属指挥部同时对南方联盟发动进攻。第二次世界大战期间,战役规划对于协调所有盟军战区的联合部队和联合部队的行动至关重要。在太平洋战场,陆军上将道格拉斯-麦克阿瑟于 1945 年 5 月发布了《日本列岛作战战略计划》(DOWNFALL)。在这份长达 25 页的文件中,麦克阿瑟解释了该计划如何“......设想通过两(2)次连续行动(奥林匹亚和 CORONET)实现指定目标”。送文函将该计划描述为 "涵盖行动和后勤方面的手段分配和协调的较大阶段的一般指南。它不是为了限制执行机构详细制定其最终行动计划"。

在 2018 年以及现在的 2022 年美国《国防战略》和《国家军事战略》出台后,战役规划在国防部内重新受到关注。根据国防部长和参谋长联席会议主席的指示,作战指挥官和下级指挥官要制定一套全面的嵌套战略和计划,这些战略和计划必须针对全球优先事项,同时纳入地区或职能战略和战役目标,并得到战区安全合作、应急和态势计划等其他具体计划的支持。所有这些都是在动态的战略环境中制定的,其特点是行动持续不断,国家指导不固定。

虽然联合条令和军种条令仍是规划的权威来源,但本手册为那些负责制定战区战略和战役计划的人员(无论是作为协调当局还是作为合作者)提供了思路和见解。本手册侧重于作战司令部和下属联合部队司令部层面。在某些情况下,联合理论与军种理论之间存在明显差异,本手册在可能的情况下会调和这些差异,并重点介绍战区指挥官的 “最佳实践”。

成为VIP会员查看完整内容
49

人工智能的迅速发展,尤其是基于 Transformer 架构的 大型语言模型(LLMs)的发展,重新定义了自然语言处理的能力。这些模型在多种与语言相关的任务中展现出了卓越的表现,例如文本生成、问答、翻译和摘要,往往能与类人理解相媲美。更为引人注目的是,LLMs 展现出了超越其核心功能的突现能力,表现出在常识推理、代码生成和算术等任务中的卓越能力。 本文综述了驱动这些能力的基础组件、扩展机制和架构策略。重点分析了像 GPT 和 LLaMA 这样的模型,探讨了数据和计算量指数增长对 LLM 性能的影响,并讨论了扩展过程中面临的权衡问题。我们还考察了 LLM 在多个领域(如医疗、金融、教育和法律)的应用,突出了它们的适应性以及解决领域特定问题的潜力。 本文的核心问题包括:LLMs 如何在不同任务之间进行泛化,如何展示规划和推理能力,突现能力是否可以系统地引出或增强。特别地,我们深入探讨了 LLM 中的 CoT(思维链)和 PoT(思维计划)能力,重点分析了预训练数据如何影响这些能力的出现。此外,我们还研究了 LLM-模块化框架,这些框架能够集成外部系统,支持 LLM 处理复杂的动态任务。通过分析这些因素,本文旨在促进关于 LLM 能力和局限性的持续讨论,推动其在新兴且日益复杂的环境中的负责任发展和应用。

1.1 动机

近年来,人工智能领域经历了前所未有的变革,主要得益于基于变换器(Transformer)架构的大规模语言模型(LLMs)的发展。以OpenAI的GPT系列和Meta的LLaMA为代表的这些模型,彻底改变了我们处理自然语言处理任务的方式,实现了曾被认为无法企及的理解、学习和生成水平。它们在多种任务中表现出色,包括文本生成、问答、语言翻译和摘要,展示了它们在解决复杂语言问题方面的巨大潜力。令人惊讶的是,这些模型还展现了一些超越文本生成的能力,如常识推理、代码生成、算术运算以及各个领域中的其他复杂任务。推动LLM演进的关键因素有几个,其中最重要的便是数据和计算资源的指数级增长。社交媒体平台、数字图书馆及其他来源提供了大量的文本和多媒体信息,使得LLM能够在丰富且多样化的数据集上进行训练。另一方面,强大的GPU、TPU以及分布式计算框架的出现,使得训练拥有数十亿乃至数万亿参数的模型成为可能。这两者结合,促使LLM能够捕捉到细致的语言模式、文化背景和领域特定的知识,增强了它们生成连贯、上下文适当且高度多样化输出的能力。然而,随着模型的复杂性和能力的不断增加,这些模型也带来了新的挑战,并引发了关于其适用性、局限性以及未来发展潜力的关键问题。围绕其伦理使用及长期影响的讨论,已经成为关于其未来的核心议题,这不仅涉及到AI领域,还涉及到我们的日常生活。解决这些问题至关重要,因为研究人员和从业者正在继续探索LLM所能带来的变革性可能性。

1.2 论文目标

本文的目标有两个。首先,我们旨在提供关于LLM及其应用的深入综述,从其发展、预训练策略和架构变体的基础概述开始。这包括对从早期语言模型到如BERT、GPT、LLaMA等LLM复杂架构的演进进行考察。特别地,我们探讨了扩展规律的概念,这对于理解LLM的规模和复杂性如何影响其性能和能力,以及构建日益庞大和强大的模型所涉及的权衡和挑战至关重要。我们还将研究它们在各个领域的应用,如医疗、金融、教育、法律和科学研究。每个领域都有独特的挑战和机会,突出展示了LLM的多样性和适应性。例如,在医疗领域,LLM在辅助临床决策方面展现出了潜力,而在金融领域,它们则被用于情感分析和市场预测等任务。本文的第二个目标是深入探讨使LLM能够执行以往被认为机器学习系统无法完成的任务的机制。特别地,我们将尝试回答一些根本性问题。这些模型是如何学习和在任务及领域间泛化的?这些新兴能力是什么,它们如何被激发出来?哪些因素有助于它们的发展(例如模型规模、数据、架构等)?这些模型的固有局限性是什么,又该如何应对?因此,本研究的核心动机是调查LLM的当前能力和边界,重点关注它们在自我规划和执行任务方面的泛化能力。

1.3 内容与组织

下面是按结构组织的论文概要:

  • 第2节 介绍了大规模语言模型(LLMs),追溯了其从早期统计语言模型到现代基于变换器(Transformer)架构的发展历程。强调了扩展规律在LLM发展中的重要作用,即模型规模、数据量和计算资源的增加导致了语言任务中显著的性能提升。本节还展示了如BERT、T5、GPT系列和LLaMA等著名的LLM家族,突出它们各自独特的架构、优势以及对自然语言处理进步的贡献。此外,本节还强调了LLM在医疗、金融、教育、法律和科学研究等各个领域的变革性影响。
  • 第3节 聚焦于LLM的基础构建模块,涵盖数据预处理技术、预训练方法以及模型适应策略。本节探讨了各种预训练方法,包括无监督学习、有监督学习和半监督学习,强调它们对模型性能和适应性的影响。本节还审视了用于LLM训练的不同数据来源,将其分为一般数据(如网页、书籍和对话文本)、专业数据(如科学文献和代码)以及广泛使用的数据集(如Wikipedia、BookCorpus和CommonCrawl)。详细介绍了关键的数据预处理步骤,如质量筛选、数据清洗、去重和分词,它们在为有效的LLM训练准备数据中的作用。此外,本节还讨论了模型适应技术,如指令微调和对齐微调,它们能为特定任务微调模型,并使模型的行为与预期的人类价值对齐。关键地,本节提供了对变换器(Transformer)架构的全面分析,详细描述了其组件(编码器、解码器、自注意力机制)、标准化方法、激活函数、位置嵌入和优化策略。
  • 第4节 讨论了有效利用LLM的策略和技术,重点介绍了上下文学习(ICL)、链式思维提示(CoT)和规划能力。它解释了ICL作为一种独特的提示技术,使LLM能够通过提示中提供的示例进行学习,从而无需显式的梯度更新就能解决新任务。本节详细阐述了各种ICL策略,如示范设计、提示工程和选择合适的评分函数,同时探讨了影响ICL性能的因素。接着,本节介绍了CoT提示作为增强LLM推理能力的强大方法。这种方法通过将中间推理步骤整合到提示中,引导模型采用结构化的思维过程,尤其对需要逻辑推理、问题解决和数学计算的任务非常有益。最后,本节探讨了LLM的规划能力,重点介绍了基于提示的规划技术。该技术将复杂任务分解为可管理的子任务,并生成执行计划。讨论了不同的规划方法,包括基于文本和编程的方式,并强调了反馈机制和计划优化在成功执行计划中的关键作用。
  • 第5节 探讨了LLM中CoT能力的来源,提出了一个假设,即预训练数据中代码的存在可能有助于这些推理能力的出现。为此,本节通过使用LMStudio软件在HuggingFace平台上对公开可用的LLaMA系列模型进行实验,提供了实证证据。分析重点是这些模型在GSM8k和gsm-hard数据集上的推理任务表现,评估它们在利用CoT和思维计划(PoT)方法方面的能力。
  • 第6节 总结了本文的关键内容,重申了LLM在各个领域的变革性潜力。还承认了与LLM发展相关的伦理、技术和实践挑战,并倡导继续进行研究,确保其在未来得到负责任和有益的应用。

2. 大型语言模型

2.1 定义与概述LLMs的核心设计目标是理解、学习和生成连贯且上下文相关的语言,其规模前所未有。历史上,语言模型(LMs)的发展根植于理解和复制人类语言的追求,可以分为四个主要阶段:

  1. 统计语言模型:这些模型旨在捕捉语言的统计特性,如词频和共现,基于马尔可夫假设预测给定词序列的可能性。如果上下文长度固定,模型被称为n-gram模型。然而,这些模型受限于需要估计的转移概率的指数级增长以及马尔可夫假设的局限性,无法捕捉自然语言中的长距离依赖关系。
  2. 神经语言模型:神经网络的兴起导致了利用神经架构捕捉语言复杂模式和依赖关系的语言模型的发展。这些模型,如循环神经网络(RNN)和长短期记忆网络(LSTM),能够捕捉长距离依赖关系和上下文信息,从而生成连贯且上下文相关的文本。
  3. 预训练语言模型(PLM):预训练语言模型的发展标志着语言模型演进的一个重要里程碑。这些模型在大量数据语料库上进行无监督或自监督训练,然后在特定任务上进行微调。ELMo和BERT是这一阶段的代表性模型,BERT通过双向Transformer架构在自然语言处理任务中取得了显著进展。
  4. 大型语言模型(LLM):LLMs的出现重新定义了语言处理系统的能力。研究表明,随着参数数量或数据量的增加,语言模型的性能会提高,这一现象被称为扩展法则。许多LLMs基于Transformer架构,能够捕捉语言中的长距离依赖关系和上下文信息。LLMs在文本生成、问答、语言翻译、摘要和情感分析等任务中表现出色,展示了其在各种应用中的潜力。

2.2 扩展法则

扩展法则是LLMs发展的基本原则,表明随着语言模型规模的增加,其在语言任务中的能力和表现呈现出不成比例的正向增长。这一概念已成为推动语言处理和理解边界的关键力量。随着LLMs在参数数量上的扩展,它们展示了从多样化数据集中泛化并生成上下文连贯文本的非凡能力。扩展法则的核心在于语言模型规模与其包含的参数数量之间的直接相关性。参数是模型在训练过程中学习的内部变量,代表了其理解语言的连接和权重。随着参数数量的增加,模型捕捉复杂语言结构的能力也随之增强。扩展法则的一个主要结果是,模型在各种语言相关任务中的表现显著提升。从语言生成到情感分析、问答和摘要,较大的模型始终优于较小的模型。学习复杂语言特征的能力增强,使得LLMs在理解和生成更接近人类的文本方面表现出色。

2.3 著名模型家族

LLMs的发展得益于一些著名模型家族的出现,每个家族都有其独特的架构和能力。这些模型家族在推动语言处理和理解边界方面发挥了关键作用。

**2.3.1 BERT

BERT(Bidirectional Encoder Representations from Transformers)由Google于2018年推出,通过专注于文本处理中的双向上下文,标志着LLMs的重要演进。BERT的模型架构基于原始Transformer架构,采用了双向Transformer编码器。与之前的模型不同,BERT从左到右和从右到左两个方向分析文本,提供了对语言上下文的更细致理解。这种双向性使BERT在问答、命名实体识别和情感分析等各种NLP任务中取得了最先进的成果。BERT的创新在于其双向性和使用了一种称为掩码语言模型(MLM)的机制。在MLM中,输入令牌的某些百分比被随机掩码,目标是基于上下文预测这些掩码的令牌,利用序列两侧的信息。BERT还结合了下一句预测(NSP)任务,帮助模型学习句子之间的关系,进一步增强其对上下文的理解。尽管BERT具有强大的性能,但它也存在一些局限性。模型的规模和复杂性需要大量的计算资源进行训练,这对一些组织或研究人员来说可能是一个障碍。BERT对周围文本上下文的关注并不能解决所有语言理解挑战,特别是在涉及广泛世界知识或超出其训练数据范围的推理任务时,模型可能会遇到困难。

**2.3.2 T5

T5(Text-to-Text Transfer Transformer)由Google于2019年开发,将所有NLP任务重新定义为统一的文本到文本问题,其中每个任务都被转换为从输入文本生成目标文本。这种方法简化了使用单一模型跨多样化任务的过程,鼓励了对语言的更广义理解。T5基于Transformer模型,类似于其前身BERT和GPT。它利用有效的自注意力机制处理数据序列。该模型设计用于处理各种任务,无需任务特定的架构修改。它使用统一的文本到文本框架,其中任务被转换为输入和输出始终为文本字符串的格式。T5在无监督和有监督任务的多任务混合上进行预训练,使用了称为“C4”的大规模数据集。T5的统一方法简化了将新任务集成到模型训练体系中的过程,因为它们只需要重新格式化为文本到文本格式。尽管T5的统一方法具有显著优势,但它可能并不适用于所有类型的任务。某些任务可能受益于更专门的模型架构或格式。T5的训练过程需要大量的计算资源,这可能对小型组织或独立研究人员构成限制。

**2.3.3 GPT系列

GPT系列由OpenAI开发,处于LLM研究的前沿。最初的GPT模型于2018年推出,基于Transformer架构,显著提升了先前模型对上下文的理解和文本生成能力。GPT-2于2019年发布,扩展了模型的规模,展示了前所未有的文本生成能力。GPT-3进一步推动了边界,展示了在无需任务特定训练的情况下生成类人文本、执行语言翻译和问答等任务的能力。GPT系列基于Transformer架构,利用自注意力机制处理输入数据,允许模型权衡输入上下文中不同词的重要性,增强其理解和生成语言的能力。GPT模型以其堆叠的Transformer块为特征,这些块由多头自注意力层和全连接前馈神经网络组成。该系列在参数数量上呈指数级增长:GPT有1.1亿参数,GPT-2有15亿参数,GPT-3有1750亿参数。GPT模型展示了生成连贯且上下文相关文本的显著能力,模拟了人类的写作风格。它们在无需任务特定数据训练的情况下,在广泛的NLP任务中表现出色,展示了其在少样本、单样本或零样本学习场景中的多功能性。架构的可扩展性表明,较大的模型往往表现出更好的性能,并捕捉到数据中更细微的模式。尽管GPT模型具有强大的生成能力,但它们也存在一些批评。这些模型对数据的依赖性很强,需要大量的文本数据进行训练,这引发了关于环境影响和计算成本的担忧。模型有时会生成看似合理但实际上不正确或无意义的信息,这种现象通常被称为“幻觉”。这些模型的黑箱性质在可解释性和透明度方面提出了挑战,使得理解其决策过程或纠正偏差变得困难。

**2.3.4 LLaMA

LLaMA(Large Language Model Meta AI)是由Meta AI开发的语言模型,旨在为广泛的自然语言处理(NLP)任务提供多功能且高效的基础。LLaMA基于Transformer架构,参数范围从7B到65B不等。与原始Transformer架构的主要区别在于:

  1. 预归一化:LLaMA使用预归一化,意味着归一化层放置在自注意力和前馈层之前。预归一化提高了大型语言模型的训练稳定性和收敛性,使其成为许多最先进模型的热门选择。
  2. SwiGLU激活函数:LLaMA使用SwiGLU激活函数,这是一种Gated Linear Unit(GLU)激活函数的变体。SwiGLU通过增强信息在网络中的流动,提高了大型语言模型的性能。
  3. 旋转嵌入:LLaMA使用旋转嵌入,这是一种位置编码,帮助模型捕捉输入数据中的长距离依赖关系。 尽管LLaMA的规模小于许多竞争对手,但它在大多数基准测试中优于GPT-3,65B模型与Chinchilla和PaLM-540B等最佳大型语言模型竞争,尽管其规模小10倍。

2.4 专用大型语言模型

专用大型语言模型(LLMs)是为特定领域或任务精炼的模型检查点,如医疗和金融。现有的领域特定模型通过预训练在专用数据集上开发,或通过将通用大型模型适应特定任务,或混合这两种方法。这些模型作为领域特定问题解决者,并根据其一般能力(如基本复杂推理)和更细微的能力(如与人类意图的对齐)进行评估。

**2.4.1 LLMs在医疗中的应用

人工智能(AI)与医疗的交汇推动了医疗服务、诊断、治疗和患者护理的进步。LLMs在医疗领域的应用主要体现在以下几个方面:

  1. 医学图像分析:LLMs与医学成像技术结合,提高了诊断的准确性和效率。通过分析放射图像和临床报告,LLMs可以协助放射科医生解释图像,识别异常并提供诊断见解。
  2. 临床决策支持:LLMs在增强临床决策支持系统(CDSS)方面发挥了关键作用。通过分析患者数据和医学文献,LLMs可以协助临床医生诊断病情、建议治疗方案并预测患者结果。
  3. 医疗文档和编码:LLMs展示了自动化临床对话和笔记转换为结构化电子健康记录(EHR)的能力,从而减少了错误并节省了时间。
  4. 药物发现与开发:在制药领域,LLMs加速了药物发现和开发流程。通过挖掘大量化学库和医学数据库,这些模型促进了潜在药物候选物的识别和现有药物的重新利用。
  5. 个性化医疗:个性化医疗根据个体患者特征定制治疗方案,LLMs通过生成患者特定模型来预测疾病易感性和药物反应,从而受益。
  6. 患者参与和自我管理:LLMs通过提供信息、提醒和慢性病自我管理的动机支持,革新了患者参与。 尽管LLMs在医疗应用中具有显著优势,但也面临重大挑战。患者隐私、数据安全性和AI驱动决策的可解释性是关键问题。此外,训练数据中的偏差可能导致患者护理中的不平等,需要在临床部署前进行严格的验证和公平性评估。

**2.4.2 LLMs在金融中的应用

LLMs在金融领域的应用包括情感分析、问答和股票市场预测等任务。尽管对通用领域LLMs的研究广泛,金融LLM(Fin-LLM)研究仍然有限,该领域仍处于早期阶段。

  1. 算法交易:LLMs分析大量非结构化数据,包括新闻文章、财务报告和社交媒体,以评估市场情绪并预测股票价格走势。
  2. 风险管理:在风险管理中,LLMs通过解析和解释复杂的监管文件,识别潜在的合规风险并提供可操作的见解。
  3. 客户服务自动化:金融机构利用LLMs为聊天机器人和虚拟助手提供动力,提供实时、个性化的客户服务。
  4. 欺诈检测:LLMs通过分析交易数据和客户通信,识别欺诈活动的模式,从而增强金融交易的安全性。 尽管LLMs在金融领域具有潜力,但也面临数据隐私、模型决策的可解释性以及训练数据中的偏差等挑战。确保这些模型符合伦理标准和监管合规性至关重要。

**2.4.3 LLMs在教育中的应用

LLMs在教育中的应用显著影响了教学和学习体验。LLMs可以生成个性化的教育内容,提供解释、生成练习题并提供反馈。

  1. 智能辅导系统:LLMs可以模拟一对一的辅导互动,适应学生的学习节奏、风格和当前知识水平。
  2. 自动评分:LLMs可以评估考试和作业中的开放式回答,从而节省教师的时间,使他们能够专注于更个性化的教学方法。
  3. 研究支持:LLMs可以协助文献综述、生成假设甚至撰写研究提案或论文,尽管需要仔细监督以确保学术诚信。
  4. 管理与支持:LLMs可以简化与学生的沟通,处理日常查询并管理日程安排和提醒,从而增强学生和教师的整体教育体验。 尽管LLMs在教育中具有巨大潜力,但也面临确保信息可靠性、避免偏差以及维护隐私和安全等挑战。

**2.4.4 LLMs在法律中的应用

LLMs在法律领域的应用显著影响了法律文件分析、法律判决预测和法律文件撰写等任务。

  1. 法律文件分析:LLMs可以分析法律文件,提取关键信息并提供见解。
  2. 法律判决预测:LLMs可以基于历史数据和案例预测法律判决结果。
  3. 法律文件撰写:LLMs可以协助撰写法律文件,如合同和诉状,提高效率和准确性。 尽管LLMs在法律应用中表现出色,但也面临处理复杂法律推理和多层次上下文理解等挑战。

**2.4.5 LLMs在科学研究中的应用

LLMs在科学研究中的应用涵盖了从文献综述到假设生成、头脑风暴、数据分析、手稿起草、校对和同行评审的各个阶段。

  1. 文献综述:LLMs可以执行详尽的文献综述,总结特定科学学科的进展。
  2. 假设生成:LLMs可以生成有说服力的科学假设,推动研究方向的探索。
  3. 数据分析:LLMs可以自动化数据属性分析,包括探索性数据分析、可视化和提取分析推断。
  4. 手稿起草:LLMs可以协助科学写作,提供摘要、引言和结论的生成服务。
  5. 同行评审:LLMs可以自动化同行评审过程,执行错误识别、合规性检查和提交优先级排序等任务。 尽管LLMs在科学研究中具有广泛的应用前景,但也面临确保信息准确性和避免偏差等挑战。

3. 大型语言模型的基础

3.1 预训练

预训练是开发大型语言模型(LLMs)的基础阶段,允许模型捕捉词之间的关系并生成连贯且上下文相关的文本,为其在特定NLP任务中的表现奠定基础。这一阶段涉及在大量文本数据上训练语言模型,然后在较小的任务特定数据集上进行微调,以提高其在该任务上的表现。

**3.1.1 无监督预训练

无监督预训练是一种预训练策略,涉及在没有标签或注释的情况下在大量文本数据上训练模型。模型被训练为预测给定序列中的下一个词,使用自回归语言建模(ALM)技术。GPT-3及其变体使用这种自回归语言建模目标在大型文本语料库上进行预训练,学习语言中词之间的关系。

**3.1.2 有监督预训练

有监督预训练是一种预训练策略,涉及在带有标签或注释的大量文本数据上训练模型。这种方法使模型能够学习与最终任务更紧密对齐的表示,从而潜在地提高其性能和效率。在有监督预训练中,LLMs暴露于各种领域的标记数据中,学习在已知输入输出对的监督下预测正确输出。

**3.1.3 半监督预训练

半监督预训练是一种混合训练方法,结合了有监督和无监督学习的优势。这种方法利用大量未标记数据和少量标记数据,优化模型的学习效果和适应性。半监督预训练涉及初始使用未标记数据进行训练,类似于无监督预训练,随后在较小的标记数据集上进行进一步训练或微调,以灌输任务特定的知识和细微差别。

3.2 数据源

LLMs的训练和评估依赖于广泛的高质量数据集,涵盖多样化领域和语言。这些数据集作为预训练和微调LLMs的基础,使研究人员能够评估模型在文本生成、翻译等任务中的表现。

**3.2.1 通用数据

通用数据通常包括网页内容、文学作品和对话文本,因其数量庞大、种类繁多且易于获取而受到重视,从而增强了LLMs的语言建模和泛化能力。

  1. 网页:从互联网提取的网页内容是多样化且最新的文本数据来源,涵盖新闻文章、博客文章和论坛讨论。
  2. 对话文本:包括聊天记录和社交媒体互动的对话文本,提供了丰富的非正式语言和口语表达,使LLMs能够捕捉人类交流的细微差别。
  3. 书籍:包括小说、散文和科学文献的书籍,提供了长期结构化和连贯的文本数据,使LLMs能够学习复杂的语言结构和主题细微差别。

**3.2.2 专用数据

专用数据集旨在提高LLMs在特定任务中的熟练度,涵盖多语言文本、科学文献和编程代码。

  1. 多语言文本:多语言文本数据涵盖多种语言和方言,对于训练LLMs理解和生成多样化语言环境中的文本至关重要。
  2. 科学文献:科学文献包括研究论文、专利和技术文档,提供了领域特定的文本数据,对于训练LLMs生成科学文本和推理任务至关重要。
  3. 代码:代码包括源代码片段和软件文档,是结构化文本数据的重要来源,对于训练LLMs生成代码和完成代码任务至关重要。

**3.2.3 常用数据源

LLMs的训练和评估依赖于一些常用的数据源,如BookCorpus、CommonCrawl、Reddit链接、Wikipedia、代码和其他数据集。

  1. 书籍:BookCorpus和Gutenberg是两个著名的数据集,包含来自各种书籍的文本,涵盖多种类型和主题。
  2. CommonCrawl:CommonCrawl是一个庞大的网页语料库,包含来自数十亿网页的数据,涵盖多样化主题和语言。
  3. Reddit链接:Reddit是一个社交媒体平台,用户可以提交链接和帖子,并通过“点赞”或“点踩”进行投票。OpenWebText和Pushshift.io是包含从Reddit提取的文本数据的数据集。
  4. Wikipedia:Wikipedia是一个广泛使用的数据集,包含来自各种文章的高质量文本。
  5. 代码:GitHub和StackOverflow是两个主要的代码数据来源,Google发布了BigQuery数据集,包含来自各种编程语言的代码片段。
  6. 其他:The Pile和ROOTS是包含来自各种来源的文本数据的数据集,如书籍、文章和网站。

3.3 数据预处理

在收集数据后,下一步是进行数据预处理,以确保其干净、一致并准备好用于训练LLMs,去除噪声和无关或潜在有害信息。

**3.3.1 质量过滤

数据预处理的第一步是质量过滤,清理数据以去除无关或低质量内容。现有工作主要采用两种策略:基于分类器的过滤和基于启发式的过滤。

  1. 基于分类器的过滤:训练分类器以区分高质量和低质量数据,使用精心策划的数据(如Wikipedia页面)作为正例,噪声数据(如垃圾邮件或无关内容)作为负例。
  2. 基于启发式的过滤:设置预定义规则以识别和去除噪声数据,如语言过滤、基于指标的过滤、基于统计的过滤和基于关键字的过滤。

**3.3.2 去重

数据预处理的下一步是去重,去除重复数据以减少冗余并提高训练数据的多样性。去重可以在文档、段落或句子级别进行,通过计算文档之间的表面特征重叠率来去除包含相似内容的重复文档。

**3.3.3 隐私减少

隐私减少是数据预处理中的另一个重要步骤,特别是在处理敏感或个人信息时。常见的技术包括掩码个人身份信息(PII),如姓名、地址和电话号码,并用通用占位符或令牌替换它们。

**3.3.4 分词

分词是数据预处理中的关键步骤,将文本数据转换为模型可以处理的令牌。常见的分词技术包括基于词的分词、基于子词的分词和基于字符的分词。

  1. 基于词的分词:将文本分割为单个词,适用于传统NLP研究。
  2. 基于子词的分词:将文本分解为子词单元,如前缀、后缀和词根,适用于处理复杂形态或有限词汇的语言。
  3. 基于字符的分词:将文本分割为单个字符,适用于处理没有明确词边界的语言。

3.4 LLM适应

LLMs的适应是其在实际应用中部署的关键方面,使其能够在预训练后在特定任务或领域上进行微调,通过最小化泛化能力的损失来提高其性能。适应可以通过各种技术实现,如指令微调和对齐微调,这些技术使LLMs能够增强(或解锁)其能力,并将其行为与人类价值观或偏好对齐。

**3.4.1 指令微调

指令微调是一种利用自然语言指令微调预训练LLMs的技术,与有监督微调和多任务提示训练密切相关。指令微调增强了LLMs遵循和理解自然语言指令的能力。与传统微调不同,指令微调采用更广义的方法,通过“指令遵循”范式拓宽模型的实用性。FLAN是一种指令微调方法,显著提高了零样本学习能力,相比传统模型如GPT-3有显著改进。指令微调在PaLM等模型中的应用也展示了其在各种任务中的性能提升。指令微调的实例构建涉及任务描述和输入输出示例的格式化,通常包括任务描述、演示和输入输出对。指令微调的有效性取决于任务描述的多样性和复杂性,以及演示的数量和质量。

**3.4.2 对齐微调

对齐微调确保LLMs的输出与指定的伦理指南或期望行为一致,避免生成虚假信息、追求不准确目标或产生有害、误导或有偏见的内容。对齐微调的主要标准包括有用性、诚实性和无害性。

  1. 有用性:模型有效且高效地协助用户,回答查询或解决任务。
  2. 诚实性:提供准确信息并透明地说明模型的不确定性和局限性。
  3. 无害性:避免生成冒犯性或歧视性语言,并警惕被操纵进行有害行为。 对齐微调的主要方法包括基于排名的反馈、基于问题的反馈和基于规则的反馈。强化学习从人类反馈(RLHF)是一种常用的对齐微调方法,通过强化学习技术(如近端策略优化)基于人类反馈微调LLMs。

3.5 架构

LLMs的架构在决定其性能、效率和可扩展性方面起着关键作用。通常,我们可以识别一些关键组件,如编码器和解码器,它们定义了不同的LLM架构。

**3.5.1 编码器-解码器

编码器-解码器架构是Transformer架构的原始版本,由编码器和解码器组成。编码器将输入序列转换为一组表示,捕捉其语义和句法属性。解码器基于编码表示生成输出序列,通过条件生成每个令牌。

**3.5.2 因果解码器

因果解码器基于前面的令牌预测每个令牌,确保生成过程是单向的,防止模型在预测过程中使用未来的令牌。GPT系列是因果解码器架构的典型代表。

**3.5.3 前缀解码器

前缀解码器允许部分条件生成序列,修改因果解码器的掩码机制,以允许对前缀令牌进行双向注意力,仅对生成的令牌进行单向注意力。这种架构在需要生成具有特定前缀或约束的序列的任务中非常有用。

**3.5.4 Transformer架构

Transformer架构已成为LLMs的事实标准,因其能够捕捉长距离依赖关系并有效建模复杂语言结构。该架构通常由堆叠的Transformer层组成,每层包括多头自注意力子层和位置全连接前馈网络。

**3.5.5 新兴架构

一些新兴架构被提出以解决特定挑战或提高Transformer的性能,如参数化状态空间模型、长卷积和递归更新机制。

3.6 调优与优化

由于LLMs由数百万或数十亿参数组成,参数调优可能非常昂贵且耗时。本节讨论了参数和内存的模型适应方法。

**3.6.1 参数高效模型适应

参数高效模型适应方法旨在减少模型参数数量,同时尽可能保持性能。常用的方法包括适配器调优、前缀调优、提示调优和LoRA。

  1. 适配器调优:在预训练网络的层之间引入小型可训练模块,称为“适配器”,使原始网络的参数保持固定,同时以最小的参数增加适应新任务。
  2. 前缀调优:优化一组称为前缀的连续任务特定向量,将其添加到输入中,使Transformer模型能够像处理输入序列一样处理这些前缀。
  3. 提示调优:在模型输入层引入可训练向量,称为提示令牌,以协助模型执行特定任务。
  4. LoRA:通过低秩分解更新密集层,显著减少内存和存储需求,同时保持单一大型模型以适应各种任务。

**3.6.2 内存高效模型适应

内存高效模型适应方法旨在减少LLMs在推理过程中的内存占用,使其更适合在资源受限的环境中部署。常用的方法包括模型量化。

  1. 量化:通过使用低精度数据类型(如8位整数)表示权重和激活,减少内存和计算成本。量化可以在训练后进行,也可以在训练期间进行量化感知训练。

4. 利用策略与技术

4.1 上下文学习(ICL)

上下文学习(ICL)是一种独特的提示技术,使LLMs能够从提示中提供的示例中学习,从而在不显式梯度更新的情况下处理新任务。ICL策略包括演示设计、提示工程和选择适当的评分函数。

4.2 思维链提示(CoT)

思维链提示(CoT)是一种增强LLM推理能力的强大方法,通过在提示中整合中间推理步骤,引导模型采用结构化的思维过程,特别适用于需要逻辑推理、问题解决和数学计算的任务。

4.3 程序思维(PoT)

程序思维(PoT)是一种将复杂任务分解为可管理子任务并生成执行计划的技术。不同的规划方法,包括基于文本和程序的方法,讨论了反馈和计划优化机制在实现成功计划执行中的关键作用。

4.4 复杂任务的规划

复杂任务的规划涉及将任务分解为子任务并生成执行计划。不同的规划方法,包括基于文本和程序的方法,讨论了反馈和计划优化机制在实现成功计划执行中的关键作用。

4.5 检索增强生成

检索增强生成(RAG)是一种将LLMs与外部知识库结合的技术,允许模型在生成过程中检索相关信息,从而提高准确性和可信度。

5. 测试LLMs的CoT能力

5.1 激发思维链的因素

激发思维链的因素可能包括预训练数据中代码的存在,这些代码可能促成了LLMs的推理能力。

5.2 经验证据

通过实验,展示了在HuggingFace平台上使用LMStudio软件对公开可用的LLaMA家族模型进行实验的经验证据,评估了它们在GSM8k和gsm-hard数据集上的推理任务中的表现。

5.3 提示

提示技术在激发LLMs的推理能力中起到了关键作用,特别是在需要逻辑推理和数学计算的任务中。

5.4 生成文本的示例

生成文本的示例展示了LLMs在复杂推理任务中的表现,特别是在使用思维链提示和程序思维方法时的能力。

6. 结论

本文总结了LLMs在各个领域的变革潜力,重申了其在文本生成、问答、语言翻译和摘要等任务中的出色表现。尽管LLMs具有强大的能力,但也面临伦理、技术和实践挑战。未来的研究应继续探索LLMs的潜力,确保其负责任和有益的应用。

成为VIP会员查看完整内容
54

分析大模型技术赋能智能辅助决策的需求特点和技术路径,指出大模型技术在提高指挥决策效率、加强信息化与智能 化作战能力等方面的潜在运用场景,探讨大模型驱动的智能辅助决策系统实现原理和关键技术,包括预期能力提升以及面向不 同任务特性的设计思路,并针对典型任务域模型构建开展了提示机制数据设计和性能验证,最后,指出大模型技术在本场景应 用过程中所面临的数据安全、可解释性等潜在风险挑战,分析未来发展方向。大模型技术在指挥与控制中具有巨大应用前景, 但还需不断完善,构建可持续的科研与应用生态,助力未来精准、敏捷的智能化指挥控制体系能力生成。

成为VIP会员查看完整内容
46

关键发现

到 2035 年,当代冲突中的创新将如何塑造未来战争的态势,这对大规模作战行动(LSCO)和步兵威胁意味着什么?

  • 未来作战功能可能发生哪些潜在变化?

  • 对未来地区联盟、伙伴关系和关系可能产生哪些影响?

总结性结论

由于前所未有的能见度、快速的技术应用、较低的进入壁垒和脆弱的家园带来了更多的切入点,近期冲突中的创新极有可能(71%-86%)更充分地将不同的参与者纳入未来的冲突中。

尽管军队在冲突中扮演着传统的角色,但技术的无处不在以及将冲突视为试验场(沙箱)的做法增加了任何一方快速实施物质和非物质应用的可能性。

前所未有的可见性

情报、监视和侦察(ISR)领域的进步,包括廉价和快速的设备生产以及空间和通信的可及性,极有可能(71%-85%)创造出前所未有的可视性环境,使行动变得越来越具有挑战性。

影响这一结果的主要创新:

  • 适应性整合(混合,而非隐藏)。隐藏是一种静态的行为,即隐藏自己的存在。融合是一个积极主动的动态过程,包括融入环境,利用环境固有的模式、行为和特征。这需要改变视觉、数字或电磁特征。

  • 混合战争。在一个四通八达的世界中,通过数字平台直接与目标人群接触的成本效益、匿名性、覆盖范围和能力增加了积极从事虚假信息和宣传活动、操纵社交媒体、在线激进化个人以及直接招募和动员灰色地带冲突的行动者的数量。

在乌克兰,当地公司每天生产约三千架无人机。价值 270 亿美元的全球商用无人机市场支撑着这一努力,确保未来任何冲突双方都能获得近乎源源不断的供应。为了应对这种情况,两国都采取了反制措施,包括防空导弹、反火箭、火炮和迫击炮(C-RAM)系统、网络声学传感器和各种电子战套件。

在过去十年中,SpaceX 等公司通过快速增加太空发射彻底改变了太空的可及性。这导致向太空发射有效载荷的成本下降,商业卫星发射激增,增加了民用获取卫星图像的机会和执行卫星任务的能力,使任何人都拥有了前所未有的影响冲突的能力。

在通信方面,人们可以很容易地探测、定位、干扰和拦截军用无线电传输。乌克兰人采用数字伪装来应对这种情况,将他们的传输与民用通信混合在一起。他们利用俄罗斯的弱点,使用敏捷的软件定义无线电系统进行电子战。海军陆战队正在测试一种方法,将传输从容易被探测到的无线电频率转移到几乎无法探测到的激光束上,从而增加数字带宽,实现进一步的技术进步。

图 1 显示了激光和微波信号色散的比较。

平民在情报机构中的作用显著增强,几乎每个人都携带着能够捕捉和传输图像或视频的设备。Oryx 对俄罗斯设备的报道凸显了未来众包的潜力。

快速、技术强化战争

快速实施和增强技术能力很可能(71-85%)会增加信息战、精确目标定位和战术机动执行的使用。

影响这一结果的主要创新:

  • 人工智能: 生成性和预测性人工智能加速并指导战术和行动决策。这提高了各行为体在所有领域的可视性和针对性。

  • 自主系统: 人在环内、人在环上和人在环外的系统增强了多领域、多能力和多接入点的协调性和有效性。自主系统的可用性为冲突提供了低成本的切入点。

人工智能提高了信息传播的速度和潜在影响范围,从而使信息战得以迅速展开。在俄罗斯入侵乌克兰之初,俄罗斯利用人工智能引导的技术,通过一段深度伪造的泽连斯基总统视频,恳求乌克兰人投降。这展示了一种人工智能支持的战术,可以迅速影响叙事。

以色列使用两套人工智能系统 “薰衣草 ”和 “福音 ”进行精确目标定位。这些系统加在一起,使以色列能够从每年识别 50 个目标到每天识别 100 多个目标,从而缩短了杀伤链。在乌克兰与俄罗斯的战争中,双方部署了数百万架配备人工智能功能的无人机,用于监视、侦察和直接攻击。这些无人机可以在复杂的环境中自主导航、识别目标,并在攻击后评估损失。对这些能力的需求只增不减。无人机在军事行动和商业用途中有许多应用。在军事领域,无人机用于 ISR 和定点打击。在商业领域,无人机的普及增加了现成商业项目的可用性,并提高了对该技术的研究和开发。

降低准入门槛,模糊冲突界限

私营部门、非国家行为者和公民个人极有可能(71-85%)利用商业化技术开展行动、收集情报和影响舆论,从而在冲突和冲突前动态中发挥关键作用。这使得更广泛的冲突参与和议程驱动型行动者能够快速开发创新技术。

影响这一结果的主要创新:

  • 第五代战争: 这一定义宽泛的术语描述了当代冲突中社交媒体影响行动和网络攻击等战术在战争中发挥更突出作用的情况。

  • 第六领域(私营部门参与): 大西洋理事会将其描述为私营部门在战争中的 “活动领域”。私营部门的专业知识、影响力和经济实力使其能够通过网络安全、信息、后勤、技术、基础设施和金融战争参与其中。

普通公民可以利用负担得起的技术、连通性和匿名性间接参与网络攻击、众包信息、分析战场环境中的数据、共享情报、参与虚假信息活动、传播或遭遇国家支持的宣传。随着 “数字多巴胺 ”的兴起--《多巴胺国家》一书的作者安娜-莱姆克(Anna Lembke)博士曾讨论过--数字媒体增加了接收和影响内容的途径。再加上数字节点的崛起,黑客得以实施攻击性网络攻击或影响叙事。在企业层面,推特、脸书和谷歌等公司可以控制内容或引导搜索结果,以描述该公司认为可以接受的言论。

在乌克兰,私营部门积极利用网络、空间和人工智能来支持自己选择的一方。美国科技公司帕洛阿尔托(Palo Alto)和微软(Microsoft)通过建立防火墙、保护关键基础设施以及将数据迁移到国外服务器来保护乌克兰数据,为保护数据和乌克兰网络做出了贡献。公司提供帮助是基于自身利益,而不是政府授权,这影响了乌克兰和俄罗斯之间的战争进程。

图 3 私营部门在冲突中的作用示意图

公司在提供 “善意 ”支持时可能会遇到挑战,因为它们拥有在认为合适时关闭这种支持的权力。例如,SpaceX 向乌克兰提供了 Starlink 服务,但后来又拒绝提供,导致乌克兰无人机无法攻击俄罗斯海军舰队。

脆弱家园

在未来的冲突中,动能和非动能攻击极有可能(71%-85%)破坏关键基础设施,破坏本土环境的安全稳定。由于目标更容易接近,信息领域以及任何人都能对其造成影响,易受攻击的本土使安全模式变得更加复杂。

影响这一结果的主要创新:

  • 水战: 对新地区水资源匮乏的新担忧、水的经济利用范围扩大,以及人工智能、物联网(IoT)和自主系统的创新,扩大了影响水系统的能力和途径。

图 4 关键基础设施的相互依存性。

基本服务依赖于信息和通信技术(ICT),它通过物联网实现了联网程序和流程。物联网的快速发展增加了对手发现和利用漏洞的切入点。有形物体现在都有数字传感器,使一切都成为潜在的网络目标。这些漏洞将平民空间变成了冲突地区,战斗人员和非战斗人员之间的区别变得模糊不清。

网络攻击已导致电信和互联网服务受阻、获取资金受限、获取新闻受阻,以及供电、供暖和供水中断或被拒。佛罗里达州奥尔德斯马市的一名黑客以供水为目标,远程改变了水中氢氧化钠的含量。员工发现并挫败了这一可能致命的攻击。

常规武器的使用与这些网络行动相结合,扩大了平民面临的风险。俄罗斯的重点是通过网络攻击和动能攻击相结合的方式对平民造成伤害,例如,在冬季攻击能源基础设施。乌克兰最大的私营能源公司 DTEK 遭到黑客攻击,这表明俄罗斯蓄意攻击对民众至关重要的关键民用基础设施。

信息领域访问量的增加使国土更加脆弱。虚假信息和宣传的传播通过信息操纵破坏了人们对机构的信任。黑客入侵或泄露数据,导致大量关于组织和个人的数据在网上公布,其长期影响不得而知。

图 5 显示与水有关的事件有所增加。

冲突即沙盒

未来战争的态势极有可能(71%-85%)由 “冲突即沙盒”这一概念所决定。这种环境允许军队、私营部门或公民以最小的限制应用(测试)新的或不成熟的战略、概念和能力,从而影响任何冲突的轨迹。

冲突即沙盒提供了间接参与冲突的机会,无需直接升级,并为国家和企业提供了参与的试验平台环境,通常不会造成人员伤亡或 “靴子落地”。这真正创造了一个万物可见、万物可击、人人可用、人人可及的未来。

成为VIP会员查看完整内容
47

战争中的生死抉择不容轻视,无论是数百万人的生命,还是一个孩子的命运。战争法和交战规则为士兵在混乱的战斗中做出决定提供了框架,但在任何特定情况下,要做出正确的选择,往往需要正确的判断。

在人类与战争的关系中,技术已经把人类带到了一个关键的临界点。在未来的战争中,机器可能会独自做出生死攸关的交战决策。全球各国军队都在争先恐后地在海上、地面和空中部署机器人--九十多个国家都有无人机在空中巡逻。这些机器人的自主性越来越强,许多还配备了武器。目前,它们在人类的控制下运行,但当 “捕食者 ”无人机拥有和谷歌汽车一样的自主权时,会发生什么呢?我们应该赋予机器什么样的权力来决定最终的生死?

这不是科幻小说。目前已有三十多个国家拥有自主防御武器,以应对交战速度过快、人类无法做出反应的情况。这些系统用于防御火箭弹和导弹对舰船和基地的饱和攻击,由人类进行监督,必要时可以进行干预,但其他武器,如以色列的 “哈比 ”无人机,已经超越了完全自主的界限。与由人类控制的 “捕食者 ”无人机不同,“哈比 ”无人机可以在大范围内搜索敌方雷达,一旦发现敌方雷达,无需征得允许即可将其摧毁。该无人机已出售给少数几个国家,中国也对其进行了反向工程改造。更广泛的扩散是肯定可能的,“哈比 ”可能只是一个开始。韩国已经在与朝鲜接壤的非军事区部署了机器人哨兵枪。以色列使用武装地面机器人在加沙边境巡逻。俄罗斯正在建造一套武装地面机器人,用于在欧洲平原作战。目前已有 16 个国家拥有武装无人机,另有十几个国家正在公开研发。

这些发展是更深层次技术趋势的一部分:人工智能(AI)的崛起,有人称之为 “下一次工业革命”。技术大师凯文-凯利(Kevin Kelly)将人工智能比作电力:就像电力给我们周围的物体带来动力一样,人工智能也将给它们带来智能。从仓库机器人到下一代无人机,人工智能可以让机器人变得更加复杂和自主,还可以帮助处理大量数据并做出决策,为推特机器人提供动力,编制地铁维修时间表,甚至做出医疗诊断。在战争中,人工智能系统可以帮助人类做出决策,也可以授权人类自己做出决策。

人工智能的崛起将改变战争。二十世纪初,各国军队利用工业革命将坦克、飞机和机枪带入战争,造成了前所未有的破坏。机械化使人们能够制造出在体力上比人类更强、更快的机器,至少在某些任务上是如此。同样,人工智能革命正在实现机器的认知化,创造出在完成某些任务时比人类更聪明、更快速的机器。人工智能在军事上的许多应用是没有争议的--如改进后勤、网络防御以及用于医疗后送、补给或监视的机器人--然而,将人工智能引入武器领域却提出了具有挑战性的问题。如今,自动化已被用于武器的各种功能,但在大多数情况下,仍然是人类在选择目标和扣动扳机。这种情况是否会继续下去还不清楚。大多数国家对自己的计划保持沉默,但也有少数国家表示打算全速推进自主化。俄罗斯高级军事指挥官预计,在不久的将来,“将建立一支完全机器人化的部队,能够独立开展军事行动”,而美国国防部官员则表示,部署完全自主武器的选择应该 “摆在桌面上”。

由武装机器人决定杀戮对象听起来像是一场乌托邦噩梦,但有些人认为,自主武器可以让战争变得更加人道。让自动驾驶汽车避开行人的自动化技术也可以用来避免战争中的平民伤亡,而且与人类士兵不同,机器永远不会生气或寻求报复。它们永远不会疲劳或疲倦。飞机自动驾驶大大提高了商用客机的安全性,挽救了无数生命。自动驾驶能否为战争带来同样的效果?

新型人工智能(如深度学习神经网络)在视觉物体识别、面部识别和感知人类情绪方面取得了惊人的进步。不难想象,未来的武器在分辨手持步枪的人和手持耙子的人方面可以胜过人类。然而,计算机在理解上下文和诠释含义方面仍与人类相差甚远。如今的人工智能程序可以识别图像中的物体,但无法将这些单独的线索串联起来理解全局。

战争中的一些决策是简单明了的。有时敌人很容易识别,射击也很明确。但有些决策,比如斯坦尼斯拉夫-彼得罗夫面临的决策,需要了解更广泛的背景。有些情况,比如我的狙击小组遇到的情况,需要进行道德判断。有时,做正确的事需要打破常规--合法和正确并不总是一致的。

本书将探索下一代机器人武器的快速发展之旅。走进制造智能导弹的防务公司和从事蜂群技术前沿研究的研究实验室。还将介绍制定政策的政府官员和争取禁止机器人武器的活动家。本书将回顾过去--包括曾经出错的地方--展望未来,将会见推动人工智能发展的研究人员

本书将探讨未来自主武器的发展前景。自动股票交易导致了华尔街的 “闪电崩盘”。自动武器会导致 “闪电战 ”吗?深度学习等新的人工智能方法功能强大,但往往导致系统实际上成为一个 “黑盒子”--甚至对其设计者来说也是如此。先进的人工智能系统会带来哪些新挑战?

3000 多名机器人和人工智能专家呼吁禁止攻击性自主武器,60 多个非政府组织也加入了 “制止杀手机器人运动”。斯蒂芬-霍金(Stephen Hawking)、埃隆-马斯克(Elon Musk)和苹果公司联合创始人史蒂夫-沃兹尼亚克(Steve Wozniak)等科技界名人都公开反对自主武器,并警告它们可能引发 “全球人工智能军备竞赛”。

军备竞赛可以避免吗?如果已经发生,能否阻止?人类在控制危险技术方面的记录好坏参半;早在古代就有人试图禁止那些被视为过于危险或不人道的武器。其中许多尝试都以失败告终,包括二十世纪初试图禁止潜艇和飞机的尝试。即使是那些成功的尝试,如禁止化学武器,也很少能阻止巴沙尔-阿萨德的叙利亚或萨达姆-侯赛因的伊拉克等流氓政权。如果国际禁令无法阻止世界上最可恶的政权建立杀手机器人陆军,那么我们有一天可能会面对最黑暗的噩梦变成现实。

成为VIP会员查看完整内容
43

Palantir是硅谷的一家软件公司,应用大数据、AI等技术服务于客户的海量数据处理、业务逻辑建模、执行操作流程等业务需求。截至2025年1月18日,公司市值1635亿美元,超过了雷神、波音、洛·马等一众美股军工巨头。   Palantir成立于2003年,由著名投资人和企业家彼得·蒂尔(Peter Thiel)、卡普(Alex Karp)和另外三位联合创始人一起创立。2005年,公司获得了美国中情局(CIA)风险投资部门In-Q-Tel的首轮投资,2005-2008年,CIA是公司的唯一大客户;2010年,摩根大通成为Palantir首位商业客户,公司业务实现向toB的拓展。2023年,Palantir公司收入22.25亿美元,其中政府业务贡献约55%的营收,商业业务贡献约45%的营收,并且首次实现盈利,归母净利润2.10亿美元。2024Q1-Q3,公司营收20.38亿美元,同比增长26%,毛利率基本稳定,实现净利润3.83亿美元。   Palantir核心产品包括四大平台,应用于政府、商业的多个行业。Palantir开发了Apollo、Gotham、Foundry和AIP四大平台,Apollo为底层技术平台;Gotham用于生成全球决策的操作系统,服务于政府和国防;Foundry是基于本体论的现代企业操作系统,在复杂环境中协调和自动化决策;AIP接入openAI等大语言模型,在应用中使用AI实现代理和自动化。公司在DPO时,其产品已经在36个行业应用,包括国防、医疗、能源、供应链、汽车、金融等。   接入人工智能是Palantir重要的技术和能力,AIP具有模块化、可互操作的特点,允许在任何开发环境中使用任何语言构建自定义应用程序,无代码构建者可以使用AIP的应用程序构建;Foundry依靠数据集成、数字孪生、动态调度、边缘人工智能等技术,方便客户便捷、迅速地部署、决策;Gotham的Titanium桌面客户端提供统一且安全的界面来访问所有平台功能,MetaConstellation与现有卫星网络集成,优化数百个轨道、地面和飞机传感器以及AI模型,协调数百颗卫星解决复杂问题。从专利技术上看,韩玲等《Palantir公司大数据专利技术路线及重点专利分析》检索了Palantir在全球公布的3874件专利,核心专利技术主要涉及物理G部和电学H部,绝大多数在G部,包括G06F17、G06F3、G06F16,旨在提升计算机数据的获取、处理和展示各个环节中的效率。此外,强大的顾问团队提供丰富的专业知识,Palantir顾问团队包括前代理国防部副部长Christine H.Fox、美国退役将军Carter F.Ham、前美国空军部长Deborah Lee James、退役海军上将William H.McRaven等。   Palantir的国防业务覆盖了美国陆军、美国太空部队、美国特种作战司令部以及英国国防部等客户。Palantir首先与陆军研究实验室合作,在2018年为前线人员提供最先进的运营数据和人工智能能力。2019年12月,美国陆军选择了Palantir,签订了一份价值4.58亿美元的生产协议,为陆军Vantage提供支持,2024年12月18日又签订四年4.01亿美元合同,最高上限可达6.19亿美元。此外,公司还支持了Capability Drop2项目、TITAN计划、JADC2系统。2020年,Palantir开始与美国太空部队合作,2022年5月,合同累计总额达到1.75亿美元。自2016年以来,Palantir的平台一直被特种作战司令部(USSOCOM)用于实时任务操作,2023年6月5日,公司宣布获得美国特种作战司令部(USSOCOM)的合同,这份多年合同价值高达4.63亿美元。除美国军方外,公司还服务英国国防部等客户,2022年12月21日,Palantir宣布与英国国防部达成协议(EA),该合作项目价值7500万英镑,为期三年,将支持英国国防部的数字化转型。   Palantir的首席执行官Alex Karp曾多次援引奥本海默的话,形容人工智能的发展已经走到了类似奥本海默开发核武器时的十字路口。Palantir和国防科技公司Anduril正在与十几家竞争对手谈判,计划组建一个科技联盟,共同竞标美国政府的项目,其目标是挑战美国的传统国防巨头,如洛克希德马丁,诺斯罗普格鲁曼、波音和雷神等。   美军对于软件的重视程度非常高,投入巨大;美军核心软件采购对于新兴企业是开放的;美军在AI领域的应用是领先的,并且AI在向边缘拓展。我们认为,大数据与AI技术在未来作战中将起到越来越重要的作用,我军应充分利用国内大数据与AI领域优势企业,如互联网企业、汽车自动驾驶相关企业或者其他新兴企业,来实现作战体系的现代化升级,并将AI拓展应用至边缘,实现装备从无人化到智能化的转变。国内相关上市公司包括中科星图、航天宏图、第四范式、观想科技、能科科技、华如科技、格灵深瞳等。

成为VIP会员查看完整内容
40

随着大语言模型(LLMs)的最新进展,代理式人工智能(Agentic AI)在现实应用中取得了显著进展,朝着基于多个大语言模型的智能体迈进,实现感知、学习、推理和协同行动。这些基于大语言模型的多智能体系统(MASs)使得一组智能体能够协作解决复杂任务,并以大规模方式实现集体行动,从孤立的模型转向以协作为核心的方法。

本文提供了关于多智能体系统协作方面的广泛综述,并提出了一个可扩展的框架来指导未来的研究。我们的框架根据关键维度对协作机制进行表征:参与者(涉及的智能体)、类型(例如,合作、竞争或合作竞争)、结构(例如,点对点、集中式或分布式)、策略(例如,基于角色或基于模型)以及协调协议。通过对现有方法的回顾,我们的研究成果为揭示和推动基于大语言模型的多智能体系统向更加智能和协作的解决方案发展,特别是在复杂的现实应用中,提供了基础。

此外,本文还探讨了多智能体系统在不同领域的各种应用,包括5G/6G网络、工业5.0、问答系统、以及社会文化环境,展示了它们的广泛应用和更深远的影响。最后,我们总结了关键经验教训,分析了多智能体系统面临的开放挑战,并指出了朝着人工集体智能发展的潜在研究方向。

CCS概念:

• 一般和参考 → 综述与概览; • 计算方法 → 多智能体系统;自然语言生成;神经网络。 附加关键词: 人工智能,大语言模型,多智能体协作

1 引言

1.1 动机

大语言模型(LLMs)的最新进展已彻底改变了人工智能(AI),使其能够执行复杂的任务,如创造性写作、推理和决策,堪比人类水平 [156]。尽管这些模型在单独使用时展现了显著的能力,但它们仍然存在一些内在的局限性,如幻觉问题 [57]、自回归特性(例如,无法进行深思熟虑的推理 [49])和扩展法则 [55, 69]。为了应对这些挑战,代理式人工智能(Agentic AI)利用LLM作为大脑或协调者,将它们与外部工具和任务(如规划)结合,使基于LLM的智能体能够采取行动、解决复杂问题,并与外部环境进行交互。 此外,研究者们越来越多地探索横向扩展——利用多个基于LLM的智能体协作实现集体智能。这种方法与多智能体系统(MASs)和协作AI的研究方向一致,后者专注于使一组智能体能够协调、共享知识并共同解决问题。这些领域的融合催生了基于LLM的多智能体系统,利用多个LLM的集体智能来应对复杂的多步挑战 [118]。MAS的灵感不仅来自技术进展,还源于人类集体智能(例如,心智社会 [87],心智理论 [45])。人类社会擅长通过团队合作和专业化实现共享目标,从日常任务到科学发现都可以体现这一点。同样,MAS旨在模拟这些原则,使AI智能体能够通过结合各自的优势和视角有效协作。

基于LLM的MAS可以通过不同的协作渠道进行协作,这些渠道具有不同的特征,如图1所示。MAS在各个领域取得了显著成功,通过让智能体之间进行协作和协调,增强了单个LLM的能力。这些系统将任务分配给智能体,允许智能体共享知识、执行子任务,并将其努力与共享目标对齐。MAS的潜在优势是变革性的。它们擅长知识记忆,使得分布式智能体能够保持并共享多样的知识库,而不会使单一系统过载 [51, 154]。它们通过将任务分配给不同的智能体来增强长期规划,支持在延续的交互中持续解决问题 [58]。此外,MAS通过汇聚来自多个模型的专业知识和提示/角色,能够实现更有效的泛化,比单一模型更有效地解决各种问题。最后,MAS通过通过专业智能体同时管理子任务,提高了交互效率,加速了解决复杂的多步任务。MAS力求实现集体智能,其中多个智能体的综合能力超过了它们单个贡献的总和 [24]。

有效的MASs的一个主要关注点是协作机制 [33, 74, 75, 97, 132],它们促使从传统的孤立模型向强调互动的方法过渡,使得智能体能够连接、协商、做决策、规划并共同执行任务,从而推动集体环境中AI能力的发展。深入理解MAS中的协作机制是解锁其全部潜力的关键。

1.2 现状与贡献

由于基于LLM的多智能体协作系统的重要性和迫切需求,已有一些综述文章讨论了这一主题。然而,这些工作往往未能充分探讨基于LLM的MAS的协作方面和机制,而这些方面对实现智能体朝着共享目标高效协作至关重要,具体总结见表1。例如,[47, 107, 136] 主要关注单智能体系统,仅在表面层次上提及多智能体协作。 [136] 通过提出一个框架为LLM智能体奠定了基础,框架由三部分组成:大脑、感知和行动。该工作强调了使用LLM作为智能体的大脑,利用输入模态整合、提示、检索和工具使用等技术。然而,他们对多智能体协作的讨论仅限于智能体行为和个性,未深入探讨使智能体协同工作的机制。[47] 综述了基于LLM的MAS成功应用的领域和场景,概述了这些系统的通信结构(分层、去中心化、集中式和共享消息池),但没有涉及协作的其他特征,如类型、策略或协调架构。

其他一些工作,如 [82],关注协作策略,将其分类为合并、集成和合作。尽管他们的综述讨论了这些策略如何应用于LLM,并将合作扩展到传统的融合技术之外,但忽略了竞争与合作竞争等其他重要的协作机制,以及超越流行的协作类型的维度。与此不同,[120] 提出了一个增强LLM能力的通用框架,展示了Auto-GPT等工具如何与该框架对接。然而,协作机制仍然停留在概念层面,缺乏详细的实现和表征。[50] 的研究重点是配置LLM以利用多样的能力和角色,如集成记忆和信息检索组件。他们对多智能体协作的探索主要集中在规划和协调架构上,强调基于智能体角色和专业化的全局与局部任务规划。同时,[46] 的工作将焦点缩小到基于LLM的MAS在基于智能体的建模与仿真中的应用,讨论了环境感知、人类对齐、行动生成和评估等挑战。尽管这些工作对于仿真特定应用有启发性,但缺乏对深入协作机制的广泛视角。同样,[68] 综述了这些系统在数字孪生应用中的应用,[52, 70] 聚焦于软件工程领域。

从上述总结和说明中可以看出,在充分探索基于LLM的MAS的协作方面和机制上存在明显的不足,这对于使智能体朝着共享目标有效协作至关重要。本工作旨在提供基于LLM的多智能体协作系统中智能体间协作基础的全面视角。以协作为主要焦点,我们的研究将基于LLM的智能体间协作表征为:参与者(涉及的智能体)、类型(如合作、竞争或合作竞争)、结构(如点对点、集中式或分布式)、策略(如基于角色、基于规则或基于模型)和协调层。我们强调促进有效协作的机制和“诀窍”,识别MAS设计中的关键特征和趋势。通过综述现有方法并识别开放挑战,我们将这些发现综合成一个连贯的框架。该框架为未来研究提供基础,推动LLM在MAS中的集成,为更具适应性、智能性和合作性的AI系统铺平道路,使其能够应对复杂的现实应用。 我们的主要贡献如下:

  • 基于LLM的MAS中的协作方面和机制:我们关注基于LLM的多智能体协作的操作机制,强调实现有效协作所需的“诀窍”,包括协作类型、策略、通信结构和协调架构。
  • 基于LLM的MAS通用框架:我们提出了一个综合框架,整合了MAS的多种特征,帮助研究人员理解、设计和开发多智能体协作系统。
  • 现实世界应用的综述:我们审视了基于LLM的MAS在不同领域的实际应用,突出了其实际应用、成功案例和局限性。经验教训与开放问题的讨论:我们识别了MASs发展的关键挑战,如集体推理和决策,并概述了解决这些挑战的潜在研究方向。1.3 论文结构

本文组织结构如下。第2节提供了理解本研究所需的背景信息,包括LLM、MAS和协作AI的概述。第3节介绍了基于LLM的多智能体协作系统的基础概念,通过数学符号强调协作的关键作用。接着,第4节对基于LLM的多智能体协作系统进行了广泛的综述,按协作的关键特征进行分类,包括类型、策略、结构和协调与 orchestration。第5节回顾了基于LLM的多智能体协作系统在工业和学术领域中的关键应用。第6节讨论了这一新兴研究领域中的开放问题和潜在的未来研究方向。最后,第7节对本文进行了总结。

2. 背景知识

2.1 多智能体系统(MAS)

多智能体系统(MAS)是由多个相互作用的智能体组成的计算机化系统。这些智能体具有自主性,能够感知环境、与其他智能体交互,并通过协作解决复杂的任务。MAS 的关键组成部分包括:

  • 智能体:系统中的核心参与者,具有角色、能力、行为模式和知识模型。智能体的能力包括学习、规划、推理和决策制定,这些能力赋予了智能体和整个系统智能。
  • 环境:智能体所处的外部世界,智能体可以感知并作用于环境。环境可以是模拟的或物理空间,如工厂、道路、电网等。
  • 交互:智能体之间通过标准的智能体通信语言进行通信。智能体的交互包括合作、协调、协商等,具体取决于系统的需求。
  • 组织:智能体可以按照层次结构进行控制,或基于涌现行为进行组织。

MAS 的显著特征包括灵活性、可靠性、自组织和实时操作,使其成为解决复杂任务的有效解决方案。通过将复杂任务分解为多个子任务,每个子任务由不同的智能体处理,MAS 能够以较低的成本和较高的可靠性完成任务。

2.2 大语言模型(LLMs)

大语言模型(LLMs)是基于 Transformer 架构的深度学习模型,如 OpenAI 的 GPT、Meta 的 LLaMA 和 Google 的 Gemini 系列。这些模型通过在大规模文本语料库上进行训练,具备了强大的语言理解和生成能力。LLMs 的规模使其能够解决未经过明确训练的任务,如类比推理和零样本学习。 尽管 LLMs 在单智能体任务中表现出色,但在多智能体环境中,协调、通信和决策制定的复杂性增加,LLMs 的局限性变得更加明显。例如,级联幻觉(cascading hallucinations)问题在多智能体交互中尤为突出,即一个错误的输出可能导致连锁的错误反应。然而,通过引入结构化工作流和共识机制,研究人员正在探索如何克服这些挑战,使 LLMs 在多智能体环境中发挥更大的作用。

2.3 协作式人工智能(Collaborative AI)

协作式人工智能(Collaborative AI)是指设计用于与其他 AI 智能体或人类协作的 AI 系统。协作式 AI 的研究方向包括多智能体系统、人机交互、博弈论和自然语言处理。通过集成这些技术,协作式 AI 有潜力推动具有深远经济和社会影响的新型应用。 协作是使 AI 智能体能够相互交互和合作的关键。协作机制不仅限于简单的合作,还包括竞争和竞合等高级机制。协作式 AI 推动了从传统的孤立模型向强调协作的方法的转变,新的方法使智能体能够交互、协商、决策、规划和共同行动,从而推动 AI 在集体环境中的能力。

3. 多智能体协作概念

3.1 智能体与协作系统的定义

在 LLM 多智能体协作系统中,智能体可以数学表示为 a={m,o,e,x,y},其中:

  • 模型 mm:AI 模型,包括其架构(arch)、智能体的特定内存(mem)和可选的适配器(adp)。适配器是自适应智能模块,允许智能体通过机制(如推测解码和参数高效适配器)从其他智能体获取额外知识。
  • 目标 oo:智能体的目标或任务,指导其在系统中的行为。
  • 环境 ee:智能体所处的环境或上下文,通常由上下文窗口中的令牌数量限制。
  • 输入 xx:智能体的输入感知,如文本或传感器数据。
  • 输出 yy:智能体的相应动作或输出,定义为 y=m(o,e,x)。

3.2 问题定义

在 LLM 驱动的 MAS 中,智能体之间的协作至关重要。每个协作都有一个通信通道 cc,协作包括:

  1. 任务分配:根据智能体的独特专业知识和资源,将任务分配给多个智能体。
  2. 协作机制:定义智能体之间的协作机制,使它们能够共同工作。
  3. 决策制定:智能体之间的决策制定,以达到最终目标。

协作通道通过特定的属性进行表征,包括参与者(涉及的智能体)、类型(如合作、竞争或竞合)、结构(如点对点、集中式或分布式)和策略(如基于角色、基于规则或基于模型)。任何属性的差异都会导致不同的协作通道。

4. 方法论

4.1 协作类型

**4.1.1 合作

合作是 LLM 多智能体系统中最常见的协作类型。当智能体将其个体目标 oi与共享的集体目标 Ocollab对齐时,它们会共同努力实现互利的结果。合作在需要协作问题解决、集体决策和互补技能的任务中尤为重要。

**4.1.2 竞争

竞争发生在智能体的个体目标 oi与其他智能体的目标冲突或资源有限的情况下。竞争可以推动智能体发展更高级的推理能力和创造性问题解决能力,增强系统的适应性。

**4.1.3 竞合

竞合是合作与竞争的结合,智能体在某些任务上合作,而在其他任务上竞争。竞合机制在需要权衡和妥协的场景中尤为有效。

4.2 协作策略

**4.2.1 基于规则的协议

基于规则的协议通过预定义的规则严格控制智能体之间的交互,确保智能体按照系统范围内的约束协调行动。这种策略在任务程序明确且变化有限的情况下非常有效,但在面对意外情况时缺乏适应性。

**4.2.2 基于角色的协议

基于角色的协议通过为每个智能体分配特定的角色或分工,使智能体能够专注于其专业领域内的子任务。这种策略提高了系统的效率和结构,但在角色定义不明确时可能导致冲突或功能缺陷。

**4.2.3 基于模型的协议

基于模型的协议在输入感知存在不确定性的环境中提供了决策制定的灵活性。智能体根据对环境的感知、共同目标和固有的不确定性做出概率性决策。这种策略在动态环境中表现出色,但设计和部署复杂,计算成本较高。

4.3 通信结构

**4.3.1 集中式结构

集中式结构中,所有智能体都连接到一个中央智能体,中央智能体负责管理和协调智能体之间的交互。集中式结构在资源分配和任务协调方面具有优势,但中央节点的故障可能导致整个系统崩溃。

**4.3.2 分布式结构

分布式结构中,控制权和决策权分布在多个智能体之间,每个智能体基于本地信息和有限的通信进行操作。分布式结构在系统容错性和可扩展性方面具有优势,但资源分配效率较低,通信开销较大。

**4.3.3 分层结构

分层结构中,智能体按层次组织,每个层次的智能体具有不同的功能和权限。分层结构在任务分配和资源管理方面具有优势,但边缘设备的故障可能导致系统失效。

4.4 协调与编排

**4.4.1 静态架构

静态架构依赖于领域知识和预定义的规则来建立协作通道。这种架构在任务执行一致性和利用领域知识方面具有优势,但在面对动态环境时缺乏灵活性。

**4.4.2 动态架构

动态架构能够适应变化的环境和任务需求,通过管理智能体或自适应机制实时分配角色和定义协作通道。动态架构在处理复杂和动态任务时表现出色,但资源使用较高,动态调整可能失败。

5. 实际应用

5.1 5G/6G 网络与工业 5.0

LLMs 在 5G/6G 网络和工业 5.0 中的应用显著提升了边缘网络的性能。例如,LLM-SC 框架利用 LLMs 建模文本的语义信息,设计基于 LLMs 的语义通信系统,实现了语义级和技术级性能的平衡。

5.2 问答与自然语言生成(QA/NLG)

LLMs 在问答和自然语言生成任务中的应用显著提升了系统的能力。例如,OpenAI 的 Swarm 框架通过引入“交接”机制,使多个智能体能够无缝协作,提升系统的效率和适应性。

5.3 社会与文化领域

LLMs 和 MASs 在社会和文化领域的应用展示了这些系统在模拟人类行为、社会动态和文化互动方面的潜力。例如,CulturePark 框架通过模拟跨文化互动,促进了跨文化理解和减少偏见。

6. 开放问题与讨论

6.1 集体智能的实现

实现集体智能需要解决多个开放挑战,包括统一治理、共享决策制定、智能体作为数字物种的设计、可扩展性和资源管理,以及发现和探索意外的泛化能力。

6.2 综合评估与基准测试

评估 MASs 的性能和行为比评估单个 LLMs 更为复杂。需要建立统一的、广泛的基准测试框架,以确保评估结果的可重复性和一致性。

6.3 伦理风险与安全性

LLMs 在多智能体系统中的部署可能放大幻觉和对抗性攻击的风险。确保智能体在伦理边界内操作,并防止有害行为的发生,是确保系统安全性和可靠性的关键。

7. 结论

通过对 LLM 多智能体协作机制的全面综述,我们提出了一个结构化和可扩展的框架,以指导未来的研究。我们的框架基于参与者、类型、结构、策略和协调机制五个关键维度,提供了分析和设计 LLM 多智能体协作交互的系统方法。我们相信,这项工作将为未来的研究提供灵感,并推动 MASs 向更智能和协作的解决方案迈进。

成为VIP会员查看完整内容
43

2030 年至 2040 年期间,人机一体化(HMI)将如何演变作战特征,并促使整个 DOTMLPF-P 发生变化,从而在未来军事冲突中获得或保持竞争优势?

  • 在机器的辅助下,哪些功能可能仍将以人/CDR 为中心?
  • 哪些流程、教育计划和工具将有可能培养出一支能够提出正确问题并做出正确决策的军队队伍,以便在以数据为中心的环境中作战并取得胜利?

2030 年至 2040 年期间,人机一体化极有可能(71%-85%)从根本上重塑全球战争的特征,影响部队设计的所有要素(DOTMLPF-P)和每个军事作战职能。尽管影响范围如此广泛,但变革不可能平均分布(见图 1)。事实上,在未来 15 年中,关键技术、社会、工业和管理趋势的融合很可能会将这种转变集中在五个不同的领域:

  • 人机一体化--增强型指挥与操纵
  • 伦理人工智能--强化决策
  • 面向未来的军事能力
  • 未来支持基础设施
  • DOTMLPF-P范式的落幕

图 1:该图显示了 DOTMLPF-P 要素与作战功能的交叉点,以及人机一体化系统和流程对每个要素从高到低的预测影响。

第一个关键领域: HMI增强型指挥和机动

图 2:第一个关键领域体现了培训/政策与 M2/C2 之间的高度影响。

到 2040 年,HMI 系统将可能主要通过培训和政策部队设计要素,推动指挥与控制 (C2) 和运动与机动 (M2) 领域作战能力的进步(见图 2)。除了自主系统等有据可查的创新外,一项条令创新、两项与人机界面相关的新技术和一个新兴的教学过程的融合可能会加速这些进步:战术战术手册、轻量级和无处不在的 AR/VR 技术、脑计算机接口(BCI)和微学习。此外,HMI 伦理政策虽然往往较晚或不完整,但很可能会起到强调这些进步中人的因素的重要性的作用。掌握这种融合的军队将极有可能获得在战场上不断学习和实时适应的能力,并迅速将新知识传播给部队的其他成员。

  • 战术手册。作为 “任务式指挥 ”理念的一个重要延伸,“战术手册 ”思维可能是人机一体化部队的最佳选择。柯林斯航空航天公司无人机和先进项目副主任 Jaclyn Hoke 博士说:"就像四分卫指挥比赛一样,当人类设定指令时,系统应理解并根据指令执行。追求这种'脚本自主'对于将自主系统有效地融入我们的综合防御战略至关重要。”

  • 轻便且无处不在的 AR/VR。随着 AR 和 VR 设备变得更加时尚和先进,经过 HMI 优化的军队将可能即时、随时随地开展高保真训练,包括在战场上。事实证明,这些技术在各个领域都很有价值。例如,纽约警察局利用沉浸式模拟进行情感疏离训练,强化公平性,帮助警官做出不带感情色彩的决定。

  • BCI。无创 BCI 将可能成为解读大脑信号,与人类和机器进行交流的先进方式。无创生物识别(BCI)可以发送和接收思维激活信息,利用电子 “中间人 ”设备进行隐形通信。OpenBCI 公司的 Galea Beta 设备(见图 3)预计将于 2024 年面市,该设备集成了生理传感器,可监测大脑、心脏、皮肤、肌肉和眼睛的活动,在混合现实和神经技术之间架起了一座桥梁。

图 3:OpenBCI 的 Galea 在混合现实和神经技术之间架起了一座无缝桥梁,“为人机交互铺平了道路,让人感觉更像是用户自己身体的自然延伸”。

  • 高级微学习。到 2040 年,几乎可以肯定的是,士兵将利用微学习进行训练和作战准备。微学习包括简洁、有针对性的学习片段,旨在快速掌握技能,非常适合军事训练等动态环境。先进的微学习结合了自适应人工智能技术、用于模拟真实场景的增强现实和虚拟现实技术,以及可在任何地点使用的移动技术。它还以游戏化为特色,提高参与度,并通过数据分析来定制和优化学习体验。西英格兰大学(University of the West of England)教授创业学的迪伦-琼斯-埃文斯(Dylan Jones-Evans)在2024年3月的一篇《西部邮报》文章中指出,预计到2024年底,将有近一半的公司(47%)实施微学习战术。

  • HMI 道德政策。将人类的道德决策与人工智能的计算能力相结合,将精确的机器数据与人类的判断和价值观快速结合起来。各组织可能需要调整其伦理方法,以适应这种新结构,而政府几乎肯定需要制定相关政策。卡内基梅隆大学软件工程研究所将道义伦理框架与机器对/错决策相结合,提高了 HMI 系统在 C2 决策场景中的有效性,并增强了信任度、责任感和可用性。

第二个关键领域: 伦理人工智能强化决策

图 4:第二个关键领域突出了人事/条令与 M2/C2 之间的交叉。

到 2040 年,HMI 极有可能加强 C2 和 M2 中的人工智能伦理决策,主要影响人员和理论要素(见图 4)。这一发现立足于人的层面,列出了三种可能提高效率的创新技术和协议: 人工智能优化决策速度、“人工智能 ”和人工智能危机管理。结合人类先前存在的拟人化偏见,这些进步很可能会影响高风险环境中的传统军事决策过程,从而做出更快、更有效的反应。

  • 人工智能优化决策。主要由于大型语言和大型行动模型的快速发展,先进的计算机系统很可能能够实时分析非结构化和定性数据,以加强 C2 决策过程。此外,主要由于世代交替以及这些系统所提供的有针对性的教育和培训,军事领导人也很可能发展出与机器高效互动并解释其输出结果所需的技能。德勤公司 2023 年的一项研究强调了这种整合,揭示了将人类道德决策与人工智能优化的机器计算能力相结合,可实现以接近机器的速度做出决策(见图 5)。

图 5:人工智能与人工监督有效结合,有助于创造更公平、更具包容性的服务。

  • 人工智慧(AW)。认知人工智能系统不仅仅是计算和分析工具,还完全具备道德决策、移情互动和适应性学习的能力,但到 2040 年,这些系统的进步还不太可能实现。不过,这些系统和早期原型的元素几乎肯定会进入伦理人工智能增强决策系统,因为军队越来越认识到,不仅要让领导者更聪明,还要让他们更有智慧。休谟人工智能公司(Hume AI)于2024年3月发布了 “移情语音界面”(EVI)的测试版;这一情感智能人工智能是在数百万次人类对话中训练出来的,可以检测用户何时说完话,预测他们的偏好,并调整语音反应,从而随着时间的推移提高满意度。

  • 人工智能危机管理。目前,人工智能在危机管理中的应用还不充分,但很可能成为解决未来紧急情况的标准协议。在芬兰外交部的支持下,马耳他和瑞士成立了一家非营利组织 DiPLO,该组织正在研究人工智能模拟人类对话和战略推理的能力,这正在改变谈判和危机管理,预示着未来人工智能与外交和国际合作的融合将更加深入。

  • 拟人化。拟人化偏差,即人类将人类特征赋予非人类物体的倾向,可能会随着机器获得自主权和对话能力而带来新的重大挑战。领导者必须明白,士兵与机器之间几乎肯定会建立起牢固的联系,这就需要制定复杂的策略和协议来有效管理偏见。阿伯丁大学高级讲师、美国、英国和欧盟人工智能与核政策顾问詹姆斯-约翰逊博士指出,设计选择会影响用户对人工智能交互的看法。人工智能可以通过编程或自主学习来抑制或表现出类似人类的特征,从而有可能用于假旗行动或虚假信息宣传等欺骗性活动。

第三个关键领域: 面向未来的军事能力

图 6:第三个关键领域包括情报、火力和维持。

到 2040 年,先进技术可能会影响部队设计的各个要素,如情报、火力和维持,尽管这些功能之间的水平差异很大(见图 6)。这些差异反过来又是由科技产业驱动的,科技产业在很大程度上推动了创新,但它们不太可能把重点放在这些作战功能上,而是选择对潜在市场更大的商业产品进行研究。然而,四种新兴技术结合在一起,很可能实现技术飞跃,减轻大多数科技产业以商业为重点的影响。它们包括模拟人脑过程的神经形态技术;除其他外可以加快供应链运作的先进神经网络;人工智能和区块链的增强;以及有意义的量子计算的出现。此外,到 2040 年,这些技术还将促使军事人员的角色从体力型向认知型转变。

  • 神经形态技术。神经形态技术以类似人类的方式处理图像和声音等感官数据,这可能会使士兵使用的系统做出更自然的反应。通过降低处理所需的功率,这项技术可能会使 HMI 系统的外形尺寸更小。神经形态计算潜力的一个很好的例子是 NeuRAAM 芯片。该芯片于 2022 年由加州大学圣迭戈分校的全球生物工程师团队开发,采用了神经形态技术,可直接在内存中处理人工智能应用。与传统的人工智能平台相比,这种设计大大降低了能耗,使 NeuRRAM 成为智能手表、AR/VR 头显、智能传感器和太空漫游车等边缘设备的理想选择。采用类似 NeuRRAM 芯片的设备可以独立执行高级认知任务,无需中央服务器或云连接。

  • 高级神经网络(ANN)。高级神经网络能够理解采购、制造、仓储和运输等因素之间的关系,因此有可能为库存管理提供洞察力,并促进供应链管理中的任务,如根据特定标准评估和选择供应商。切尔卡瑟国立技术大学于 2022 年 1 月强调了速度在供应链中的关键作用,并通过一项研究表明,先进的神经网络可显著提高预测准确性。

  • 人工智能和区块链。使用人工智能和区块链的 HMI 进步极有可能实现人类和机器之间弹性和安全数据的无缝传输。麻省理工学院运输与物流中心强调,到 2040 年,HMI 将能在复杂场景中实现从自动化系统到人类指导干预的更平稳过渡。这种整合可能会提高操作灵活性,加强安全协议,简化供应链管理,并增强物流操作的信任度和可靠性。

  • 量子计算。到 2030 年代末,量子计算将可能通过引入新的能力和方法来影响数据分析、传感器和密码学,从而开始改变军事行动。谷歌和 IBM 预计将分别在 2029 年和 2030 年突破 100 万量子比特,这标志着量子计算的重大成就。

  • 军事人员的技术技能。到 2040 年,先进的 HMI 和自主设备几乎肯定会从根本上改变士兵的角色和军事机构内更广泛的文化。这种转变将要求从体能到技术熟练程度的重大转变,从而模糊战斗角色和专业技术之间的界限。2021 年,《体育科学与医学杂志》发表的研究结果表明,到 2040 年,作战人员的转变几乎肯定是由于新兴技术对军事人员表现的影响,如图 7 所示。

图 7:每个战争级别对军事作战人员的需求从体能到认知的转变。

第四个关键领域:未来支持基础设施

图 8:第四个关键领域强调了 DOTMLPF-P 和 WfF 之间影响最小的领域。

到 2040 年,将 HMI 集成到军事和工业应用中将重新定义作战环境。正如所谓的 “协作中心 ”所展示的那样,人类与机器之间的协同作用很可能会提高性能,这就需要专门建造能够促进有效合作的环境。同样,向更加自主的系统转变可能需要先进的电力解决方案,如移动微电网和大容量电池,以支持能源日益密集的操作。此外,3D 打印技术的发展可能会影响供应链,实现快速现场生产和维修,从而保持持续的运行准备状态。然而,这些技术进步给实体设施的现代化带来了巨大挑战,这些设施可能会同时发展,以支持所需的先进基础设施。这可能需要采取积极主动的方法来克服监管和后勤障碍,以确保这些创新在各个领域得到有效整合和利用。

  • 协作中心。人类与机器之间的高效协作可能需要专门的空间来运行和整合。澳大利亚兰德公司于 2020 年推出的一份报告延续了澳大利亚皇家海军《RAS-AI 战略 2040》开始的工作,强调 HMI 的成功和特点在很大程度上取决于个人是否愿意将机器人纳入多样化的劳动力和军事环境(见图 9)。

图 9:机器人辅助协同工作的约翰森时空矩阵。

  • 发电。随着各国部署更多无人驾驶设备,并致力于减少对化石燃料的依赖,对发电资源的需求可能会增长。能够以 “孤岛 ”模式独立运行的微电网需要大量基础设施。西门子、SEL 和施耐德电气等领先企业正在率先开发移动微电网,以满足这些需求。

  • 3D 打印。HMI 系统极有可能需要能够生产和维修战场可穿戴设备的设施和组织。随着 3D 打印技术在未来十年内变得更小巧、更易于操作,这将开启零部件的现场打印,迅速恢复士兵和装备的全部任务能力。来自 Velo3D 公司的 Greg Brown 和来自 Braskem 公司的 Jason Vagnozzi 等行业领袖指出,3D 打印的生产率和流程控制越来越重要,这对于以较低成本生产复杂的集成组件至关重要。

  • 设施现代化挑战。建造或改建设施会带来许多挑战,即使是无关领域的变化也可能对现有设施造成影响。当发生大规模变化时,这些挑战可能会加剧,有可能超过设施投资的速度。兰德公司 2021 年题为 “美国陆军非物资能力开发流程回顾 ”的研究报告也发现,当 DOTMLPF-P 的其余部队设计要素实施变革时,设施领域会出现落后的情况。

第五个关键领域: 停用 DOTMLPF-P 范式

图 10:网络分析显示,DOTMLPF-P 以 “炉灶式 ”的系统方式呈现感兴趣的领域

虽然 DOTMLPF-P 不太可能完全消失,但到 2040 年,随着 HMI 在整个部队的普及,其效用可能会逐渐减弱。HMI 技术与数据能力要求的提升相结合,可能需要从非传统角度评估不断变化的作战特点。网络分析范例可同时揭示复杂的自适应系统和系统中最具影响力的部分、系统内部的联系以及系统的潜在异常值。网络分析清楚地显示了(见图 10)系统内部各项目之间的动态交叉,而 DOTMLPF-P 则以系统的方式呈现了感兴趣的领域。

利用该网络分析到 2040 年 HMI 的影响,我们发现有两个新领域与之前的 DOTMLPF-P 发现有很大不同:

  • HMI 的理念。到 2040 年,HMI 与伦理决策的交叉点很可能会发生重大转变,军事领导人需要做出艰难的哲学选择。如需了解更多信息,请参阅下面的调查结果: “在机器的辅助下,哪些职能可能仍将以人类/CDR 为中心?

  • 培训和招募 HMI 人才。2030 年至 2040 年期间,在以数据为中心的环境中,对员工队伍至关重要的工具、流程和教育计划的开发很可能会大幅增加。但是,如果没有大量的参与,这些工具、流程和教育计划极有可能更侧重于改善民用和商用需求,而非军事需求。欲了解更多信息,请参阅以下调查结果: “哪些流程、教育计划和工具将有可能培养出一支能够提出正确问题并制定决策的军事人才队伍,从而在以数据为中心的环境中作战并取得胜利?

在机器的辅助下,哪些功能仍将以人类/CDR 为中心?

虽然哲学家和神学家会继续争论不休,但很可能有三个主要框架(见图 11)来理解伦理决策哲学:基于规则的思维、基于关怀的思维和基于目的的功利主义思维。哲学家和伦理学家拉什沃斯-基德博士认为,这三个框架 “提供了不同的视角,通过它们可以看到我们的困境,使用不同的屏幕来评估它们”。

图 11:以规则为基础、以关爱为基础和以功利为基础是三种主要的决策伦理框架。

每个框架都提供了一些标准,用于确定决策应由人类单独做出、主要由人类做出、完全由机器做出、主要由机器做出,还是由人类和机器共同做出。随着时间的推移,随着人类对人工智能和机器的信任度越来越高、工作经验越来越丰富,这些决策的整合程度可能会越来越高。与此同时,随着技术的进步,机器可能会通过高级交互和改进认知行为来加深理解。

为了形象地展示这种转变,研究小组采用了多标准决策分析和名义小组技术,针对过去五个月中进行的非保密开源研究,对六项道德标准进行了评估。目前,在情感细腻度和情感反应能力这两个以关怀为基础的思维方面,更依赖于人类决策(见图 12)。同样,人类比机器更能实现效用最大化。最后,在灵活性标准方面,人类更受青睐,这可能会使人类在动态情况下做出更好的基于规则的决策。

图 12:机器很可能通过长期学习获得道德灵活性。

到 2040 年,机器很可能会通过长期学习获得灵活性,这很可能会提高人工智能实现效用最大化的能力(见图 13)。此外,由于与人类信任互动的增加和人工智能的进步,机器在情感细腻度方面也可能会有所提高,尽管只是略有提高。此外,由于这些互动,人类很可能会在决策过程之前、期间和之后,通过获取数据以及理解和处理数据的能力,变得更加一致。

图 13:当今伦理决策的灵活性标准更倾向于人类。注:有关人类能力的完整列表以及当前大型语言模型相对于人类的排名,请参见附件 H。

什么样的流程、教育计划和工具才有可能培养出一支能够提出正确问题并做出正确决策的军事人才队伍,从而在以数据为中心的环境中作战并取得胜利?

可能培养军事人才的程序、教育计划和工具正在迅速增加,而且在可预见的未来可能会继续增加。例如,TheresAnAIForThat网站目前在其目录中列出了 12,000 多项人工智能应用,而一年前只有一千多项。

图 14:思维导图显示预计到 2040 年将改变 HMI 运行的工具和举措。注:完整的思维导图见附件 B。

不过,大多数教育计划和工具可能会针对利润丰厚的商业和民用教育市场进行优化,军事部队使用时可能至少需要进行一些修改。程序也可能会发生变化,以确保以数据为中心的员工队伍知道如何与这些工具互动,从而最大限度地提高行动效率。此外,随着新的、更好的产品的出现,它们的影响很可能是短暂的。

图 15:思维导图显示预计到 2040 年将改变 HMI 运营的 21 个流程。注:完整的思维导图见附件 B。

尽管如此,如图 14 和图 15 所示,小组确定了 21 项流程、10 项教育举措和 16 项工具,这些流程、举措和工具与军事相关,目前正在影响着劳动力的培养方式。所有流程、举措和工具的综合清单见附件 B。

成为VIP会员查看完整内容
37

本报告专为首席执行官以及业务和创新领导者而设计。报告介绍了对 2025 年最具影响力的技术趋势的看法。在回顾对 2024 年预测的准确性的同时,报告还对主导科技领域的趋势提供了宝贵的见解。对行业高管、投资者群体进行了全面调查,并与专家进行了深入讨论,这些数据都为预测提供了支持。从这一分析中得出的见解将有助于技术和商业领袖制定合理的战略和进行有影响力的投资。

本报告基于

  • 对来自北美、欧洲和亚太地区 12 个主要国家的 1,500 名 C-suite 高管进行的全球调查。
  • 对来自 12 个主要国家的 500 名风险投资、私募股权投资和商业银行行业的投资专业人士进行的全球调查。
  • 对 24 位行业领袖、分析师和学者进行了深入访谈。

所有接受调查的机构都是各自行业的重要参与者,年收入超过 10 亿美元。全球调查于 2024 年 10 月进行。更多详情,请参阅报告末尾的研究方法部分

专家评出的 2025 年五大科技趋势

  • 生成式人工智能:从副驾驶到推理性AI智能体
  • 网络安全中的人工智能和生成式人工智能: 新防御、新威胁
  • 人工智能驱动的机器人技术: 模糊人类与机器之间的界限
  • 人工智能的迅猛发展正在推动核能复兴
  • 新一代供应链: 敏捷、绿色和人工智能辅助

又到了每年的这个时候。科技领域的大师们争相预测 2025 年的发展趋势。本文专家对技术的深刻理解,加上数十年来作为全球客户的战略和转型合作伙伴所积累的丰富经验,使在预测2025年最具影响力的趋势方面处于独一无二的地位。

预测的一个关键主题是,人工智能和生成式人工智能(Gen AI)是驱动力。这一观点得到了全球行业高管以及风险投资和私募股权投资专业人士的认同。预计,人工智能/生成式人工智能将推动其他关键技术的显著增长。2025 年值得关注的五大技术趋势是

1.生成式人工智能(Gen AI): 从副驾驶到推理性AI能体

自主智能系统在执行某些任务时变得越来越普遍。这些智能体能够学习和适应新情况,使其成为从客户服务到医疗保健等各行各业的宝贵财富。这种技术演进的下一步将是 “超级智能体 ”的崛起,它能够协调和优化多个人工智能系统。2025 年,这些进步将在各行各业实现新的人工智能生态系统,将效率和创新提升到新的高度。

2.网络安全中的人工智能与生成式人工智能: 新防御、新威胁

人工智能正在从法律鸿沟的两侧改变网络安全,将网络攻击和网络防御提升到新的复杂水平。目前,犯罪分子已经抢占了先机:在我们最近发布的报告中,几乎所有受访企业(97%)都表示,在过去一年中,他们遭遇了与使用生成式人工智能相关的漏洞或安全问题。在我们的调查中,行业高管们将人工智能和 Gen AI 在网络安全方面的应用列为我们分析的 60 多种趋势中最高的趋势。

3. 人工智能驱动的机器人技术: 模糊人类与机器之间的界限

各行各业都在使用协作机器人(cobots)和人工智能驱动的机器人技术来提高生产率和安全性。这些技术使人类和机器人能够协同执行精密任务。过去,硬编码、特定任务的机器曾在机器人技术中占据主导地位,而现在,新一代人工智能的发展正推动着包括仿人机器人和协作机器人在内的新产品的诞生,这些产品能够适应各种场景,并不断从环境中学习。随着机器人逐渐实现完全自主,人工智能承担起复杂的决策角色,未来的工作可能会出现传统等级制度的转变。

4.人工智能激增推动核能复兴

核能是2025年的一个焦点,其推动力是对清洁、可靠和可控电力的迫切需求(部分原因是人工智能和其他新技术的崛起)。尽管在 2024 年 10 月,全球只有极少数高层管理人员将小型模块化反应堆(SMR)列为 2025 年可持续发展技术的前三名,但今年最后几周与 SMR 相关的新闻激增,表明 2025 年可能至关重要。

5.新一代供应链:敏捷、绿色和人工智能辅助

近年来,企业不得不应对日益复杂、不可预测的市场环境。人工智能、数据、区块链、物联网(IoT)以及与地面卫星网络的连接等技术,在提高供应链的成本效率、弹性、敏捷性、循环性和可持续性方面发挥着战略性作用。更多的监管和环境限制将使这一转变对确保竞争力、灵活性和复原力至关重要。

成为VIP会员查看完整内容
40

书籍简介

学习如何将基于大语言模型的应用安全高效地投入生产。 本实用书籍提供了清晰且富有示例的解释,涵盖了大语言模型(LLMs)如何工作、如何与它们互动,以及如何将LLM集成到自己的应用中。了解LLM与传统软件和机器学习的不同之处,探索如何将它们从实验室环境转化到实际应用中的最佳实践,并借助经验丰富的建议避开常见的陷阱。 在《大语言模型在生产中的应用》一书中,您将: • 掌握大语言模型及其背后的技术基础 • 评估何时使用现成的LLM,何时自己构建一个 • 高效地扩展机器学习平台,以满足LLM的需求 • 训练LLM基础模型并微调现有的LLM • 使用复杂架构(如PEFT和LoRA)将LLM部署到云端和边缘设备 • 构建应用程序,充分利用LLM的优势,同时减轻其弱点 《大语言模型在生产中的应用》为您提供了MLOps的宝贵见解,使您能够轻松无缝地将其引导至生产使用。在书中,您将获得关于从获取适用于LLM的训练数据集、构建平台到补偿LLM庞大规模的实践见解。此外,还包括提示工程、再训练和负载测试、成本管理和确保安全性的技巧与窍门。 前言:Joe Reis

购买印刷版书籍可获得Manning Publications提供的免费PDF和ePub格式电子书。


关于技术

大多数商业软件是通过迭代开发和改进的,甚至在部署后也可能发生重大变化。相比之下,由于LLM的创建成本高且修改困难,它们需要在前期进行细致的规划、严格的数据标准和精心执行的技术实施。将LLM集成到生产产品中将影响到您操作计划的方方面面,包括应用生命周期、数据管道、计算成本、安全性等。如果出错,可能会带来高昂的失败代价。


关于本书

《大语言模型在生产中的应用》将教您如何制定一个LLMOps计划,确保AI应用从设计到交付的顺利过渡。您将学习准备LLM数据集的技巧、像LORA和RLHF这样的成本高效训练方法,以及行业基准模型评估标准。在此过程中,您将通过三个令人兴奋的示例项目来运用新学到的技能:创建和训练一个定制的LLM、构建VSCode AI编码扩展以及将一个小型模型部署到树莓派。


本书内容:

• 成本与性能的平衡 • 再训练与负载测试 • 针对通用硬件优化模型 • 在Kubernetes集群上部署


读者对象

适合了解Python及云部署基础的 数据科学家和机器学习工程师。


作者介绍

Christopher Brousseau 和 Matt Sharp 是经验丰富的工程师,曾领导过多个成功的大规模LLM部署项目。


目录

  1. 语言的觉醒:为何大语言模型引起了关注

  2. 大语言模型:语言建模的深度解析

  3. 大语言模型操作:构建LLM平台

  4. 大语言模型的数据工程:为成功奠定基础

  5. 训练大语言模型:如何生成生成器

  6. 大语言模型服务:实用指南

  7. 提示工程:成为LLM的“低语者”

  8. 大语言模型应用:构建互动体验

  9. 创建LLM项目:重新实现Llama 3

  10. 创建编码助手项目:这会早些时候帮到你

  11. 在树莓派上部署LLM:可以做得更低吗?

  12. 生产:一个不断变化的领域:事情才刚刚开始

A. 语言学历史

B. 带有人类反馈的强化学习

C. 多模态潜在空间


作者简介

Christopher Brousseau 是JPMorganChase的Staff MLE,具有语言学和本地化背景,专注于语言学驱动的自然语言处理(NLP),尤其在国际化方面,并曾领导多个成功的机器学习和数据产品项目,涉及初创公司及财富500强企业。 Matt Sharp 是一名工程师,前数据科学家及资深的MLOps技术领导者,曾为初创公司和顶尖科技公司领导多个成功的数据项目,专注于在生产环境中部署、管理和扩展机器学习模型。

成为VIP会员查看完整内容
37

一种潜在的知识图谱基础模型定义是:一个图神经网络(GNN)模型,经过大规模知识图谱数据集的预训练,这些图谱涵盖了多个领域(例如,体育、艺术),该模型可以在不进行重新训练的情况下,泛化到新任务中,适用于未见过的领域、未知的关系类型和节点特征空间(例如,医疗健康)。在本研究中,我们探讨了基于不变性理论的数学基础,这为这种可适应模型提供了可能。我们的结果突出了不变性理论、图论、统计学与机器学习概念(如元学习)之间的若干有前景的联系,提供了一条通向更加灵活且可泛化的知识库图模型的路径。

2 大规模语言模型(LLMs)

成为VIP会员查看完整内容
36

人工智能(AI)通过提供决策建议和与问题相关的信息来协助人类决策者,具有改善人类决策的潜力。然而,要充分发挥人类与人工智能协作的潜力,仍然面临着一些挑战。首先,必须了解支持互补性的条件,即人类在人工智能辅助下的表现超过无辅助的人类或单独的人工智能的情况。这项任务要求人类能够识别出应该利用人工智能的情况,并开发出能够学习补充人类决策者的新型人工智能系统。其次,需要准确评估人类对人工智能的心理模型,其中既包括对人工智能的期望,也包括依赖策略。第三,需要了解不同的人机交互设计选择所产生的影响,包括人工智能辅助的时机以及应该向人类决策者展示的模型信息量,以避免认知超载和无效的依赖策略。针对这三大挑战,将基于最新的经验和理论研究成果提出跨学科观点,并讨论新的研究方向。

表 1: 本文研究的人工智能辅助决策的现实世界实例及相关挑战

过去十年来,人工智能(AI)越来越多地被用于在各个领域协助人类。现在,简单的任务都可以通过 Siri 和 Alexa 等数字人工智能助手实现自动化。人们依靠高级驾驶辅助系统(ADAS)来改善驾驶体验。媒体平台上的推荐系统提供个性化播放列表,其中既有用户喜爱的内容,也有他们可能喜欢的新内容。将人工智能融入日常生活,有望节省人力,避免人类决策的盲点,并有可能挽救生命。然而,人类与人工智能的合作也面临着许多挑战。已部署的人工智能系统因传播系统性偏见(Raji & Buolamwini, 2019; Gebru, 2020)、对训练数据之外的示例概括能力差(Shen 等人,2021)以及以牺牲用户福祉为代价优化用户参与度等问题而受到公众监督。这些问题源于这些人工智能系统与人类用户的目标和价值观不一致(Christian,2020;Gabriel,2020)。要创建符合人类价值观和期望的人工智能,需要指定反映人类价值观的效用函数,而这仍然是一个挑战。就目前的形式而言,人工智能无法独立做出对人类来说准确、可接受和公平的决策。因此,在做出决策时,除了人工智能的计算之外,还必须考虑人类决策者(DM)的专业知识和反馈。

本文将重点关注与人工智能辅助决策相关的一系列挑战,即人工智能以预测和/或解释的形式向做出最终决策的人类决策者提供帮助。例如,人工智能系统已被开发用于协助专家进行临床诊断(Rajpurkar 等人,2020 年;Sayres 等人,2019 年)、金融(Bussmann 等人,2021 年)和司法(Grgic´-Hlacˇa 等人,2019 年)决策以及预测(Benjamin 等人,2023 年)。关于人工智能辅助决策的文献越来越多,涉及多个学科和研究领域,包括人机交互(HCI)、人工智能和机器学习以及心理学(Lai 等人,2021 年)。

没有对这些文献进行系统性的回顾,而是综合了已经出现的一些见解,并将重点完全放在人工智能辅助决策的性能相关方面。具体来说,研究了人工智能协助人类管理者完成独立任务时影响决策准确性的三大挑战。首先,讨论了开发能够补充人类管理者能力的人工智能的必要性。当熟练的人工智能助手融入决策过程时,人类必须充分了解人工智能的能力和制约因素。其次,强调人类对人工智能精确心智模型的重要性。只有当人知道如何利用这种支持来提高人类-人工智能团队的绩效时,人工智能辅助才能充分发挥其潜力。第三,讨论了在人类与人工智能协同工作的不同工作流程中开发有效的人机交互方法所面临的挑战。这涉及确定何时提供人工智能协助和提供哪些信息,以及考虑人工智能系统适应人类认知局限性的需要。认为,认知建模有助于了解有效使用人工智能信息所面临的障碍。表 1 结合现实世界中的例子讨论了这三个挑战,包括临床决策支持、信用评估和高级驾驶辅助系统,在这些系统中,人工智能辅助决策正逐渐成为常态。

针对每项挑战,都会深入探讨在经验和理论方面正在进行的跨学科研究。此外,还将提出有助于更有效地应对这些挑战的未来研究方向。

挑战 1:了解人类与人工智能互补性的决定因素

人类经常在两个或更多人的小组中讨论问题,并能取得比小组中任何一个人都高的成绩(Kameda 等人,2022 年)。此前对人类协作工作的研究表明,绩效的提高往往是由于小组成员之间的分工互补(Stasser & Abele, 2020)。将人工智能引入以前只有人类参与的工作流程,就是为了实现这一目标,即通过利用人类 DM 和人工智能的互补优势来提高决策的准确性。至少,我们希望人工智能辅助下的人类能比无人辅助下的人类表现得更好(或至少不会更差)。许多研究之所以能够达到这一基准,主要是因为这些研究涉及的情况是,人工智能向人类提供人工智能建议,而人工智能所表现出的准确性要高于仅靠人类的表现(Zhang 等人,2020 年;Vodrahalli 等人,2020 年)。在这种情况下,人类可以采用简单的启发式方法,即始终遵循人工智能的建议来提高性能。然而,这种情况提出了一个问题:在缺乏相关伦理和法律考虑的情况下,人类为什么要参与决策过程?当人工智能的辅助性能不仅超过了无辅助的人类性能,而且还超过了人工智能本身的性能时,就会出现一种更令人信服的情况。这种情况被称为互补性(Bansal、Wu 等人,2021 年;Steyvers 等人,2022 年),表明人类与人工智能的表现优于人类或人工智能单独的表现。尽管一些研究显示,在人类与人工智能的综合表现超过人工智能或人类单独表现的情况下,结果很有希望(Bansal、Wu 等人,2021 年;Tejeda 等人,2022 年),但其他研究表明,人类 DM 对这种表现没有贡献,而人工智能单独行动会带来更好的表现。

要了解人工智能辅助决策在什么条件下会产生互补性,区分可能无法实现互补性的两种不同原因是很有帮助的。首先,重要的是要了解人类 DM 和人工智能可以独立贡献哪些信息,以及这些信息能否(理论上)导致互补。例如,Steyvers 等人(2022 年)指出了分类领域互补性的一些一般条件。调查重点是成对的分类器:人类-人类、混合人类-人工智能和人工智能-人工智能(特别是两种不同的机器分类器)对。研究结果表明,人类-人工智能混合对(将人类预测与不同程度的人工智能精确预测相结合)的性能可以超过人类-人类或人工智能-人工智能对。只要人类和人工智能预测的准确性差距保持在一个特定的阈值以下,就能实现这种优异的性能。这个阈值取决于潜在的相关性,即人类和人工智能预测之间的独立程度。当人类和人工智能预测之间的相关性较低时,将高准确度人工智能的预测与准确度较低的人类的预测(或反之亦然)合并,仍然可以获得比一对人类或一对人工智能更优越的性能。同样,对人类群体决策的研究表明,当群体由认知不同的个体组成时,个体预测的统计组合可带来准确的群体绩效,从而产生不相关的预测。

在人工智能增强决策的情况下,最终预测不是通过统计手段得出的,而是人类 DM 内部认知过程的结果,人类 DM 必须将人工智能预测与自己的独立信息相结合。理想的情况是,在人工智能比较准确的问题上,人类依靠人工智能,而在人工智能不太准确的情况下,人类依靠自己的判断。为了确保适当的依赖,帮助人类正确识别人工智能能力互补的区域至关重要。这可以通过提供人工智能信心或解释来实现,以帮助人类更好地理解人工智能的决策。当互补性的本质易于人类识别时,人类就能做出适当的依赖决策(Q. Zhang 等人,2022 年)。然而,目前还不完全清楚人类管理者能否更普遍地利用互补性的潜力。因此,互补性可能会失败,因为尽管存在互补性的潜力,但由于次优的依赖决策,DM 无法实现互补性。

另一种情况是,互补性可能会失败,因为从统计学的角度来看,互补性的潜力从未存在过(例如,人类和人工智能之间的性能差异可能足够大,而且相关性过强),在这种情况下,即使人类 DM 做出了最佳的依赖决策,也不会产生互补性。确定互补性成功或失败的方法之一,是观察由人类 DM 做出最终决策的范例和将人类和人工智能的独立决策统计合并为最终决策的范例中的性能差异。然而,在人类 DM 做出最终决策的情况下,依靠外部统计汇总器来识别和利用人工智能的互补性并不是一个可行的解决方案。正如我们在 “挑战 2 ”中所讨论的,重要的是要让人类管理者有能力为其人工智能助手建立适当的心智模型,这样他们就可以利用人工智能的互补能力。人类是否有效利用了人工智能提供的信息?

  • 提高人类与人工智能的互补性

必须开展更多的研究,以更好地了解促成人类-人工智能互补性的因素,并开发促进互补性的新方法。在人工智能研究方面,新开发的人工智能系统考虑到了人类是决策过程的一部分这一事实(Bansal、Nushi、Kamar、Horvitz 等人,2021 年;De 等人,2020 年;Wilder 等人,2021 年)。这些人工智能系统经过训练,可在人类利用人工智能促进决策时优化预期的联合表现。在心理学方面,有必要开展更多研究,以了解人工智能预测的独立程度如何影响人类决策。在人类团队中,团队成员之间一定程度的认知多样性对团队绩效有积极的促进作用,但研究人员假设,过度的认知多样性可能会对团队成员之间的交流产生负面影响,从而导致团队绩效不理想(Aggarwal 等人,2015 年)。同样,虽然人类和人工智能预测之间的独立性有助于互补,但与人类预测差异过大的人工智能预测可能不会被认为有用(Grgic´-Hlacˇa 等人,2022 年)。因此,有必要开展更多研究,以了解可能阻碍人类 DMs 有效利用人工智能预测的心理限制。

挑战 2:了解人类对人工智能的心理模型

有效使用人工智能辅助工具的一个重要决定因素是相关人工智能的人类心智模型,其中包含一个人对人工智能的信念集合,以及对与人工智能互动效果的预期。一般来说,心智模型是人类构建的对世界的简化表述,使他们能够整合新信息并进行预测,同时只需花费很少的脑力(Craik,1952 年;Smyth 等人,1994 年)。因此,人工智能的心智模型越准确,人工智能就越有可能被正确使用(Bansal 等人,2019 年)。同样,不完整和/或不正确的人工智能心智模型也可能导致人工智能的无效使用。这种不正确的心理模型可能会导致对人工智能不恰当的依赖或错误的信任。我们认为,深入了解人们对人工智能的心理模型有助于设计工作流程,帮助人类制定适当的依赖策略,从而提高团队绩效。

关于人们对人工智能的心智模型的研究表明,人们对人工智能有各种各样的概念。为了组织和理解这些实证结果,我们区分了在人们实际体验相关人工智能之前就已经形成的人工智能心智模型,这种心智模型主要是由先前的信念驱动的,以及这些模型与人类为其他人类建立的模型相比有何不同。我们还讨论了人们的人工智能心智模型是如何通过与人工智能的互动体验而形成的。

总体而言,这些实证结果表明,人们对人工智能的心智模型取决于他们对相关人工智能的熟悉程度,以及他们对其依赖决策结果的熟悉程度。如果人们对人工智能的表现比较熟悉,但对自己决定委托或依赖人工智能建议的后果并不熟悉,那么他们的心智模型可能是不完整的,可能不能准确地代表人工智能相对于自己的不同能力。也许他们对人工智能的心理评估在暴露于人工智能不可避免的错误之后(正确地)被降级了,但却没有正确地反映出这样一个事实,即他们自己在试图解决同样的问题时可能并没有表现得更好,事实上,他们在这种情况下可能表现得更差。然而,人们被告知其依赖决定的后果的研究结果表明,人们会建立更丰富的人工智能心智模型,从而在依赖自己的决定还是人工智能的决定方面具有灵活性。其他因素,如人工智能和当前决策任务的复杂性,也可能影响心智模型的忠实性。一些实验室任务侧重于相对简单的行为任务,可能不需要大量的学习来开发有效的依赖策略。然而,在复杂的工业系统或与较高自动化水平相关的军事应用中,DM 可能无法完全理解系统是如何工作的,因此可能会采用简单化的策略,如不加区分地依赖人工智能(Cummings,2017)。

  • 改进心智模型评估

要了解人们对人工智能的心智模型,需要在几个方向上开展新的研究。首先,目前人们对人工智能信念的长期变化知之甚少(Glikson & Woolley, 2020)。必须进行纵向研究,以了解人们的心智模型随时间的变化。这些心智模型是否会随着时间的推移而变得更加准确?此外,认知建模等方法可用于推断人们心智模型的潜在内容,包括他们的决策策略和信念,而这些内容无法通过行为测量直接评估(如 Chong 等人,2022 年;Tejeda 等人,2022 年)。人类与人工智能交互的心智模型编码了人类自身能力与人工智能能力之间的感知差异,利用心理学研究中关于元认知的见解来理解人们如何估计自己的自信心(Koriat 和 Levy-Sadot,1999 年)以及自己相对于他人的表现(Moore 和 Cain,2007 年)可能会有所帮助。此外,个人与人工智能的合作有可能是由直接的学习方法引导的,如无模型强化学习,而不是由对人工智能助手能力的明确心智化引导的。还需要进一步的研究来确定,在整合人工智能的建议时,个体是形成了对人工智能的明确表征,还是依赖于基本的启发式方法。

挑战 3:开发与人工智能互动的有效方法

为人工智能建立准确的心智模型是人类与人工智能高效协作的关键。因此,开发工作流程和系统以帮助人类管理者为其人工智能队友构建准确的心理模型至关重要。具体来说,我们考虑了影响人类 DM 使用人工智能辅助的两种主要设计选择:选择何时提供人工智能辅助和选择提供哪些信息。此外,我们还讨论了自适应方法,这些方法可以调整人工智能的输出和人与人工智能的交互,从而将人类认知的局限性考虑在内。

  • 实现自适应和交互式人工智能辅助

总体而言,经验证据表明,提供更多有关人工智能的信息并不总能提高性能。鉴于处理人工智能建议的认知资源可能有限,特别是在时间敏感(时间不足)的情况下,人工智能必须调整其输出(例如,通过提供适当详细程度的解释)。过多的信息可能不利于决策(Poursabzi-Sangdeh 等人,2021 年;Schaffer 等人,2019 年)。因此,人工智能系统的设计必须适应人类 DM 的认知局限性(Cummings,2017 年)。应该向人类 DM 提供哪些信息、何时提供以及提供多少信息,这些问题突出表明,有必要制定理论框架,以推断人工智能辅助工具对人类认知和所观察到的表现的影响。在可解释人工智能(Chen 等人,2022 年)的背景下,这样的框架已经开始出现。此外,在与人工智能合作时,可以利用心理学理论和计算模型来更好地理解人类认知(Rastogi 等人,2022 年)。例如,在必须快速做出决策或需要不同程度的脑力劳动来处理人工智能输出结果的情况下,可以利用合理资源分配理论(Lewis 等人,2014 年;Gershman 等人,2015 年;Lieder 等人,2018 年;Lieder & Griffiths,2020 年)来识别人们何时会无视人工智能的预测,如果所感知到的收益不能证明相关的时间和脑力成本是值得的。

心理学和行为经济学的研究长期以来一直主张通过干预或 “暗示 ”来引导人们做出决策(Thaler & Sunstein, 2018)。推导计算理论的进步(Callaway 等人,2022a;Callaway 等人,2022b)使人们能够识别最佳决策策略和有效反馈,以指导决策。Callaway 等人(2022a)证明,人工智能助手在获得有关人们决策过程的反馈时,可以成功地促使人们采用最佳决策策略。与此类似,最佳游戏化可以重新设计环境的奖励结构,使人们的长期目标与短期奖励相一致。这种方法有助于人们克服近视决策倾向,在面对连续任务时表现得更有远见(Consul 等人,2022 年;Lieder 等人,2019 年)。人工智能辅助推导是一种强大的自适应人工智能辅助范例,它可以根据人们的能力量身定制,并能减轻长期优化的认知负荷。

最后,另一个有前途的研究方向是让人工智能输出更具互动性。Lakkaraju 等人(2022 年)认为交互式人工智能系统非常重要,而不是以一次性输出的形式提供解释。在这些系统中,人类管理者可以使用自然语言对话来询问模型做出决定的原因,从而通过一系列互动来澄清人工智能预测。此外,交互式人工智能助手已被证明能提高用户的接受度和信任度。例如,病理学家报告说,当他们能够在基于内容的图像检索(CBIR)系统中自定义搜索时,诊断效用提高了,信任度也提高了(Cai 等人,2019 年)。允许与人工智能助手进行交流和互动可以提高人们对系统的理解。

成为VIP会员查看完整内容
42

科学的未来:   AI4S驱动科学研究范式变革   2024年度的诺贝尔物理学奖、化学奖均颁发给了AI领域科学家。大模型引领下的AI4S,已成为推动科学研究范式变革的关键力量。   科学研究的范式带有其所处时代的认知水平、价值取向、工具先进性、科研资源等因素的深刻烙印。自人类开始记录自然现象以来,科学研究经历了经验观察、理论建构、仿真模拟、数据驱动的科学发现四个阶段。   大模型时代,Al4S(Al for Science)展现出的赋能效果与小模型时期大相径庭。传统人工智能在科学研究中多聚焦于特定任务的优化,如数据挖掘算法辅助科研数据处理,或基于既有模式进行推理预测,但其模型规模与泛化能力有限,难以解决复杂问题。而大模型以海量数据训练,具备强大的跨领域知识整合能力;模型架构赋予其多层次的学习和处理能力,能够捕捉高维数据中的复杂结构和模式,并对复杂科学问题进行整体理解与全局综合分析。大模型还能通过生成式能力提出创新性假设,为科学研究开辟新方向。  

成为VIP会员查看完整内容
39
登陆后查看更多精品内容
VIP会员
本周荟萃主题
区块链
区块链(Blockchain)是由节点参与的分布式数据库系统,它的特点是不可更改,不可伪造,也可以将其理解为账簿系统(ledger)。它是比特币的一个重要概念,完整比特币区块链的副本,记录了其代币(token)的每一笔交易。通过这些信息,我们可以找到每一个地址,在历史上任何一点所拥有的价值。
深度学习
机器学习的一个分支,它基于试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的一系列算法。
机器学习
“机器学习是近20多年兴起的一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。机器学习理论主要是设计和分析一些让 可以自动“ 学习”的算法。机器学习算法是一类从数据中自动分析获得规律,并利用规律对未知数据进行预测的算法。因为学习算法中涉及了大量的统计学理论,机器学习与统计推断学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。很多 推论问题属于 无程序可循难度,所以部分的机器学习研究是开发容易处理的近似算法。”

——中文维基百科
强化学习
强化学习(RL)是机器学习的一个领域,与软件代理应如何在环境中采取行动以最大化累积奖励的概念有关。除了监督学习和非监督学习外,强化学习是三种基本的机器学习范式之一。 强化学习与监督学习的不同之处在于,不需要呈现带标签的输入/输出对,也不需要显式纠正次优动作。相反,重点是在探索(未知领域)和利用(当前知识)之间找到平衡。 该环境通常以马尔可夫决策过程(MDP)的形式陈述,因为针对这种情况的许多强化学习算法都使用动态编程技术。经典动态规划方法和强化学习算法之间的主要区别在于,后者不假设MDP的确切数学模型,并且针对无法采用精确方法的大型MDP。
推荐系统
推荐系统,是指根据用户的习惯、偏好或兴趣,从不断到来的大规模信息中识别满足用户兴趣的信息的过程。推荐推荐任务中的信息往往称为物品(Item)。根据具体应用背景的不同,这些物品可以是新闻、电影、音乐、广告、商品等各种对象。推荐系统利用电子商务网站向客户提供商品信息和建议,帮助用户决定应该购买什么产品,模拟销售人员帮助客户完成购买过程。个性化推荐是根据用户的兴趣特点和购买行为,向用户推荐用户感兴趣的信息和商品。随着电子商务规模的不断扩大,商品个数和种类快速增长,顾客需要花费大量的时间才能找到自己想买的商品。这种浏览大量无关的信息和产品过程无疑会使淹没在信息过载问题中的消费者不断流失。为了解决这些问题,个性化推荐系统应运而生。个性化推荐系统是建立在海量数据挖掘基础上的一种高级商务智能平台,以帮助电子商务网站为其顾客购物提供完全个性化的决策支持和信息服务。
卷积神经网络
在深度学习中,卷积神经网络(CNN或ConvNet)是一类深度神经网络,最常用于分析视觉图像。基于它们的共享权重架构和平移不变性特征,它们也被称为位移不变或空间不变的人工神经网络(SIANN)。它们在图像和视频识别,推荐系统,图像分类,医学图像分析,自然语言处理,和财务时间序列中都有应用。
计算机网络
计算机网络( Computer Networks )指将地理位置不同的多台计算机及其外部设备,通过通信线路连接起来,在网络操作系统及网络通信协议的管理和协调下,实现资源共享和信息传递的计算机系统。
命名实体识别
命名实体识别(NER)(也称为实体标识,实体组块和实体提取)是信息抽取的子任务,旨在将非结构化文本中提到的命名实体定位和分类为预定义类别,例如人员姓名、地名、机构名、专有名词等。
机器翻译
机器翻译,又称为自动翻译,是利用计算机将一种自然语言(源语言)转换为另一种自然语言(目标语言)的过程。它是计算语言学的一个分支,是人工智能的终极目标之一,具有重要的科学研究价值。
计算机视觉
计算机视觉是一门研究如何使机器“看”的科学,更进一步的说,就是是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉,并进一步做图形处理,使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科,计算机视觉研究相关的理论和技术,试图建立能够从图像或者多维数据中获取‘信息’的人工智能系统。
微信扫码咨询专知VIP会员