本书首先概述了生成式人工智能的全景,区分了它与对话式人工智能的不同,并介绍了像DeepMind和OpenAI等主要参与者的角色。接着,书中审视了ChatGPT、GPT-4、Meta AI、Claude 3和Gemini的复杂性,探讨了它们的能力、优势及竞争对手。读者还将深入了解BERT系列的大型语言模型(LLM),包括ALBERT、DistilBERT和XLNet,以及这些模型如何彻底改变了自然语言处理。此外,本书还涵盖了提示工程(prompt engineering)技术,这对于优化AI模型的输出至关重要,并探讨了使用LLM时面临的挑战,包括幻觉现象(hallucinations)以及微调这些先进模型的细节。本书专为具有人工智能基础知识的软件开发者、AI研究人员和技术爱好者设计,提供了理论见解和Python中的实用代码示例。读者还可以从出版商处下载伴随文件,包括代码、图示和数据集。特色:

  • 深入解释了LLM的基础和高级概念,包括BERT、GPT-4和提示工程

  • 使用实用的Python代码示例,帮助有效利用LLM功能

  • 讨论了未来趋势、伦理考量和AI技术的不断演变

  • 提供伴随文件,包含书中的代码、数据集和图像,可从出版商处下载(需提供购买证明) 作者简介Oswald Campesato专攻深度学习、Python、数据科学和生成式AI。他是四十多本书的作者或合著者,包括《Python的Google Gemini》、《数据清洗》和《开发者的GPT-4》(均由Mercury Learning出版)。

成为VIP会员查看完整内容
61

摘要ChatGPT等基于基础模型的产品在人类语言理解方面的出色表现,促使学术界和工业界探索如何将这些模型定制化应用于特定行业和应用场景。此过程被称为领域特定基础模型的定制化,旨在解决通用模型的局限性,因为通用模型可能无法完全捕捉领域特定数据的独特模式和需求。尽管这一过程至关重要,但目前关于构建领域特定基础模型的全面综述性论文却非常少见,而关于通用模型的资源则非常丰富。为填补这一空白,本文提供了一个及时且深入的领域特定基础模型定制方法的综述。我们介绍了基本概念,概述了通用架构,并对构建领域特定模型的关键方法进行了梳理。此外,本文讨论了可以从这些专用模型中受益的各类领域,并指出了未来面临的挑战。通过这一综述,我们希望为来自不同领域的研究人员和实践者开发定制化基础模型提供有价值的指导和参考。

关键词: 人工智能;领域特定基础模型;多模态基础模型;预训练基础模型;微调

1. 引言

ChatGPT凭借其出色的表现重新定义了人们对人工智能的理解。作为其核心技术的大型语言模型(LLM)已经成为各个领域的研究人员和从业者改进工作流程的重要工具。通用基础模型通常是在大型公共数据集上进行训练,能够学习并解决广泛的常见问题。然而,这些数据集并不能完全涵盖某些特定领域的所有专业知识和技术细节。因此,尽管通用基础模型具备广泛的通用知识,但它们缺乏足够的深度来满足某些特定领域的复杂需求[1]。因此,构建针对特定行业需求的领域特定基础模型变得尤为重要。领域特定基础模型,也被称为行业特定基础模型,是基于特定领域的数据和应用开发的。与通用基础模型相比,它们通过大量领域特定数据进行训练,使其能够更准确地理解和生成领域内的专业内容。

随着类似ChatGPT产品的普及,“基础模型”的范围逐渐扩展。因此,有必要首先明确本文讨论的基础模型的定义,以为后续领域特定基础模型定制化的讨论奠定基础。本文提到的基础模型是由至少一个通用多模态基础模型的五个模块中的一个组成的神经网络模型(后文将详细说明)。这些模型还具有以下特征:

  • 大数据:利用涵盖各种场景的大量数据进行模型训练,为模型提供足够的知识。
  • 大参数:模型拥有大量参数,足以将大数据隐含的知识嵌入模型参数中。
  • 通用性:模型的输入数据格式和数据处理流程能够适应各种任务场景的不同需求。
  • 泛化性:模型展现出一定程度的泛化能力,即使在未知数据领域中也能表现良好。

根据基础模型能够处理的模态数量,它们可以分为单模态基础模型和多模态基础模型,如表1所示。

在构建领域特定基础模型的过程中,会遇到一系列挑战,尤其是在数据获取和预处理阶段。例如,所需的领域特定数据可能不是开源的或容易获取的,因为这些数据通常具有高度的保密性。此外,领域特定数据的模态可能与训练通用基础模型所用的数据模态不同,使得现有模型难以适应处理这些数据。此外,领域特定数据的收集环境可能与预训练数据集的环境显著不同,导致预训练模型不熟悉领域特定知识。 总的来说,构建领域特定基础模型是一项具有挑战性且成本高昂的任务,涉及到重要的技术安全问题,但预计会带来巨大的经济效益。因此,有必要全面审查并探索构建这些模型的方法,为研究人员和从业者提供指导。 值得注意的是,之前的综述文章主要集中在通用基础模型的发展上。尽管最近一些综述文章开始探索基础模型的领域特定适配,但在文献中,缺乏对适用于各种模态基础模型的适配策略的全面探讨,这些策略不仅限于语言、视觉或任何单一模态,还涉及到多个应用领域。我们在表2中总结了关于基础模型的代表性调查或综述文章。本文旨在为有兴趣构建领域特定基础模型应用的研究人员和从业者提供方法论参考,并讨论实际案例和未来的研究方向。

2. 多模态基础模型的基础知识

本节将详细介绍定制领域特定基础模型的基础技术。我们首先介绍基础模型的架构,详细说明所有功能模块。然后从四个角度——特征提取、模态对齐、扩展法则和新兴现象——解释支持每个模块在基础模型中实现高性能的基础技术。

**2.1 基础模型的架构

根据当前关于基础模型的前沿研究,广泛认为多模态基础模型能够涵盖单模态基础模型的所有功能和结构。实质上,单模态基础模型只实现了多模态基础模型功能的一部分。本文提出的五模块框架有效地涵盖了以语言为中心模态的多模态基础模型架构。然而,随着非语言基础模型的出现,包括视觉基础模型[13,14]、图基础模型[28,29]、时间序列基础模型和时空基础模型[32,33],基础模型的骨干结构正在超越语言模态。因此,我们提出多模态基础模型的结构可以分为以下五个模块:模态编码器、输入投影器、骨干计算器、输出投影器和模态解码器。图1展示了以语言为中心模态的多模态基础模型框架。 对于多模态基础模型,我们将所有输入模态的集合定义为M。通常,多模态基础模型有一个中心模态C。通过模态对齐技术,多模态基础模型将其能够处理的所有模态投影到该中心模态上。下文我们定义多模态基础模型的五个模块及其输入输出数据,奠定了描述基础模型架构的基础。

  • 模态编码器(ME):将输入模态X的数据DX编码为特征向量FX:FX=MEX(DX),X∈M.FX = MEX(DX), X ∈ M.FX=MEX(DX),X∈M.
  • 输入投影器(IP):将模态X的特征向量FX投影到中心模态C的特征向量FC上:FC=IPXC(FX),X,C∈M.FC = IPXC(FX), X, C ∈ M.FC=IPXC(FX),X,C∈M.
  • 骨干计算器(BC):对中心模态C的特征向量FC进行操作,产生推理和生成结果FˆC:FˆC=BCC(FC),C∈M.FˆC = BCC(FC), C ∈ M.FˆC=BCC(FC),C∈M.
  • 输出投影器(OP):将中心模态C的特征向量FˆC投影到模态X的特征向量FˆX上:FˆX=OPCX(FˆC),X,C∈M.FˆX = OPCX(FˆC), X, C ∈ M.FˆX=OPCX(FˆC),X,C∈M.
  • 模态解码器(MD):将输出模态X的特征向量FˆX解码回原始数据格式,得到解码后的数据DˆX:DˆX=MDX(FˆX),X∈M.DˆX = MDX(FˆX), X ∈ M.DˆX=MDX(FˆX),X∈M.

根据上述定义,构建领域特定基础模型涉及选择必要的模块——其中一些模块可能是可选的——并组装一个符合特定领域需求的模型,随后用该领域相关的数据对其进行训练。

**2.2 特征提取

特征提取是从原始数据中提取代表性特征的过程。在机器学习,尤其是深度学习领域,特征提取是至关重要的一步。原始数据通常包含大量冗余和噪声信息,特征提取通过将数据映射到一个信息密集的特征空间,使模型能够更有效地理解数据结构和模式。 在深度学习中,神经网络可以从原始数据中执行端到端的特征提取。然而,这种方式通常需要大量的数据和计算资源才能确保良好的性能和泛化能力。神经网络的每一层将上一层的输出转换为新的向量空间,这种结构允许灵活地定义每层的输出维度,而无需明确指定转换方式。利用这些有利特性,自动编码器通过最小化输入向量与重构向量之间的重构误差来学习有效的数据表示。自动编码器首先将输入数据压缩为低维特征向量,然后通过解码器将其投影回原始数据空间,如图2所示。

**2.3 模态对齐

单模态基础模型的工作流程中,架构不包括输入投影器和输出投影器,这反映了不需要进行跨模态数据处理的情况。相反,多模态基础模型必须适应处理各种模态数据,包括主要模态和辅助模态。为了通过输入投影器和输出投影器实现模态之间的数据转换,关键是应用模态对齐技术。模态对齐的目标是通过使用损失函数来表征特征向量之间的相关性,将不同模态的特征向量处理为具有相同维度的公共特征空间。理想情况下,模态对齐应确保携带相同语义信息的不同模态的原始数据在目标特征空间中表示为同一个点,从而实现跨模态信息的传递。

3. 构建领域特定基础模型的关键技术

本节深入探讨了定制领域特定基础模型的技术路径。我们将详细解释如何根据不同领域的具体需求,灵活选择和组合五个关键组件中的适当模块——模态编码器、输入投影器、骨干计算器、输出投影器和模态解码器。此外,我们还将分析具体案例,帮助读者更好地理解和应用本节讨论的方法。 我们可以将领域特定基础模型的定制分为三个层次,从低到高依次为(即对通用基础模型或预训练模块的依赖性从高到低):

  1. 基于通用基础模型的领域特定增强。
  2. 基于预训练模块的基础模型定制化。
  3. 无预训练模块的基础模型构建。

表3总结了这三种领域特定基础模型定制化方法的特征。

基于通用基础模型的领域特定增强

通用基础模型具备广泛的能力,使其适用于多种任务场景。当通用基础模型能够完全处理所需的数据模态时,模型开发者无需对其底层架构进行修改,而是可以专注于实现领域特定的增强。 根据领域特定增强是否需要改变基础模型的参数,我们可以将其进一步分为两类:即插即用的领域特定增强和基于微调的领域特定增强。表4分类并总结了基于全架构通用基础模型的领域特定增强方法。

**3.1.1 即插即用的领域特定增强

通用基础模型的通用性、泛化能力和推理能力使其能够作为领域特定模型的基础。为了实现即插即用的领域增强而不修改基础模型的参数,有两种方法可以使用:利用现有知识或嵌入新知识。第一种方法旨在利用通用基础模型中已经存储的领域知识,如图5(a)所示。第二种方法通过引入领域特定的知识使基础模型能够处理领域任务,进一步分为通过提示嵌入知识和通过外部知识库嵌入知识。这些方法分别在图5(b)和(c)中展示。以下部分将详细解释这些技术。

  1. 调用现有知识进行领域增强:在训练过程中,通用基础模型可能已经包含领域知识。提示调优通过优化提示词(prompts)来更好地调用模型固有的领域知识,"调优" 指的是对提示词的优化。具体来说,它是在输入数据中插入精心设计的提示作为上下文,以改善生成的输出。这些精心设计的提示可以是自然语言描述、示例、规则或其他文本或嵌入向量,指导模型理解任务需求。在生成输出时,模型将考虑这些提示,产生与任务相关的结果。提示调优可以分为硬提示和软提示:(a) 硬提示:硬提示方法是自然语言处理(NLP)中的常见技术。它们使用可解释且可复用的手工设计词语和符号来引导语言模型的输出。硬提示通常是为特定任务手动设计的,难以修改。PET(模式利用训练)[62] 是一种经典的硬提示学习方法,它将问题建模为完形填空任务,并优化最终输出词。该方法在少量监督数据上训练模型,并对无监督数据进行集成预测以指导模型。(b) 软提示:设计硬提示需要实验探索和专业知识,且手工设计的提示可能无法与模型的数据处理方式良好对接。为了简化这一过程并提高提示调优的灵活性,研究人员提出了基于软提示的调优方法。Prefix Tuning [63] 是一种软提示调优形式,它通过向输入序列的开头添加可学习的前缀向量(软提示)来适应特定的下游任务。这些前缀向量作为输入的一部分,指导模型输出以满足任务需求。Prefix Tuning 的优势在于它只更新这些前缀向量,而不是模型的参数,显著减少了计算和存储资源的需求,同时保留了预训练模型所学到的丰富知识。基于Prefix Tuning,研究人员引入了P-tuning方法[64]。P-tuning用可学习的软提示替代了固定或手动设计的词语和符号。其核心思想是将提示视为模型的一部分,可以通过训练学习,使模型不仅能响应给定的任务,还能生成最优提示。这些软提示通常是一系列嵌入向量,与实际文本输入一起进行处理。通过端到端训练,模型自动学习调整这些嵌入向量以更好地完成任务。P-tuning 结合了Prefix Tuning的参数效率和传统硬提示调优的灵活性。软提示为模型提供了更多生成答案的自由,可能会产生更多样化的输出,但也增加了生成不准确或不相关回应的风险。

  2. 知识嵌入进行领域增强:当通用基础模型的现有知识不足以解决领域任务时,通过嵌入额外的背景信息来引入新知识可以提高输出质量。这种方法被称为知识嵌入进行领域增强。(a) 通过提示嵌入知识:提示作为用户与大型语言模型之间的直接接口,可用于融入领域知识。然而,使用提示嵌入知识的方法有一个显著的限制:嵌入的领域知识量受到模型最大提示长度的限制。Transformer架构的三个核心问题导致模型难以处理较长的文本输入:

  • 位置编码的限制:Transformer模型通常使用正弦和余弦函数生成固定长度的位置编码,每个序列中的位置都有唯一的编码。然而,当序列长度超过训练时的最大长度时,模型无法有效处理额外的文本,因为它无法为新位置生成有效编码。

  • 注意力机制的资源消耗:注意力机制是Transformer模型的核心,允许模型为序列中的每个元素计算注意力权重。然而,随着序列长度的增加,注意力机制的计算复杂度和内存需求呈指数增长,导致资源消耗显著增加。

  • 长距离依赖问题:处理长序列时,Transformer需要跨越大量输入令牌,这通常导致梯度消失或爆炸等问题,使模型难以捕捉序列中相距较远的元素之间的依赖关系。

为了应对这些问题,出现了无损长文本技术。它旨在增强模型处理超过输入长度限制的长文本的能力,允许用户通过提示直接向大型语言模型输入大量领域知识作为上下文信息以进行领域增强。无损长文本技术从两个方向扩展了大型语言模型的长文本输入能力:外推和插值。

i. 外推:外推涉及扩展模型的上下文窗口以处理超过训练数据长度的新文本。这通常涉及改进位置编码机制,使模型能够理解和处理较长的序列。Longformer [78] 通过结合局部和全局注意力机制扩展了处理长文本的能力;BigBird [79] 通过稀疏注意力机制和可逆层扩展了模型处理长序列的能力;LongRoPE [65] 通过在自注意力中引入旋转变换改进了位置编码,使模型能够处理长距离依赖,并支持输入长达200万个令牌而不影响计算效率。

ii. 插值:插值指在现有序列长度范围内通过调整和优化注意力机制增强模型处理长文本的能力。这通常涉及对注意力机制的改进,使模型能够更有效地处理长距离信息。BERT模型[7]通过使用双向Transformer进行预训练,增强了文本理解;XLNet[80]通过使用置换语言建模和广义自回归预训练,增强了模型的内部表示能力,从而改进了长文本处理。

(b) 通过外部知识库嵌入知识:在实际应用中,用户可能无法提供足够的领域知识来增强通用基础模型。为了解决这个问题,模型的部署者可以通过专门的领域知识库来增强通用基础模型。这种方法允许通用基础模型在生成答案或执行任务时参考这个外部知识库,从而获取必要的领域信息和上下文,以提供更准确和有针对性的回应或解决方案。检索增强生成(RAG)技术[1, 67, 81] 就是为此目的开发的。RAG技术旨在通过利用外部文档库来增强语言模型的生成能力,而无需重新训练模型。它特别适用于需要可定制动态知识库的任务,如问答、文本摘要和事实核查。RAG技术的核心是在生成过程中整合检索组件,能够在大型文档数据库中快速找到与当前任务相关的信息。一旦检索到相关文档,这些信息就会作为附加上下文信息,帮助生成过程。RAG技术的优势在于它结合了大型语言模型的生成能力和外部检索系统提供的知识,而无需掌握领域知识。此外,由于外部知识库可以根据需要进行替换,RAG技术具有高度的灵活性和适应性。

在RAG技术中,两个核心挑战是如何从数据库中检索有用信息以及如何组织这些信息以增强基础模型的生成。在检索任务中,最早的朴素方法使用稀疏检索,直接基于原始数据进行匹配,如BM25 [82]。受到信息检索领域的启发,密集检索技术如DPR[83]被提出,它将原始数据投影到高维空间,可能更好地捕捉语义相似性。然而,主要挑战在于即使检索到的数据在语义空间中与原始输入高度相关,我们也不能保证它会对模型的生成有帮助,可能出现如歧义问题。为了解决这个问题,一些研究人员引入了知识图谱等技术来辅助检索过程[68]。此外,检索到的信息的组织也会直接影响输出质量,例如对检索数据进行排序[69]可以提高模型性能。

虽然上述技术最初是为了在特定领域增强大型语言模型提出的,但它们的应用不限于语言模型。随着基础模型领域的发展,这些技术预计将扩展到其他模态的基础模型。

**3.1.2 基于微调的领域特定增强

当即插即用的领域增强技术难以实施或需要在通用基础模型中嵌入过多领域知识时,或者需要对通用基础模型进行深度修改时,我们可以转向基于微调的领域增强策略。该策略旨在通过特定的领域增强定制所需的领域特定基础模型,同时尽可能保留通用基础模型的预训练知识[85]。

微调技术可以分为三种主要类型:基于适配器的微调、基于低秩矩阵分解的微调和全参数微调。图6 (a)、(b) 和 (c) 分别展示了这三种技术路径。

3.2 基于预训练模块的基础模型定制

基础模型可能包含数百万甚至数十亿的参数,通过迁移学习,可以减少模型中需要训练的部分,从而显著降低训练成本。这种方法被称为基于预训练模块的基础模型定制。 迁移学习的本质在于利用模型在预训练过程中嵌入参数中的知识来构建新模型。如前所述,基础模型的架构通常包含五个主要模块:模态编码器、骨干计算器、模态解码器、输入投影器和输出投影器。其中,模态编码器、骨干计算器和模态解码器携带大量的知识,因为它们直接参与数据的编码、处理和解码。相比之下,输入投影器和输出投影器本身携带的模型知识较少。在某些情况下,它们甚至可能没有明确的模型来承担这些功能,或这些模块仅在构建新的基础模型时进行训练。因此,在定制基础模型时,我们通常不选择迁移输入投影器和输出投影器。 接下来,本文将详细介绍如何基于预训练的模态编码器、骨干计算器和模态解码器来定制基础模型。通过这种方法,我们可以有效利用预训练模型的知识,同时减少训练的复杂性和成本。

3.3 无预训练模块的基础模型构建

当无法通过迁移预训练模型来构建基础模型时,就需要设计并训练相应的模块。我们首先将对单模态和多模态基础模型的架构进行一般性分析,作为构建各个组件的基础。 单模态基础模型由三个核心模块组成:模态编码器、骨干计算器和模态解码器。例如,在LLaMA-2 [11] 中,模态编码器和解码器专门为语言模态设计,采用字节对编码(BPE)算法来执行编码和解码功能。骨干计算器是一个大规模的自回归Transformer模型。通过这种方式,LLaMA-2 实现了完整的处理流程:“输入原始文本——输入文本特征向量——输出文本特征向量——输出原始文本”。此外,Bai等人[13]引入了“视觉句子”的概念,并提出了一个能够根据视觉句子自回归生成图像的大型视觉模型(LVM)。它在纯图像模态下实现了上下文学习,使模型能够直接从图像模态提示中推断任务并生成相应的结果。这不仅探索了纯视觉输入的潜力,也为构建领域特定基础模型提供了新的视角——中心模态不必局限于语言,可以是任何在特定领域中广泛使用的模态。 多模态基础模型则需要额外的输入投影器和输出投影器来实现模态对齐。例如,CoDi-2 [21] 首先利用ImageBind [25] 中提出的多模态编码器来处理输入数据,将所有相应的模态对齐到图像模态。然后,通过多层感知机(MLP)将图像模态的特征向量转换为语言模态的特征空间。具体来说,它使用预训练的自回归Transformer LLM LLaMA-2-7b-chat-hf 作为骨干计算器的基础。骨干计算器处理的图像和音频特征通过两个MLP转换回图像领域,并作为基于扩散的生成模型的控制向量输入,最终获得图像和文本结果。训练损失包括文本生成损失、模态转换损失和数据生成损失。因此,骨干计算器的多模态特征处理能力和两个MLP的模态转换能力可以通过端到端的方式同时进行训练。模型的模态对齐体现在两个方面。一方面,模型通过ImageBind的预训练模态编码器将多模态特征向量对齐到图像模态。另一方面,它还通过MLP在图像特征向量和文本特征向量之间进行转换。 综上所述,构建基础模型首先从确定数据模态和选择中心模态开始。接着,实施模态编码器和输入投影器,将来自不同模态的原始数据转换为中心模态的特征向量,这些特征向量将由骨干计算器进行处理。随后,设计输出投影器和模态解码器,将骨干计算器处理过的特征向量转换回各模态的原始数据形式。一旦模型结构构建完成,训练过程就可以开始。接下来,我们将详细介绍各个模块的实现原理和构建方法。

领域特定基础模型的应用

基础模型已经成为强大的工具,在各个领域中展现出广阔的应用前景。这些基础模型不仅能够处理海量数据和复杂任务,还能带来新的突破和创新。

  • 电信:基础模型预计将广泛应用于感知、传输和网络性能优化等方面。例如,经过微调的电信领域的大型语言模型(LLM)可以用于处理网络日志数据、建模和解决特定的网络问题[44]。此外,电信领域的基础模型通过利用时空相关性和知识推理[45],预计可以识别并预防因服务质量下降和故障响应时间延迟引发的用户体验问题,从而为实时的精细化网络优化奠定基础。在工业场景中,基础模型的业务理解能力也有望帮助优化信号传输和调度策略,提高网络效率。在网络基础模型的研究中,文章[90]提出的NetGPT架构预计将成为实现电信网络内生智能的有效途径,而文章[91]讨论了构建电信领域基础模型过程中可能遇到的挑战和问题。NetLLM[92]将LLM适配为服务于多个具体下游通信任务的模型。[93]引入了一种新的记忆机制,促进了基础模型在语义通信过程中的嵌入。通过利用基础模型理解和生成多模态数据的能力,可以提出新的、更复杂的传输方法,以提升传输性能。
  • 自动驾驶:基础模型在车辆感知、决策和运动控制等多个关键方面发挥核心作用[46]。具体来说,自动驾驶中的感知任务涉及对车辆周围环境的实时监控,包括其他车辆、行人、交通标志和道路状况。通过分析来自摄像头、雷达和LiDAR(光探测和测距)的传感器数据,基础模型可以识别各种物体,并构建详细的环境地图,这是实现安全自动驾驶的基础。在决策层面,基础模型需要基于感知信息做出快速而准确的判断,如避开障碍物、选择合适的驾驶路线,并在复杂交通状况下制定最佳驾驶策略。像DriveGPT[94]这样的多模态基础模型不仅可以处理视觉数据,还能够理解并响应语言模式的指令,例如根据语音输入的目的地规划路线。此外,pFedLVM[95]可以利用预训练的视觉基础模型的强大性能进行图像特征提取,作为下游任务的基础。
  • 数学:由于许多通用LLMs通常在包含开源数学语料库的数据集上进行预训练,它们本质上具备解决数学问题的某种能力,且通过领域特定的增强可以显著提高这一能力[38,96–99]。文章[97]提出的MAmmoTH结合了链式思维和程序化思维,充分利用了大型语言模型的理解能力和编程语言的计算能力,在数学推理方面取得了良好表现。[98]通过实验表明,LLM的编程和推理能力的无缝结合使它们能够逐步建模并解决复杂问题。
  • 医学:基础模型在医学中的应用涵盖了多个方面,包括疾病诊断、患者治疗、基因和蛋白质结构数据的分析与预测以及医学教育[40, 41, 100–103]。文章[102]中提出的HuatuoGPT可以模拟医生的诊断和治疗过程,为患者提供初步的医疗咨询和建议。该模型不仅减少了医生的工作量,还使患者能够在偏远或资源有限的环境中及时获得医疗服务。[103]提出了BiomedGPT,它能够执行多模态医学任务,在理解和生成医学相关内容方面表现出色。
  • 法律:基础模型可以对法律文件进行深入分析,识别文本中的关键信息和法律概念,从而帮助律师和法律顾问进行更精准的案件分析和法律咨询[37,104,105]。例如,基础模型可以识别合同中的条款,提取诸如义务、权利和条件等重要法律要素,帮助律师快速了解文件内容并识别潜在的法律风险。此外,基础模型还可以用于案件逻辑推理,通过分析历史案件和相关法律条文,预测案件的可能结果,为律师制定辩护策略提供数据支持。ChatLaw[106]可以提供实时的法律咨询和解答,帮助非专业人士理解复杂的法律问题,甚至生成法律文件草稿,从而减少律师的工作量。此外,基础模型还可以辅助法律研究,快速检索相关法律文献和判例,为法律论点提供有力证据。
  • 艺术:基础模型的应用正在探索和改变创作表达的方式以及艺术生产的过程。通过学习大量艺术作品和创作概念,基础模型可以生成新的艺术作品、音乐、文学作品等,为艺术家提供创作灵感和支持[42]。例如,生成模型可以用于创作艺术作品[107,108],并且可以通过微调技术调整生成作品的风格和内容[109,110]。目前,在视频生成领域,OpenAI开发的Sora允许用户使用文本控制生成内容,生成逼真的视频作品。此外,基础模型在艺术理解方面也表现出色[111,112],这为艺术教学和研究领域提供了巨大潜力。
  • 金融:基础模型可以覆盖风险建模、投资策略管理、市场预测等多种任务,为金融机构和投资者优化决策提供强大的工具[39,113]。例如,使用基础模型构建信用评分系统,以评估借款人的信用风险。这些模型分析借款人的历史信用记录、财务状况和债务水平,以预测其还款能力,并据此决定是否批准贷款申请以及贷款利率。或者,基础模型可以考虑各种资产类别的历史表现、相关性、风险和预期收益,以及历史市场数据、宏观经济指标、政治事件等,为投资者做出最佳决策。文章[114]详细介绍了BloombergGPT,它是在大规模金融数据集上预训练的,在许多基准测试中表现优异。[115]介绍了FinGPT,一个开源的金融LLM,不仅作为模型,还作为金融LLM(FinLLMs)的开源框架,为研究人员的创新提供了动力。
成为VIP会员查看完整内容
47

本文在空战和远程战争的概念范围中研究了当代使用武装无人机的发展。尽管人们对无人机战争的新颖性或其政治、法律和伦理基础给予了极大关注,但本文将无人机的使用置于 20 世纪空中和远程战略目的的思考脉络之中。通过这一过程,细致入微地阐述了武装无人机如何延续和改变空战和远程战争的实践,并将无人机的使用置于更广泛的历史和当代战争实践之中。

本文分析了远程战争概念发展过程中的三个重要时刻,这些时刻促成了当代无人机应用的概念架构,即战略轰炸理论的发展、冷战期间的核战争规划以及越南战争中的空战实践。随后,将美国武装无人机的使用置于 2007 年至 2011 年在阿富汗、伊拉克和更广泛的反恐战争中采用的反叛乱战略之中。在整个研究过程中,对武装无人机和远程战争的研究做出了三个主要贡献。首先,认为武装无人机的远程性是通过一系列战术、战略和政治决策与实践积极产生的。借鉴风险转移、替代战争和代理战争的概念,认为武装无人机是通过操纵和构建遥远性来参与战争的。其次,认为武装无人机是战争概念的争论和边缘化的长期遗产的一部分,这些争论决定了武装无人机在当代战争中的应用。最后,认为必须从武装无人机对当代战争的战略贡献的角度对其进行评估,从而拒绝将无人机战争特殊化,将其视为一种根本不同的战争实践。

成为VIP会员查看完整内容
48

如何使人工智能具备通用智能,以及这种技术对社会的意义。 人工智能无处不在。你每天接触的越来越多的系统和服务都基于人工智能技术。尽管一些非常新的人工智能系统在某种程度上是通用的,但大多数人工智能仍然是狭窄特定的;也就是说,它只能在特定的上下文中执行单一任务。例如,拼写检查器无法进行数学运算,而世界上最优秀的国际象棋程序也无法玩俄罗斯方块。人类智能则不同。我们能够解决各种任务,包括那些我们以前没有见过的任务。在《人工通用智能》一书中,朱利安·托戈利乌斯探讨了开发更通用人工智能的技术方法,并询问通用人工智能对人类文明的意义。 托戈利乌斯首先举例说明在某些方面表现超人类的狭窄人工智能。有趣的是,已经有超过半个世纪的人工智能系统在某种意义上是超人类的。接着,他通过心理学、动物行为学和计算机科学的定义讨论拥有通用智能意味着什么。然后,他探索了开发更通用人工智能的两大主要技术方法:通过自我监督学习的基础模型,以及在虚拟环境中进行开放式学习。书的最后几章探讨了超越严格技术方面的潜在人工通用智能。这里讨论的问题包括这种通用人工智能是否会具备意识、是否会对人类构成风险,以及它可能如何改变社会。

关于作者

朱利安·托戈利乌斯是纽约大学计算机科学与工程系的副教授,也是游戏人工智能初创公司modl.ai的联合创始人。

成为VIP会员查看完整内容
44

学习如何通过构建自己的模型来理解生成式人工智能,这些模型可以撰写连贯的文本、生成逼真的图像,甚至创作出栩栩如生的音乐。 《使用PyTorch学习生成式人工智能》 通过从头开始构建工作中的AI模型,教授生成式AI的基本机制。在整个过程中,您将使用直观的PyTorch框架,这对任何使用过Python数据工具的人来说都会非常熟悉。在学习的过程中,您将掌握生成对抗网络(GANs)、Transformer、大型语言模型(LLMs)、变分自编码器、扩散模型、LangChain等的基本知识!在**《使用PyTorch学习生成式人工智能》**中,您将构建这些令人惊叹的模型:

  • 一个简单的英法翻译器
  • 一个强大如GPT-2的文本生成模型
  • 一个生成逼真花卉图像的扩散模型
  • 使用GANs和Transformers的音乐生成器
  • 一个图像风格迁移模型
  • 一个零样本“万事通”代理 您创建的生成式AI项目使用与全尺度模型(如GPT-4和Stable Diffusion)相同的基本技术。您不需要成为机器学习专家——只需要一些基本的Python编程技能即可开始。购买本书纸质版将免费获得Manning Publications提供的PDF和ePub格式的电子书。

技术介绍

Transformers、生成对抗网络(GANs)、扩散模型、大型语言模型(LLMs)等强大的深度学习模式彻底改变了我们处理文本、图像和声音的方式。生成式AI乍一看像是魔法,但通过一点Python、PyTorch框架和一些实践,您可以在自己的笔记本电脑上构建有趣且实用的模型。本书将向您展示如何实现这些。

关于本书

《使用PyTorch学习生成式人工智能》 通过帮助您构建自己的工作AI模型来介绍生成式AI的基本机制。您将从使用GAN创建简单的图像开始,接着逐行编写一个语言翻译的Transformer。在充满趣味且引人入胜的项目中,您将训练模型生成动漫图像、撰写海明威风格的文章、创作莫扎特般的音乐等等。您只需掌握Python和一些机器学习的基础知识,其他内容在学习过程中会逐步掌握!

本书内容

  • 构建一个英法翻译器
  • 创建一个文本生成的大型语言模型
  • 训练扩散模型生成高分辨率图像
  • 使用GANs和Transformers生成音乐

读者对象

示例代码使用简单的Python。无需具备深度学习经验。

作者简介

Mark Liu是肯塔基大学金融硕士项目的创始主任。 本书的技术编辑为Emmanuel Maggiori。

目录

第一部分

  1. 什么是生成式AI以及为什么选择PyTorch?

  2. 使用PyTorch进行深度学习

  3. 生成对抗网络:形状和数字生成 第二部分

  4. 使用生成对抗网络生成图像

  5. 选择生成图像的特征

  6. CycleGAN:将金发转换为黑发

  7. 使用变分自编码器生成图像 第三部分

  8. 使用递归神经网络进行文本生成

  9. 注意力机制和Transformer的逐行实现

  10. 训练Transformer翻译英语到法语

  11. 从零开始构建生成预训练的Transformer

  12. 训练Transformer生成文本 第四部分

  13. 使用MuseGAN进行音乐生成

  14. 构建并训练音乐Transformer

  15. 扩散模型与文本生成图像的Transformers

  16. 预训练的大型语言模型和LangChain库 附录A. 安装Python、Jupyter Notebook和PyTorch B. 最低要求的读者资格和深度学习基础

作者简介

Dr. Mark Liu是肯塔基大学金融硕士项目的终身教授和创始主任。他拥有超过20年的编程经验,并获得了波士顿学院的金融学博士学位。

成为VIP会员查看完整内容
43

使用突破性的生成式AI工具提高你的生产力、效率和代码质量。 像ChatGPT和GitHub Copilot这样的AI编程工具正在改变我们编写代码和构建软件的方式。《AI驱动的开发者》揭示了使用AI实现可靠结果的实用最佳实践。它打破了炒作的迷雾,展示了这些工具如何通过现实世界的例子简化和增强日常任务,并激发你的创造力。 在《AI驱动的开发者》一书中,你将发现如何最大化利用AI:

  • 利用AI帮助你设计和规划软件
  • 使用AI进行代码生成、调试和文档编写
  • 借助AI提升代码质量评估
  • 清晰表达复杂问题以激发AI解决方案
  • 培养持续学习的心态,保持技术更新
  • 适应几乎任何编程语言的开发技能

AI编程工具为你提供了一位聪明可靠的初级开发者,它快速且渴望帮助你完成每一项任务。《AI驱动的开发者》将帮助你充分发挥这个新助手的作用。你将学习如何使用AI完成从编写模板代码、测试和质量评估、管理基础设施、提供安全保障,甚至是软件设计的所有工作。 购买本书的纸质版即附赠来自Manning Publications的免费电子书(PDF、Kindle和ePub格式)。 关于技术

使用像Copilot和ChatGPT这样的AI工具就像雇佣了一位超级聪明且快速的初级开发者,能够胜任从研究到重构的所有任务。使用AI进行编程可以帮助你更快地工作、编写更好的应用程序,甚至做出目前团队可能无法完成的事情。这本书将向你展示如何实现这些目标。 关于本书

《AI驱动的开发者:使用ChatGPT和Copilot构建软件》详细讲解了如何在现实的软件开发中最大化AI编程工具的影响。在书中,你将通过一个完整的应用程序开发流程,展示如何在每个步骤中引入AI。你将使用ChatGPT和Copilot生成代码和创意,提出预测建议,并开发一个自我文档化的应用程序。你还将学习如何使用AI进行代码测试和解释。 内容包括:

  • 使用AI设计和规划软件
  • 代码生成、调试和文档编写
  • 提高代码质量评估
  • 使用不熟悉的编程语言

适合读者

适合中级软件开发人员,无需AI经验。 关于作者

Nathan B. Crocker 是Checker Corp的联合创始人兼首席技术官。 本书的技术编辑是Nicolai Nielsen。 目录

第一部分

  1. 理解大型语言模型
  2. 开始使用大型语言模型

第二部分3. 使用ChatGPT设计软件 4. 使用GitHub Copilot构建软件 5. 使用GitHub Copilot和Copilot Chat管理数据 第三部分6. 使用大型语言模型进行测试、评估和解释 第四部分7. 编写基础设施代码并管理部署 8. 使用ChatGPT进行安全应用开发 9. GPT随行 附录A. 设置ChatGPT B. 设置GitHub Copilot C. 设置AWS CodeWhisperer 关于作者

Nathan Crocker 是Galaxy Digital LP的董事总经理兼全球核心系统负责人,Galaxy Digital LP 是一家数字资产和加密货币领域领先的金融服务和投资管理公司。


成为VIP会员查看完整内容
37

书籍简介

利用生成性AI生成个人助手生成性AI工具能够 seemingly 生成文本、图像,甚至创意,因其日益普及和复杂化而备受关注。这项宝贵技术可以帮助撰写短文和长文内容,制作音频和视频,作为研究助手,以及完成其他各种专业和个人任务。《生成性AI入门》是您利用人工智能提升个人和职业生活的路线图。您将学习如何识别最适合您需求的平台,并编写引导所需内容的有效提示。这本书由《ChatGPT入门》的畅销作者撰写,是您全面深入生成性AI世界的理想起点。

  • 发现最佳生成性AI工具,学习如何用于写作、设计等
  • 编写强有效的AI提示,以生成有价值的输出并节省时间
  • 创建AI生成的音频、视频和图像
  • 将AI融入日常任务以提升生产力 本书提供了生成性AI能力的易懂概述,并指导如何将其融入任何工作中。非常适合希望将AI知识融入工作中的人。

封底内容

负责任地利用AI的力量生成性人工智能(GenAI)正在逐步改变我们的生活——每一个用户提示都是一次转变。这本书是您对这一新技术的明确、可靠的入门指南,提供了对技术运作的简单解释和值得探索的GenAI工具的建议。获取编写有效提示、生成文本输出、制作多媒体内容以及使用AI提升创造力的专业技巧。您甚至可以根据书中的策略以道德和负责任的方式将AI整合到工作流程中。您将如何利用生成性AI?书中内容…

  • 理解不同类型的生成性AI模型
  • 编写更好的提示
  • 生成文本、图像、音频和视频
  • 使用AI优化您的工作和创造过程
  • 破除常见的AI神话 关于作者

Pam Baker是一位屡获殊荣的自由撰稿人、分析师和作者。她的前作《ChatGPT入门》是关于有效使用ChatGPT平台的第一本实用指南之一。她为《纽约时报》、CNN、Ars Technica、InformationWeek和CSO等多家媒体撰稿。Baker还是LinkedIn Learning的生成性AI讲师。

成为VIP会员查看完整内容
37

增强外部数据的大型语言模型(LLMs)在完成现实任务方面展现出卓越的能力。外部数据不仅增强了模型的领域特定专业知识和时间相关性,还减少了幻觉现象,从而提升了输出的可控性和可解释性。将外部数据集成到LLMs中的技术,如检索增强生成(RAG)和微调,正受到越来越多的关注和广泛应用。然而,数据增强LLMs在各个专业领域的有效部署面临重大的挑战。这些挑战涵盖了广泛的问题,从检索相关数据和准确理解用户意图,到充分利用LLMs在复杂任务中的推理能力。我们认为,数据增强LLM应用没有通用的解决方案。在实践中,表现不佳往往源于未能正确识别任务的核心重点,或是因为任务本质上需要多种能力的结合,这些能力必须分解以便更好地解决。在这项调查中,我们提出了一种RAG任务分类方法,根据所需外部数据类型和任务的主要重点将用户查询分为四个层级:

显性事实查询、隐性事实查询、可解释的推理查询和隐含推理查询。我们定义了这些查询层级,提供相关数据集,并总结了应对这些挑战的关键挑战和最有效的技术。最后,我们讨论了将外部数据集成到LLMs中的三种主要形式:上下文、小模型和微调,强调它们各自的优缺点及适合解决的问题类型。本研究旨在帮助读者全面理解和解析构建LLM应用的数据需求和关键瓶颈,提供针对不同挑战的解决方案,并作为系统开发此类应用的指南。

引言

大型语言模型(LLMs)展现出卓越的能力,包括广泛的世界知识和复杂的推理技能。尽管取得了这些进展,在各种专业领域有效部署LLMs仍面临重大挑战。这些挑战包括模型幻觉、与领域特定知识的不一致等问题。整合领域特定数据,特别是无法包含在初始训练语料中的私有或本地数据,对于定制LLM应用以满足特定行业需求至关重要。通过像RAG和微调这样的技术,数据增强的LLM应用在多个方面展示了相较于仅基于通用LLMs构建的应用的优势:

  • 增强的专业性和时效性:用于训练LLMs的数据往往滞后,且可能未能全面覆盖所有领域,特别是用户拥有的专有数据。数据增强的LLM应用通过提供更详细和准确的复杂问题答案,允许数据更新和定制,从而解决了这一问题。

  • 与领域专家的对齐:通过使用和学习领域特定数据,数据增强的LLM应用可以展现更像领域专家(如医生和律师)的能力。

  • 减少模型幻觉:数据增强的LLM应用基于真实数据生成响应,将其反应扎根于事实中,从而显著减少幻觉的可能性。

  • 改进的可控性和可解释性:所使用的数据可以作为模型预测的参考,从而增强可控性和可解释性。 尽管对这些进展充满热情,开发人员通常面临挑战,并需要投入大量人力以满足预期(例如,达到高成功率的问答)。许多研究 [1, 2, 3, 4, 5] 强调了构建基于RAG和微调等技术的数据增强LLM应用所面临的挑战和挫折,尤其是在法律、医疗、制造等专业领域。这些挑战涵盖广泛的范围,从构建数据管道(如数据处理和索引)到利用LLMs的能力实现复杂的智能推理。例如,在金融应用中,通常需要理解和利用高维时间序列数据,而在医疗领域,医疗图像或时间序列医疗记录通常至关重要。使LLMs能够理解这些多样的数据形式是一个反复出现的挑战。另一方面,在法律和数学应用中,LLMs通常难以掌握不同结构之间的长距离依赖关系。此外,根据特定应用领域,对LLM响应的可解释性和一致性有更高的需求。LLMs的固有特性往往表现为低可解释性和高不确定性,这带来了显著的挑战。增强LLMs的透明度并降低其不确定性对于提高其输出的信任度和可靠性至关重要,尤其是在精确性和问责制至关重要的领域。通过与领域专家和开发人员的广泛讨论,并仔细分析他们面临的挑战,我们深刻理解到数据增强的LLM应用并非通用解决方案。现实世界的需求,特别是在专家领域,具有高度复杂性,并且在与给定数据的关系以及所需推理的困难程度上可能有显著差异。然而,开发人员常常未能意识到这些区别,最终导致解决方案充满性能陷阱(就像一个到处漏水的房子)。相反,如果我们能够全面理解不同层级的需求及其独特挑战,我们就可以相应地构建应用,并使应用逐步改善(就像一步一步构建一个坚固可靠的房子)。然而,研究工作和现有相关调查 [6, 7, 8, 9, 10, 11, 12, 13] 通常只关注其中一个层级或特定技术主题。这促使我们编写这份全面的调查,旨在清晰定义这些不同层级的查询,识别与每个层级相关的独特挑战(见图1),并列出相关的研究和应对这些挑战的努力。此调查旨在帮助读者构建数据增强LLM应用的全景视图,并作为系统开发此类应用的手册。

在数据增强LLM应用的领域中,查询可以根据其复杂性和所需数据交互的深度进行分层。这种分层有助于理解LLM生成准确和相关响应所需的不同认知处理水平。从简单的事实检索到对隐含知识的细致解读,每个层级代表了LLM处理任务的复杂性上升。以下是这些层级的详细说明,提供了各阶段所需的独特挑战和能力的洞察。

第一级:显性事实

这些查询直接询问给定数据中明确存在的事实,无需任何额外推理。这是最简单的查询形式,模型的任务主要是定位和提取相关信息。例如,“2024年夏季奥运会将在何处举行?”这是一个目标明确的事实查询。

第二级:隐性事实

这些查询询问数据中的隐性事实,这些事实并不显而易见,可能需要一定的常识推理或基本逻辑推导。所需的信息可能分散在多个部分,或需要简单的推断。例如,“堪培拉所在国家目前的执政党是什么?”可以通过结合“堪培拉在澳大利亚”与“澳大利亚当前执政党”来回答。

第三级:可解释的推理

这些查询不仅要求理解事实内容,还需要掌握和应用特定领域的推理,这些推理与数据的上下文密切相关。这些推理通常在外部资源中明示提供,在通用大型语言模型的预训练阶段中通常不会出现或很少遇到。例如,在制药领域,LLM必须解读FDA指南文件——这代表了FDA的最新观点——以评估特定药物申请是否符合监管要求。同样,在客户支持场景中,LLM必须导航预定义工作流程的复杂性,以有效处理用户询问。在医疗领域,许多诊断手册提供权威和标准化的诊断标准,例如急性胸痛患者的管理指南。通过有效遵循这些外部推理,可以开发一个专门的LLM专家系统来管理胸痛,这涉及理解支持人员与客户互动时的程序步骤和决策树,确保响应不仅准确,还符合公司的服务标准和协议。

第四级:隐含推理

这一类查询深入探讨更具挑战性的领域,其中推理并没有明确记录,而必须从外部数据中观察到的模式和结果中推断出来。这些隐含推理不仅指隐含的推理链和逻辑关系,还包括识别和提取每个特定查询所需的外部推理的内在挑战。例如,在IT运营场景中,云运维团队可能已经处理了众多事件,每个事件都有其独特的情况和解决方案。LLM必须善于从这一丰富的隐性知识库中挖掘,以识别成功的隐性策略和决策过程。同样,在软件开发中,以前bug的调试历史可以提供丰富的隐性见解。虽然每个调试决策的逐步推理可能没有系统记录,但LLM必须能够提取指导这些决策的基本原则。通过综合这些隐含推理,LLM可以生成不仅准确,还反映出经验丰富的专业人员长期以来所积累的无形专业知识和解决问题的方法。

总之,查询的层级分类反映了复杂性梯度和LLM所需理解的类型。如图1所示,并在图2中举例,前两个层级——显性事实和隐性事实,侧重于检索事实信息,无论是直接陈述的还是需要基本推断的。这些层级挑战着LLM提取和综合数据成连贯事实的能力。相反,后两个层级——可解释的推理和隐含推理,则将重点转向LLM学习和应用数据背后推理的能力。这些层级要求更深层次的认知参与,LLM必须与专家思维对齐或从非结构化历史数据中提取智慧。根据这一标准,常见的事实查询数据集的分类见表1。

每个层级都有其独特的挑战,因此需要量身定制的解决方案来有效应对它们。在接下来的章节中,我们将深入探讨这些层级的复杂性,探索使LLM能够在各种查询类型中导航数据增强应用的具体策略和方法。这一探索不仅将突显LLM当前的能力,还将揭示该领域的持续进展和潜在未来发展。

成为VIP会员查看完整内容
36

近年来,人工智能在语言能力方面取得了惊人的进步。在深度学习的快速发展推动下,语言 AI 系统的文本生成和理解能力达到了前所未有的高度。这一趋势正推动着新功能、新产品甚至整个行业的发展。通过本书直观的教育性内容,读者将学习如何使用这些能力的实用工具和概念。 您将了解如何使用预训练的大型语言模型处理如文案撰写和摘要生成等应用场景;创建超越关键词匹配的语义搜索系统;并利用现有的库和预训练模型进行文本分类、搜索和聚类。 本书还帮助您:

  • 了解擅长文本生成和表示的 Transformer 语言模型架构
  • 构建高级 LLM 管道,对文本文档进行聚类并探索它们涵盖的主题
  • 构建超越关键词搜索的语义搜索引擎,使用如密集检索和重排序器等方法
  • 探索生成模型的使用,从提示工程到检索增强生成的全过程
  • 深入理解如何训练大型语言模型 (LLM) 并通过生成模型微调、对比微调和上下文学习为特定应用优化它们

评论“Jay 和 Maarten 在他们的新书中继续提供了精美的图解和对复杂主题的深刻见解。这本书结合了可运行的代码、时间线和关键论文的参考文献,对于任何想了解大型语言模型构建主要技术的人来说,都是一项宝贵的资源。” ——Andrew Ng, DeepLearning AI 创始人 “我想不出还有哪本书比这本更值得阅读。在每一页上,我都学到了一些在语言模型时代取得成功的关键内容。” ——Josh Starmer, StatQuest “这是一本关于语言模型及其在行业中的实际应用的出色指南。书中对生成、表征和检索应用的高度可视化覆盖,使读者能够快速理解、使用并改进 LLM。强烈推荐!” ——Nils Reimers, Cohere 机器学习总监 | sentence-transformers 创作者 “如果您想快速掌握 LLM 相关的一切,不用再找了!在这本精彩的书中,Jay 和 Maarten 将带您从零基础到掌握大型语言模型的历史和最新进展。书中有直观的解释、真实的案例、清晰的图解和全面的代码实验室,这本书揭开了 Transformer 模型、分词器、语义搜索、RAG 以及许多其他前沿技术的复杂面纱。任何对最新 AI 技术感兴趣的人都必须读这本书!” ——Luis Serrano, PhD, Serrano Academy 创始人兼首席执行官 “这本书是任何对生成式 AI 快速演变领域感兴趣的人必读之作。它聚焦于文本和视觉嵌入,是算法进化、理论严谨性和实用指导的完美结合。无论您是学生、研究人员还是行业专家,这本书都将为您提供提升生成式 AI 知识所需的应用场景和解决方案。非常出色!” ——Chris Fregly, AWS 生成式 AI 解决方案首席架构师 关于作者

Jay Alammar 是 Cohere 的总监和工程研究员(Cohere 是提供大型语言模型 API 的先驱公司)。在这个角色中,他为企业和开发者社区提供使用语言模型的实践指导和教育。通过他流行的 AI/ML 博客,Jay 帮助数百万研究人员和工程师直观地理解从基础(出现在 NumPy 和 pandas 等软件包的文档中)到前沿(如 Transformers、BERT、GPT-3、Stable Diffusion)的机器学习工具和概念。Jay 还共同创建了 Deeplearning.ai 和 Udacity 上的流行机器学习和自然语言处理课程。 Maarten Grootendorst 是荷兰癌症研究中心 (IKNL) 的高级临床数据科学家。他拥有组织心理学、临床心理学和数据科学的硕士学位,利用这些知识向广泛的受众传达复杂的机器学习概念。通过他流行的博客,Maarten 向数百万读者解释了人工智能的基本原理,常常从心理学的角度进行阐述。他是多个依赖大型语言模型的开源包的作者和维护者,如 BERTopic、PolyFuzz 和 KeyBERT。这些包被全球的数据专业人士和组织下载和使用数百万次。

成为VIP会员查看完整内容
34

多年来,我的梦想是创建能够处理繁琐程序性任务的自主AI智能体(例如安排会议差旅),以便让我能够专注于创意工作。现代AI模型,尤其是像ChatGPT这样的大型语言模型(LLMs),使我们距离这个目标越来越近。但我的梦想已经实现了吗?本论文涵盖了2020年至2024年间的AI智能体研究,承认LLMs是广泛AI智能体应用中的一个关键但早期的步骤。尽管LLMs在处理定义明确的任务(例如撰写电子邮件)方面表现出色,但它们在处理需要智能体理解和应用“操作知识”的程序性任务时仍存在困难,特别是在动态交互中。当前的LLMs在复杂的程序性任务中表现不一致。本论文的目标是创建能够在不断变化的环境中以准确性、稳健性和可靠性执行程序性任务的AI智能体,围绕以下三个关键支柱展开。

首先,我们研究了AI智能体的评估方法,以系统地理解智能体的行为。目前缺乏能够模拟现实世界复杂性、模拟多样且复杂的人类任务,并支持动态交互的基准来进行系统评估。这导致了现有评估只部分反映现实场景。我们创建了一个涵盖交互式网页任务(例如在线预订匹兹堡机场附近的酒店房间)的综合基准,符合这些标准,并开发了更为健全的评估指标。我们的工作揭示了基于LLM的智能体在实际交互任务中的不足,并提供了一个易于使用的环境以推动该领域的发展。

其次,我们通过为AI智能体设计一种更灵活的“语言”来增强其表达能力。除了知识之外,人类在执行程序性任务时展现了极大的灵活性:我们将任务分解为更小的子任务,利用过去的经验,使用工具等。用非结构化文本表示这种灵活性是非常具有挑战性的。我们设计了一种新形式化方法,将任务解决等同于编写Python程序。程序固有的表达能力和结构化特性使AI智能体能够更准确、明确地表示复杂的过程(例如,规划子任务→组合嵌套函数,记忆回忆→重用函数)。这种新形式化方法增强了LLMs在推理和执行程序性任务中的能力,显著提高了任务执行的准确性。

最后,我们开发了资源并设计了创新的方法,以使智能体能够适应陌生任务。对于LLMs而言,处理其训练语料库中未包含或稀疏包含的信息是一个特别大的挑战。因此,LLMs可以从访问外部知识中获益。我们研究了如何通过对人类编写的外部知识(例如手册)进行细致的任务分解,使其对AI智能体可理解。我们还提出了通过检索实现的知识增强执行的新机制,这使智能体能够通过参考外部知识以及通过数据合成来执行复杂任务。这两种方法绕过了对精确示范的依赖。

成为VIP会员查看完整内容
33

进入奇妙的图算法世界,在这里你将学习如何以及何时应用这些非常有用的数据结构,来解决各种令人着迷(甚至神奇)的计算问题。 《有趣的图算法》通过幽默、富有想象力的示例以及实用的Python实现,带来对复杂概念的清新诠释,揭示基于图的解决问题方法在现实世界中的强大和多样性。通过清晰的图解、有趣的示例和Python代码,你将为在自己的项目中解决图问题打下坚实的基础。 探索一系列精心构建的场景,其中包括:

  • 通过篱笆迷宫展示深度优先搜索
  • 通过城市探险演示广度优先搜索
  • 通过复杂的迷宫揭示桥和关节点
  • 通过战略规划展示二分匹配

从基础的图结构到高级主题,你将能够:

  • 实现强大的算法,包括Dijkstra、A* 和 Floyd-Warshall算法
  • 自信地解决谜题并优化路径搜索
  • 发现图算法在社交网络和交通系统中的实际应用
  • 培养出色的直觉,知道何时以及为何应用特定的图算法

深入学习拓扑排序、最小生成树、强连通分量和随机游走。应对图着色和旅行商问题等挑战。 准备好通过图的视角看待世界吧——在这里,连接揭示洞见,算法打开新的可能性。

评论

“图可能是世界上最自然的数据结构。这本全面的书揭示了许多迷人的图算法的魔力和奥秘,这些算法使得从图中获取强大应用和洞见成为可能。” ——Kirk Borne,DataPrime首席科学官,博士

关于作者

Jeremy Kubica 是一位在计算机科学与天体物理学交叉领域工作的工程总监。他拥有卡内基梅隆大学的机器人学博士学位和康奈尔大学的计算机科学学士学位。他是《计算机科学侦探》、《有趣的数据结构》(均由No Starch Press出版)和《计算童话》的作者。

成为VIP会员查看完整内容
31

生成式人工智能(GAI)和大语言模型(LLM)是以无监督或半监督方式运行的机器学习算法。这些算法利用现有内容,如文本、照片、音频、视频和代码,生成新内容。其主要目标是生成真实且新颖的材料。此外,它们在生成新材料的数量上没有限制。新材料可以通过应用程序接口(APIs)或自然语言接口生成,例如OpenAI开发的ChatGPT和Google开发的Bard。 生成式人工智能(AI)领域的独特之处在于其发展和成熟过程极为透明,公众可以广泛观察其进展。目前的人工智能时代受到有效利用其能力以提升企业运营的要求影响。具体而言,属于生成式AI范畴的大语言模型(LLM)能力,具有重新定义创新和生产力极限的潜力。然而,企业在努力引入新技术的同时,可能会危及数据隐私、长期竞争力和环境可持续性。 本书深入探讨生成式人工智能(GAI)和LLM。它考察了生成AI模型的历史与演变发展,以及由这些模型和LLM产生的挑战和问题。本书还讨论了基于生成AI的系统的必要性,并探讨了为生成AI模型开发的各种训练方法,包括LLM预训练、LLM微调和基于人类反馈的强化学习。此外,它探讨了与这些模型相关的潜在用例、应用和伦理考虑。本书最后讨论了生成AI的未来方向,并呈现了多项案例研究,突显生成AI和LLM的应用。

成为VIP会员查看完整内容
32

在银行业数字化、智能化发展的过程中,数字员工成为发展数字金融的重要应用载体,正在重塑银行业的服务模式和创新能力。数字员工已经历基于流程自动化的1.0时代、基于“RPA+传统人工智能应用”的2.0时代,2023年,大模型驱动的生成式人工智能技术掀起新的发展浪潮,数字员工正迈向基于大模型和智能体的3.0时代。数字员工3.0以更贴近人类的方式进行交流和互动,智能化能力和拟人化水平大幅提升,成为推动银行数字化转型、培育金融新质生产力的新型重要应用载体。

为更好推动数字金融高质量发展,助力“人工智能+”金融生态建设,工商银行金融科技研究院牵头,联合华为技术有限公司数字金融军团、北京金融科技产业联盟编撰了《发展新质生产力,开启数字金融新纪元——大模型驱动的数字员工3.0建设应用白皮书》。该白皮书立足金融科技发展前沿,从底层的大模型技术、中间的应用范式能力构建到上层的应用场景落地,同时融汇数字员工的全域安全和全生命周期身份管理,详细描绘数字员工的技术栈和实现路径,深入探讨数字员工应用于智能客服、智能营销、智能风控、智能运营等多个领域的实践案例,并对其管理和安全管控方面进行深入思考,为读者提供丰富的参考。

一、积极应对机遇挑战,

构建新型架构蓝图

基于大模型的数字员工3.0,在任务胜任期望、技术支撑复杂度、身份管理、安全可信等方面均提出新要求。目前,数字员工3.0仍处于起步阶段,对标金融应用的可靠、安全、稳定、规范的高标准要求,数字员工3.0需要各银行机构从深化技术创新、规模化业务应用、优化管理流程、确保应用安全等方面进行体系化规划,指导应用实践。结合工商银行实践,该白皮书建议按照“全域场景赋能、全栈技术融合、全维人格纳管、全辖安全防护”蓝图目标,打造面向数字金融的数字员工3.0体系,实现数字员工高质量、规模化、精品化、全链路的应用建设。

二、全域场景价值赋能,

重塑应用百花齐放

数字员工3.0的真正价值在于规模化、高效赋能业务价值创造。该白皮书基于工商银行多年人工智能实践经验,提炼出一套“两阶段六步骤”的数字员工业务赋能方法论(如图1所示),旨在指导数字员工3.0的金融业务场景高价值挖掘和规模化实施。第一阶段聚焦场景挖掘,通过深入业务一线,从岗位全旅程出发,感受真场景,理解真痛点,形成全链路赋能场景地图;第二阶段聚焦场景建设,让业务部门深度介入方案设计、数据梳理、运营迭代,使业务人员能更直观、专业地对未来工作流进行重塑,确保应用成效。 图1 两阶段六步骤的数字员工业务赋能方法论

三、全栈融合百模千态,

建设敏捷创新工厂

为打造百模千态的数字员工,在技术上,数字员工3.0体系整体采用全栈技术融合模式,按照“三大支柱、一条产线、全量资产”的建设思路,融汇贯通各类人工智能技术,为数字员工研发运行提供全面的技术支撑。一是异构融合,夯实算力、算法、数据三大人工智能支柱,提升整体智能化工艺水平;二是研运一体,打造数字员工一体化产线,封装“数—智—用”三链融合的敏捷研发能力,建立拟人逼真、统一标准的数字员工服务能力,高效满足全领域数字员工生产需求;三是共享共建,建设统一纳管的资产中心,形成数字员工技能研发、组装的统一“零配件供应”。数字员工3.0体系技术架构如图2所示。 图2 数字员工3.0体系技术架构

四、遵从劳动分工本源,

创新数字员工管理

该白皮书建议数字员工管理体系参考人类员工管理模式,从独立身份、权责清晰、专业设岗、统一纳管、数字运营五个方面推进建设。一是建立数字员工身份认证制度,构建数字员工统一运营管理平台,实现数字员工全流程管控;二是明确数字员工建设各方职责,在企业内部形成自上而下的全面建设体系;三是从现有人力岗位序列的具体工作任务切入,明确对客服务和对内赋能两大类数字员工的岗位设计;四是采用融合策略,按照“统一数字员工品牌、差异化岗位数字助手建设”的模式推进数字员工分层管理;五是建立数字员工的评价体系,实现数字员工工作的精细化运营管理。

五、“科技向善”坚守本心,

安全可信夯实根基

数字员工应用的安全性与可靠性是金融应用赋能的红线,不容有失,银行机构应将“安全可信”作为数字员工发展的核心原则和使命担当。该白皮书建议围绕数字员工全生命周期,从安全管理、安全技术、安全运营三个方向体系化构建金融数字员工安全合规能力,保障数字员工业务场景可控可用,从而实现“科技向善”的愿景。

六、数字员工未来已来,

技术革新稳中求进

以大模型为核心的数字员工3.0引领的智慧金融革命浪潮,将为打造一个更加智能化、高效率、广泛覆盖的高质量金融服务体系提供强大动能。银行业应当积极拥抱新技术,建立健全监管机制,深入探索数字员工的应用场景,不断拓展其应用范围和深度,并培养能够与数字员工协同工作的复合型人才队伍,打造人机协作、安全可信、可持续的新型金融服务模式。工商银行期待与各方携手,共同打造新质生产力,迈向数字金融新纪元!

成为VIP会员查看完整内容
32

摘要—大型模型智能体(LM agents),由如 GPT-4 和 DALL-E 2 等大型基础模型驱动,代表了实现人工通用智能(AGI)的重要一步。LM 智能体展示了自主性、具身性和连接性等关键特征,使其能够在物理、虚拟和混合现实环境中无缝与人类、其他智能体及周围环境互动。本文提供了对 LM 智能体最前沿技术的全面调查,重点讨论其架构、合作范式、安全性、隐私和未来前景。具体而言,我们首先探讨 LM 智能体的基础原则,包括一般架构、关键组件、使能技术和现代应用。随后,我们从数据、计算和知识的角度讨论 LM 智能体的实际合作范式,以促进其连接智能。此外,我们系统分析了与 LM 智能体相关的安全漏洞和隐私泄露,特别是在多智能体环境中。我们还探讨了其底层机制,并回顾现有和潜在的对策。最后,我们概述了构建稳健和安全的 LM 智能体生态系统的未来研究方向。 关键词—大型模型、人工智能智能体、具身智能、多智能体合作、安全、隐私。

I. 引言 A. 大型模型智能体的背景 在1950年代,艾伦·图灵提出了著名的图灵测试,以评估机器是否能够表现出与人类相当的智能,为人工智能(AI)的发展奠定了基础。这些被称为“智能体”的人工实体,是AI系统的核心组件。一般来说,AI智能体是能够理解并响应人类输入、感知环境、做出决策并在物理、虚拟或混合现实环境中采取行动以实现其目标的自主实体[1]。AI智能体的范围从遵循预定义规则的简单机器人到通过经验学习和适应的复杂自主实体[2]。它们可以是基于软件的或物理实体,能够独立运行或与人类或其他智能体合作。 自20世纪中叶以来,AI智能体的发展取得了显著进展[3]–[5],如深蓝、AlphaGo和AlphaZero,如图1所示。尽管取得了这些进展,之前的研究主要集中在精细化专业能力上,如符号推理或在特定任务(如围棋或国际象棋)中表现优异,往往忽视了在AI模型中培养通用能力,如长期规划、多任务泛化和知识保留。创造能够灵活适应广泛任务和复杂环境的AI智能体的挑战仍然在很大程度上未得到探索。为了进一步推动AI智能体的边界,开发强大的基础模型以整合这些关键属性是至关重要的,为下一代AI智能体提供多功能的基础。 随着大型模型(LMs)的兴起,也称为大型基础模型,如OpenAI的GPT-4、Google的PaLM 2和Microsoft的Copilot,LMs为全面增强AI智能体的内在能力开辟了新可能性[6][7]。如图2所示,一个LM智能体,无论是软件形式还是具身形式,通常由四个关键组件组成:规划、行动、记忆和互动。这些智能体能够在物理、虚拟或混合现实环境中无缝操作[1][8]–[10]。特别是,LMs作为AI智能体的“大脑”,赋予它们在人机互动(HMI)、复杂模式识别、知识保留、推理、长期规划、泛化和适应性方面强大的能力[9]。此外,通过先进的推理和少量/零样本规划技术,如思维链(CoT)[11]、思维树(ToT)[12]和反思[13],LM智能体能够形成复杂的逻辑连接,有效解决复杂的多面任务。例如,AutoGPT[14],一个有前途的LLM智能体原型,可以将复杂任务分解为几个可管理的子任务,从而促进结构化和高效的问题解决。将LM与检索增强生成(RAG)技术[15]结合,进一步使智能体能够访问外部知识源,并基于检索的信息提高其响应的准确性。此外,LM智能体可以灵活集成多种LM,包括大型语言模型(LLM)和大型视觉模型(LVM),以实现多方面的能力。 LM智能体被视为实现人工通用智能(AGI)的一重要步骤,并广泛应用于网络搜索[16]、推荐系统[17]、虚拟助手[18][19]、元宇宙游戏[20]、机器人技术[21]、自动驾驶汽车[22]和电子设计自动化(EDA)[23]等领域。据MarketsandMarkets[24]报告,2023年全球自主AI和自主智能体市场的估值为480亿美元,预计到2028年将以43%的年均增长率增长,达到285亿美元。LM智能体引起了全球关注,包括Google、OpenAI、Microsoft、IBM、AWS、Oracle、NVIDIA和百度等领先科技巨头正在进入LM智能体行业。

B. LM智能体的路线图和关键特征 图3描绘了LM智能体的未来愿景,其特征为三个关键属性:自主性、具身性和连接性,为实现AGI铺平道路。

  1. 自主智能。LM智能体的自主智能指的是它们独立运行的能力,能够在没有持续人类输入的情况下主动做出决策。如图2(a)所示,LM智能体可以维护一个内部记忆,随着时间的推移积累知识,以指导未来的决策和行动,使其能够在动态环境中持续学习和适应[25]。此外,LM智能体可以自主利用各种工具(例如,搜索引擎和外部API)收集信息或创建新工具来处理复杂任务[26]。通过与人类或其他智能体合作或竞争,LM智能体可以有效提升其决策能力[27]。
  2. 具身智能。尽管近年来取得了一些进展,LM通常被动地响应人类在文本、图像或多模态领域的命令,而不直接与物理世界互动[7]。而具身智能体可以主动感知和作用于其环境,无论是数字、机器人还是物理环境,使用传感器和执行器[21][25]。向LM赋能的智能体的转变涉及创建能够理解、学习和解决现实世界挑战的具身AI系统。如图2(b)所示,LM智能体主动与环境互动,并根据实时反馈调整行动。例如,一台负责清洁的家庭机器人LM智能体可以通过分析房间布局、表面类型和障碍物来生成量身定制的策略,而不仅仅是遵循通用指令。
  3. 连接智能。连接的LM智能体超越了单个智能体的能力,在应对复杂的现实任务中发挥关键作用[28]。例如,在自动驾驶中,作为LM智能体的连接自动驾驶汽车共享实时传感数据,协调运动,并在交叉路口协商通行,以优化交通流量并提高安全性。如图3所示,通过将众多LM智能体互联成“LM智能体互联网”,连接的LM智能体可以自由分享感知数据和任务导向知识。通过充分利用各种专业LM的计算能力,它促进了合作决策和集体智能。因此,跨数据、计算和知识领域的协作增强了各个智能体的性能和适应性。此外,这些互动使得LM智能体能够形成社会联系和属性,助力智能体社会的发展[29][30]。

C. 保障连接LM智能体的动机 尽管LM智能体的未来光明,但安全和隐私问题仍然是其广泛采用的重大障碍。在LM智能体的整个生命周期中,可能会出现多种漏洞,从对抗样本[31]、智能体中毒[32]、LM幻觉[33]到普遍的数据收集和记忆[34]。

  1. 安全漏洞。LM智能体容易出现“幻觉”,即其基础LM生成似是而非但不符合现实的输出[33]。在多智能体环境中,幻觉现象可能传播错误信息,损害决策,导致任务失败,并对物理实体和人类构成风险。此外,维护用于训练和推理的感知数据和提示的完整性和真实性至关重要,因为偏见或受损的输入可能导致不准确或不公平的结果[35]。诸如对抗性操控[31]、中毒[36]和后门[37]等攻击进一步威胁LM智能体,允许恶意行为者操控输入并欺骗模型。在协作环境中,智能体中毒行为[32],即恶意智能体破坏其他智能体的行为,可能破坏协作系统。此外,将LM智能体集成到网络物理社会系统(CPSS)中,扩大了攻击面,使对手能够利用互联系统中的漏洞。
  2. 隐私泄露。LM智能体广泛的数据收集和记忆过程带来了严重的数据泄露和未经授权访问的风险。这些智能体通常处理大量个人和敏感的商业信息,涉及面向消费者(ToC)和面向企业(ToB)应用,增加了对数据存储、处理、共享和控制的担忧[38]。此外,LMs可能无意中记住训练数据中的敏感细节,可能在互动过程中暴露私人信息[34]。在多智能体合作中,隐私风险进一步加剧,LM智能体在通信和任务执行过程中可能无意中泄露有关用户、其他智能体或其内部操作的敏感信息。

D. 相关调查与贡献 近年来,LM智能体在学术界和工业界引起了广泛关注,导致多角度探索其潜力的各种研究。该领域的一些重要综述论文如下:Andreas等人[29]提出了AI智能体构建的玩具实验和关于建模交流意图、信念和愿望的案例研究。Wang等人[39]识别了基于LLM的自主智能体的关键组成部分(即,个人资料、记忆、规划和行动)以及主观和客观评估指标。此外,他们讨论了LLM智能体在工程、自然科学和社会科学中的应用。Xi等人[9]提出了一个LLM智能体的一般框架,包括大脑、行动和感知。此外,他们探讨了在单智能体、多智能体和人机协作以及智能体社会中的应用。Zhao等人[2]提供了LLM的系统综述,涵盖了预训练、适应调优、利用和能力评估。此外,介绍了背景信息、主流技术和LLM的关键应用。Xu等人[40]对移动网络中的边缘云AI生成内容(AIGC)服务的关键概念、架构和指标进行了教程,并识别了若干用例和实施挑战。Huang等人[1]提供了虚拟/物理环境中AI智能体的分类,讨论了AI智能体的认知方面,并调查了AI智能体在机器人、医疗保健和游戏中的应用。Cheng等人[10]回顾了LLM智能体的关键组成部分(包括规划、记忆、行动、环境和反思)及其潜在应用。还回顾了多智能体系统中的规划类型、多角色关系和沟通方法。Masterman等人[8]提供了工业项目中单智能体和多智能体架构的概述,并展示了现有研究的见解和局限性。Guo等人[41]讨论了基于LLM的多智能体系统的四个组成部分(即接口、建模、通信和能力获取),并在问题解决和世界模拟方面提出了两条应用线。Durante等人[42]介绍了多模态LM智能体及其训练框架,包括学习、行动、认知、记忆、行动和感知。他们还讨论了智能体的不同角色(例如,具身、模拟和知识推断),以及在游戏、机器人、医疗保健、多模态任务和自然语言处理(NLP)等不同应用中的潜力和实验结果。Hu等人[20]概述了基于LLM的游戏智能体的六个关键组成部分(即感知、思维、记忆、学习、行动和角色扮演),并回顾了六种类型游戏中现有的基于LLM的游戏智能体。Xu等人[43]提供了关于游戏中LM智能体的启用架构和挑战的全面综述。Qu等人[44]对将移动边缘智能(MEI)与LLM整合进行了全面综述,强调在网络边缘部署LLM的关键应用以及在边缘LLM缓存、传输、训练和推理中的最新技术。

  1. 现有的LM智能体调查主要集中在单个LLM智能体和多智能体系统的一般框架设计及其在特定应用中的潜力上。本综述不同于上述现有调查,重点关注LM智能体的网络方面,包括一般架构、启用技术和合作范式,以构建在物理、虚拟或混合现实环境中联网的LM智能体系统。此外,随着LM智能体的进展,研究它们在未来AI智能体系统中的安全性和隐私性变得迫在眉睫。本研究全面回顾了LM智能体的安全和隐私问题,并讨论了现有和潜在的防御机制,这些内容在现有调查中常被忽视。表I比较了本调查与LM智能体领域先前相关调查的贡献。
  2. 在本文中,我们系统性地回顾了单个和连接的LM智能体的最新进展,重点关注安全和隐私威胁、现有和潜在的对策以及未来趋势。我们的调查旨在:1)提供对LM智能体如何工作以及如何在多智能体场景中互动的更广泛理解;2)审视与LM智能体及其互动相关的安全和隐私挑战的范围和影响;3)强调有效的策略和解决方案,以防御这些威胁,保护LM智能体在各种智能应用中的安全。该工作的主要贡献有四个方面:
  3. 我们全面回顾了LM智能体构建的最新进展,包括一般架构、关键组件(即规划、记忆、行动、互动和安全模块)以及启用技术。还讨论了LM智能体的工业原型和潜在应用。
  4. 我们系统地对LM智能体的互动模式(即智能体-智能体、智能体-人类和智能体-环境互动)及其互动类型(即合作、部分合作和竞争)进行了分类。我们探讨了LM智能体在数据合作、计算合作和知识合作方面的实际合作范式。
  5. 我们全面分析了现有和潜在的安全和隐私威胁、其基本机制、分类及单个和连接的LM智能体面临的挑战。我们还回顾了最新的对策,并检验其在保护LM智能体方面的可行性。
  6. 最后,我们讨论了开放的研究问题,并从能源高效和绿色LM智能体、公平和可解释的LM智能体、网络物理社会安全智能体系统、智能体生态系统的价值网络等角度指出未来的研究方向,旨在提升LM智能体的效率和安全性。

E. 论文组织 本文其余部分组织如下。第二节讨论单个LM智能体的工作原理,第三节介绍连接LM智能体的合作范式。第四节和第五节分别介绍LM智能体的安全和隐私威胁的分类,以及最新的对策。第六节概述LM智能体领域的开放研究问题和未来方向。最后,第七节给出结论。图4描绘了本综述的组织结构。

II. 大型模型智能体:工作原理 在本节中,我们首先介绍现有的LM智能体标准。然后,讨论连接LM智能体的一般架构,包括关键组件、通信模式、主要特征和启用技术。接下来,介绍典型原型并讨论LM智能体的现代应用。

  1. LM智能体的操作系统(OS):根据[45],[46],LM智能体的操作系统架构由三层组成:应用层、内核层和硬件层。
  • 应用层承载智能体应用(如旅行、编码和机器人智能体),并提供抽象系统调用的SDK,简化智能体开发。
  • 内核层包括普通的操作系统内核和额外的LM智能体内核,重点在于不改变原始操作系统结构。LM智能体内核中的关键模块包括任务规划和优先级调度的智能体调度器、LM状态管理的上下文管理器、短期数据的记忆管理器、长期数据保留的存储管理器、外部API交互的工具管理器,以及隐私控制的访问管理器。
  • 硬件层包含物理资源(CPU、GPU、内存等),通过操作系统系统调用间接管理,因为LM内核不直接与硬件交互。
  1. LM智能体的构建模块:根据[1],[8]–[10],LM智能体一般有五个构建模块:规划、行动、记忆、互动和安全模块(详细见节II-C)。这些模块共同使LM智能体能够高效、安全地感知、规划、行动、学习和互动于复杂动态环境中。
  • 通过大型模型,规划模块利用记忆模块生成策略和行动计划,实现知情决策[7],[10]。
  • 行动模块执行这些具体的行动,根据实时环境反馈调整行动,以确保上下文适当的响应[9],[42]。
  • 记忆模块作为累积知识(如过去经验和外部知识)的存储库,促进持续学习和改进[10]。
  • 互动模块使智能体与人类、其他智能体和环境之间实现有效的沟通与协作。
  • 安全模块贯穿于LM智能体的操作中,确保主动防护威胁并维护数据和过程的完整性和机密性。
  1. LM智能体的引擎:LM智能体的引擎由一系列前沿技术驱动,包括大型基础模型、知识相关技术、互动、数字双胞胎和多智能体协作(详细见节II-D)。
  • 大型基础模型如GPT-4和DALL-E 2作为LM智能体的大脑,使其具备高级模式识别、复杂推理和智能决策能力,提供认知能力[6],[7]。
  • 知识相关技术通过整合知识图谱、知识库和RAG系统增强LM智能体,使其能够访问、利用和管理大量外部知识源,确保知情和上下文相关的行动[47]。
  • HMI技术通过自然语言处理、多模态接口以及增强/虚拟/混合现实(AR/VR/MR)实现人类与智能体之间的无缝互动,促进动态和自适应的交互[48]。
  • 数字双胞胎技术通过智能体内部的通信实现物理身体和数字大脑之间的数据和状态的高效同步[49]。
  • 多智能体协作技术使LM智能体能够高效协同工作,分享数据、资源和任务,通过智能体间的通信制定合作、竞争和合作竞争策略,解决复杂问题[28]。
  1. LM智能体的通信模式:每个LM智能体由两个部分组成:(i)位于云端、边缘服务器或终端设备的LM赋能大脑,以及(ii)相应的物理身体,如自主车辆。每个LM智能体可以主动与其他LM智能体、虚拟/现实环境和人类互动。对于连接的LM智能体,存在两种典型的通信模式:内部通信用于智能体内大脑与物理身体之间的无缝数据/知识同步,外部通信则用于LM智能体之间的高效协调。表III总结了这两种通信模式的比较。
  • 内部通信是指单个LM智能体内部的数据/知识交换。这种通信确保LM智能体的不同组件(包括规划、行动、记忆、互动和安全模块)协同工作。例如,LM智能体通过其物理身体收集多模态感知数据,然后将解释的信息传达给LM赋能的大脑。大脑中的规划模块制定响应或行动计划,随后由行动模块执行。这种信息的无缝流动对于维持LM智能体在实时动态场景中的功能性、一致性和响应性至关重要。
  • 外部通信涉及多个LM智能体之间的信息和知识交换。它促进了智能体之间的协同任务分配、资源共享和协调行动,推动集体智能的发展。例如,在智能城市应用中,管理交通信号灯、公共交通和应急服务的各种LM智能体共享实时数据,以优化城市流动性和安全性。有效的外部通信依赖于标准化协议,以确保兼容性和互操作性,从而促进LM智能体网络的高效和同步操作。
  1. 人类世界与LM智能体之间的信息流:人类通过自然语言、移动智能设备和可穿戴技术与LM智能体互动,使LM智能体能够理解人类指令并有效解决现实问题。LM智能体反过来从人类输入中获取新知识和数据,帮助其持续改进和学习。这一持续更新和优化模型的过程,使LM智能体能够提供越来越准确和有用的信息。在AR和VR环境中,LM智能体能够在虚拟场景中与人类用户协作,如建筑设计,提升整体效率和创造力[50]。
  2. 物理世界与LM智能体之间的信息流:得益于数字双胞胎技术,LM智能体能够在其物理身体和数字大脑之间同步数据和状态,形成无缝互动循环。LM智能体还可以监控并对环境的实时输入作出反应。这种双向同步使LM智能体能够以高精度和响应性感知和应对其周围环境,无论是虚拟还是现实,从而弥合数字与物理领域之间的差距。通过不断从环境反馈中学习,LM智能体能够积累知识并理解物理法则,从而解决复杂的现实世界问题。这一迭代学习过程确保LM智能体不仅对即时刺激作出反应,还能随着时间推移不断优化其具体行动,达到更复杂和有效的解决方案。
  3. 网络世界与LM智能体之间的信息流:在网络世界中,LM智能体通过高效的云-边缘网络连接到LM智能体互联网,促进无缝数据和知识共享,推动多智能体协作。通过在云和边缘基础设施中部署大型模型,LM智能体能够利用云和边缘计算的优势,优化性能和响应能力[51]。云提供强大的计算能力和存储,支持处理大量数据和训练复杂模型。同时,边缘提供接近数据源的实时数据处理能力,减少延迟,确保及时决策。在LM智能体互联网中,LM智能体可以实时共享数据、知识和学习经验,构建一个跨多个领域的强大自适应智能网络。例如,在智能城市中,分布在不同位置的具身LM智能体可以通过共享实时数据和协调行动,协作优化交通流、管理能源资源并增强公共安全。

成为VIP会员查看完整内容
34

与《AI智能体的崛起》一起探索未来科技

在《AI智能体的崛起》中,您将探索人工智能(AI)、区块链和量子计算如何彻底改变世界。本书不仅仅停留在理论层面,还提供了一个实用且富有洞察力的旅程,深入探讨这些颠覆性技术的可能性和挑战。 凭借在人工智能、网络安全和量子计算领域多年的经验,Petar Radanliev博士旨在将学术研究与现实世界的应用相结合。无论您是希望应用前沿解决方案的专业人士,还是渴望抢占先机的学生,本书都将为您提供宝贵的洞察力,帮助您了解不断演变的科技格局。 您将学到的内容

AI、区块链和量子计算如何协同工作,变革行业 * 这些集成技术的最新发展和实际应用 * 高级AI智能体的伦理、法律和社会影响

《AI智能体的崛起》提供了这些互相关联技术的全貌,使读者能够轻松理解复杂话题。本书不仅帮助您理解理论,还为您提供了在现实场景中应用这些理论的工具。 主要特色

复习问题与章节总结:加强关键概念的理解,巩固核心知识。 * 真实案例研究:了解这些技术在不同行业中的应用。 * 动手练习:通过交互式工具和练习,获得实战经验,提升技能。

本书旨在激励和启发读者,为您提供知识和信心,以便在AI、区块链和量子计算的快速发展领域中导航并取得成功。

成为VIP会员查看完整内容
34
登陆后查看更多精品内容
VIP会员
本周荟萃主题
区块链
区块链(Blockchain)是由节点参与的分布式数据库系统,它的特点是不可更改,不可伪造,也可以将其理解为账簿系统(ledger)。它是比特币的一个重要概念,完整比特币区块链的副本,记录了其代币(token)的每一笔交易。通过这些信息,我们可以找到每一个地址,在历史上任何一点所拥有的价值。
深度学习
机器学习的一个分支,它基于试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的一系列算法。
机器学习
“机器学习是近20多年兴起的一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。机器学习理论主要是设计和分析一些让 可以自动“ 学习”的算法。机器学习算法是一类从数据中自动分析获得规律,并利用规律对未知数据进行预测的算法。因为学习算法中涉及了大量的统计学理论,机器学习与统计推断学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。很多 推论问题属于 无程序可循难度,所以部分的机器学习研究是开发容易处理的近似算法。”

——中文维基百科
强化学习
强化学习(RL)是机器学习的一个领域,与软件代理应如何在环境中采取行动以最大化累积奖励的概念有关。除了监督学习和非监督学习外,强化学习是三种基本的机器学习范式之一。 强化学习与监督学习的不同之处在于,不需要呈现带标签的输入/输出对,也不需要显式纠正次优动作。相反,重点是在探索(未知领域)和利用(当前知识)之间找到平衡。 该环境通常以马尔可夫决策过程(MDP)的形式陈述,因为针对这种情况的许多强化学习算法都使用动态编程技术。经典动态规划方法和强化学习算法之间的主要区别在于,后者不假设MDP的确切数学模型,并且针对无法采用精确方法的大型MDP。
推荐系统
推荐系统,是指根据用户的习惯、偏好或兴趣,从不断到来的大规模信息中识别满足用户兴趣的信息的过程。推荐推荐任务中的信息往往称为物品(Item)。根据具体应用背景的不同,这些物品可以是新闻、电影、音乐、广告、商品等各种对象。推荐系统利用电子商务网站向客户提供商品信息和建议,帮助用户决定应该购买什么产品,模拟销售人员帮助客户完成购买过程。个性化推荐是根据用户的兴趣特点和购买行为,向用户推荐用户感兴趣的信息和商品。随着电子商务规模的不断扩大,商品个数和种类快速增长,顾客需要花费大量的时间才能找到自己想买的商品。这种浏览大量无关的信息和产品过程无疑会使淹没在信息过载问题中的消费者不断流失。为了解决这些问题,个性化推荐系统应运而生。个性化推荐系统是建立在海量数据挖掘基础上的一种高级商务智能平台,以帮助电子商务网站为其顾客购物提供完全个性化的决策支持和信息服务。
卷积神经网络
在深度学习中,卷积神经网络(CNN或ConvNet)是一类深度神经网络,最常用于分析视觉图像。基于它们的共享权重架构和平移不变性特征,它们也被称为位移不变或空间不变的人工神经网络(SIANN)。它们在图像和视频识别,推荐系统,图像分类,医学图像分析,自然语言处理,和财务时间序列中都有应用。
计算机网络
计算机网络( Computer Networks )指将地理位置不同的多台计算机及其外部设备,通过通信线路连接起来,在网络操作系统及网络通信协议的管理和协调下,实现资源共享和信息传递的计算机系统。
命名实体识别
命名实体识别(NER)(也称为实体标识,实体组块和实体提取)是信息抽取的子任务,旨在将非结构化文本中提到的命名实体定位和分类为预定义类别,例如人员姓名、地名、机构名、专有名词等。
机器翻译
机器翻译,又称为自动翻译,是利用计算机将一种自然语言(源语言)转换为另一种自然语言(目标语言)的过程。它是计算语言学的一个分支,是人工智能的终极目标之一,具有重要的科学研究价值。
计算机视觉
计算机视觉是一门研究如何使机器“看”的科学,更进一步的说,就是是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉,并进一步做图形处理,使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科,计算机视觉研究相关的理论和技术,试图建立能够从图像或者多维数据中获取‘信息’的人工智能系统。
微信扫码咨询专知VIP会员