2022 年 11 月,ChatGPT 的问世展示了大语言模型的强大潜能,并迅速引起了广泛关注。ChatGPT 能够有效理解用户需求,并根据上下文提供恰当的回答。它不仅可以进行日常对话,还能够完成复杂任务,如撰写文章、回答问题等。令人惊讶的是,所有这些任务都由一个模型完成。在许多任务上,ChatGPT 的性能甚至超过了针对单一任务进行训练的有监督算法。这对于人工智能领域具有重大意义,并对自然语言处理研究产生了深远影响。
然而,由于 OpenAI 并未公开 ChatGPT 的详细实现细节,整体训练过程包括语言模型、有监督微调、类人对齐等多个方面,这些方面之间还存在大量的关联,这对于研究人员在自然语言处理基础理论和机器学习基础理论上要求很高。此外,大语言模型的参数量非常庞大,与传统的自然语言处理研究范式完全不同。使用大语言模 型还需要分布式并行计算的支持,这对自然语言处理算法研究人员又进一步提高了要求。
为了使得更多的自然语言处理研究人员和对大语言模型感兴趣的读者能够快速了解大语言模型和理论基础,并开展大语言模型实践,复旦大学自然语言处理实验室张奇教授、桂韬研究员、郑锐博士生以及黄萱菁教授结合之前在自然语言处理领域研究经验,以及分布式系统和并行计算的教学经验,通过在大语言模型实践和理论研究的过程中,历时 8 个月完成本书。希望这本书能够帮助读者快速入门大语言模型的研究和应用,并解决相关技术挑战。
点击 阅读原文 或访问 https://intro-llm.github.io/ 获取本书全文
条分缕析,梳理大规模预训练技术路线
《大规模语言模型·从理论到实践》旨在为对大语言模型感兴趣的读者提供一个入门指南,并可作为高年级本科生和研究生自然语言处理相关课程的大语言模型部分补充教材。鉴于大语言模型的研究仍在快速发展阶段,许多方面尚未达成完整结论或普遍共识。在撰写本书时,我们力求全面展现大模型研究的各个方面,并避免给出没有广泛共识的观点和结论。大语言模型涉及深度学习、自然语言处理、分布式计算、分布式计算等众多领域。因此,建议读者在阅读本书之前,首先系统地学习深度学习和自然语言处理的相关课程。在分布式计算和异构计算方面,读者需要具备基本的概念。如果希望在大语言模型训练和推理方面进行深入研究,还需要系统学习分布式系统、并行计算、CUDA 编程等相关知识。
本书围绕大语言模型构建的四个主要阶段:预训练、有监督微调、奖励建模和强化学习,详细介绍各阶段使用的算法、数据、难点以及实践经验。
预训练阶段需要利用包含数千亿甚至数万亿单词的训练数据,并借助由数千块高性能 GPU 和高速网络组成的超级计算机,花费数十天完成深度神经网络参数的训练。这一阶段的核心难点在于如何构建训练数据以及如何高效地进行分布式训练。
有监督微调阶段利用少量高质量的数据集,其中包含用户输入的提示词(Prompt)和对应的理想输出结果。提示词可以是问题、闲聊对话、任务指令等多种形式和任务。这个阶段是从语言模型向对话模型转变的关键,其核心难点在于如何构建训练数据,包括训练数据内部多个任务之间的关系、训练数据与预训练之间的关系以及训练数据的规模。 奖励建模阶段的目标是构建一个文本质量对比模型,用于对于同一个提示词,对有监督微调模型给出的多个不同输出结果进行质量排序。这一阶段的核心难点在于如何限定奖励模型的应用范围以及如何构建训练数据。 强化学习阶段根据数十万提示词,利用前一阶段训练的奖励模型,对有监督微调模型对用户提示词补全结果的质量进行评估,并与语言模型建模目标综合得到更好的效果。这一阶段的难点在于解决强化学习方法稳定性不高、超参数众多以及模型收敛困难等问题。 除了大语言模型的构建,本书还进一步介绍了大语言模型的应用和评估方法。主要内容包括如何将大语言模型与外部工具和知识源进行连接、如何利用大语言模型进行自动规划完成复杂任务,以及针对大语言模型的各类评估方法。
It's Just the Beginning
虽然本书写作时间只有 8 个月,但是章节内部结构也是几易其稿,经过几次大幅度调整和重写。受限于我们的认知水平和所从事的研究工作的局限,对其中一些任务和工作的细节理解可能存在不少错误,也恳请专家、读者批评指正!
转发福利
点击转发并获赞满50个
截图加微信:Dreams21111617
并注明“集赞满50以上”
前10名可免费获得签名版纸质《自然语言处理导论》!
联系方式:cs_nlp@fudan.edu.cn地址:复旦大学江湾校区交叉二号楼
责任编辑:窦士涵、刘妍
AI Agent(人工智能代理)是一种能够感知环境、进行决策和执行动作的智能实 体。不同于传统的人工智能,AI Agent 具备通过独立思考、调用工具去逐步完成给 定目标的能力。AI Agent 和大模型的区别在于,大模型与人类之间的交互是基于 prompt 实现的,用户 prompt 是否清晰明确会影响大模型回答的效果。而 AI Agent 的工作仅需给定一个目标,它就能够针对目标独立思考并做出行动。和传统的 RPA 相比,RPA 只能在给定的情况条件下,根据程序内预设好的流程来进行工作的处 理,而 AI Agent 则可以通过和环境进行交互,感知信息并做出对应的思考和行动。
大语言模型的浪潮推动了 AI Agent 相关研究快速发展,AI Agent 是当前通往 AGI 的主要探索路线。大模型庞大的训练数据集中包含了大量人类行为数据,为模拟类 人的交互打下了坚实基础;另一方面,随着模型规模不断增大,大模型涌现出了上 下文学习能力、推理能力、思维链等类似人类思考方式的多种能力。将大模型作为 AI Agent 的核心大脑,就可以实现以往难以实现的将复杂问题拆解成可实现的子任 务、类人的自然语言交互等能力。由于大模型仍存在大量的问题如幻觉、上下文容 量限制等,通过让大模型借助一个或多个 Agent 的能力,构建成为具备自主思考决 策和执行能力的智能体,成为了当前通往 AGI 的主要研究方向。
一个基于大模型的 AI Agent 系统可以拆分为大模型、规划、记忆与工具使用四个组 件部分。AI Agent 可能会成为新时代的开端,其基础架构可以简单划分为 Agent = LLM + 规划技能 + 记忆 + 工具使用,其中 LLM 扮演了 Agent 的“大脑”,在这个 系统中提供推理、规划等能力。
AI Agent 发展迅速,出现多款“出圈”级研究成果。2023 年 3 月起,AI Agent 领 域迎来了第一次“出圈”,西部世界小镇、BabyAGI、AutoGPT 等多款重大 Agent 研究项目均在短短两周内陆续上线,引发了大家对 AI Agent 领域的关注。目前已经 涌现了在游戏领域大放异彩的英伟达 Voyager 智能体、能够帮助个人完成简单任务 的 Agent 助理 HyperWrite、以及主打个人情感陪伴的 AI 助理 Pi 等多款优秀的 Agent 成果,AI Agent 的研究进展迅速。
“Agent+”有望成为未来产品的主流,有望在多个领域实现落地应用。我们认为, AI Agent 的研究是人类不断探索接近 AGI 的过程,随着 Agent 变得越来越“可用” 和“好用”,“Agent+”的产品将会越来越多,未来将有望成为 AI 应用层的基本架 构,包括 to C、to B 产品等。
2B 和垂直领域仍是 AI Agents 容易率先落地的方向,用户对 Agent 的认知正在形 成,初创企业正在卡位。由于 Agent 对环境反馈的依赖性较强,具备显著特点的企 业环境是更加适合 Agent 建立起对某一个垂直领域认知的场景。当前关于 AI Agent 的研究主要还是以学术界和开发者为主,商业化产品极少,但是用户对于 Agent 的 关注度正在提升,可能未来几年间就会涌现出大量以 Agent 作为核心的产品应用到 各行各业。目前,已经有一些初创公司开始以企业的智能体平台作为主要的产品研 发方向,例如澜码科技正在打造基于 LLM 的企业级 Agent 平台。
模型、算力、生态推动AI应用进入大爆发时代: 1)算法及模型的快速进步:2017年Transformer模型及2022年ChatGPT的发布标志着生成式AI在文本领域的重大飞跃,并在多项能力上超越了人类基准,未来随着更强大的语言大模型(如GPT-5),以及多模态生态和视觉大模型的技术持续突破,将推动AI应用的持续进化。 2)算力基础设施将更快、更便宜:虽然短期内大模型训练需求的激增推高了算力成本,但随着英伟达GPU性能的持续升级,以及微软、亚马逊、谷歌和Facebook等巨头正在加大对AI算力云服务的资本开支,并积极布局自研A芯片,未来AI算力将更快、更便宜,以更好的支撑应用层的快速发展。 3)AI生态的逐渐成熟:AI组件层(AIStack)的完善和产业分工细化,为A应用在模型训练、数据整合、应用开发、应用部署等环节提供全生命周期的支撑。 全球科技股复盘:算力基础设施层公司率先受益于本轮AI产业浪潮,应用层公司同样有所演绎,从兑现节奏上晚于基础设施层。在基础设施层中,英伟达是AI“掘金买铲”逻辑的核心受益者,其次为微软、Google、AWS、Oracle等头部云服务厂商和大模型厂商。在应用层中,美股年初至今涨幅靠前的AI应用公司有:Palantir(136%)、Duolingo(109%)、Shopify(92%)、PaloAltoNetworks(74%)、Salesforce(67%)、adobe(67%)、ServiceNow(52%)。相较于AI基础设施厂商已经能够从模型训练所产生的巨大需求,订单和业绩也得到了持续验证,B端应用还处于早期,大多数AI应用厂商还尚未进入到商业化阶段,从兑现时间来看预计要晚于基础设施层2-3个季度。 全球生成式AI项目及投融资现状: 1)AI项目数量激增:GitHub上AI开源项目截止8月底数量达到了91万,相较于去年全年的增幅达到264%。根据Replit的数据,23年二季度AI项目环比增速达80%,相较于去年同期同比增长了34倍; 2)OpenAI在大模型上依然具备统治级地位:95%以上的应用项目均是基于OpenAI的模型来构建,同时开源项目数量也开始大幅增长; 3)2023年是生成式AI投融资创纪录的年份:根据CBInsights的数据,截至2023年第二季度,生成式AI的投融资相较于去年全年的25亿美元,增长了4.6倍; 4)生成式AI应用层融资金融仅占三成:目前约七成资金投向了包括大模型开发在内AI基础设施层。而从应用层的融资中,AI数字代理获得融资最多,其次为文本、图像、代码及音频的生成工具。 生成式AI应用按应用领域可以分为工具型应用、通用软件、行业软件、智能硬件四大类,从产品形态上将沿着AIGC(内容生成)、Copilot(智能助手)、Insight(知识洞察)、Agent(数字代理)四个重要的方向演进。 1)工具型应用:包括聊天机器人、搜索引擎、文本工具、AI作画以及代码工具等,主要集中在C端,产品的同质化程度较高,对于大多数文本、图像、视频、代码、3D模型等AIGC工具,模型/算法的能力决定了产品的受欢迎程度,对底层模型特别是GPT-4存在高度依赖。目前行业进入第一轮洗牌期,竞争优势的构建来自于差异化的产品定位以及持续训练更强大的底层模型和算法。 2)通用软件:包括办公软件、企业服务、IT运维、软件开发、网络安全、数据智能等领域,各领域头部厂商均已出现标杆产品,最常见的产品形态主要是AI智能助理(Coplilot),代表有Office365Copilot、SalesforceEinsteinGPT及AdobeFirefly。目前各个赛道竞争格局变化不大,各个赛道的龙头厂商依然率先受益于生成式AI所创造的新的产品功能,未来的竞争关键在于AI与场景/工作流的深度融合,目前通用软件头部厂商预计将在四季度进入商业化落地的关键阶段; 3)行业软件:涉及金融、医疗、教育、工业、游戏、法律等多个行业,生成式AI在游戏、法律、教育、电商等C端场景有较多的结合,而在医疗、金融、工业等B端场景下生成式AI产品的成熟度仍然偏低。AI助手(Copilot)同样得到了广泛应用,而未来在金融、医疗、工业等领域,最具前景的应用来自于数据分析和知识洞察(Insight)工具。同时,目前各行业头部厂商也在开始自建垂类大模型,包括彭博社的金融大模型Bloomberg,以及Meta蛋白质大模型ESMFold,当前垂类大模型在其专业领域的性能普遍超过通用大模型。 4)智能硬件:包括智能汽车、机器人、智能终端等,目前生产式AI与智能硬件的结合主要分为两个方面:一是语音助手,应用场景包括智能座舱、智能音箱、家用机器人等各类智能终端,相较于过去的语音交互模式,大模型和生成式AI技术提升了感知和生成能力,进而带来了用户体验的提升,但是总体而言产品门槛相对较低,另一类则为数字代理AIAgent,主要应用包括自动驾驶、智能机器人等,具备更加广阔的应用空间。目前AIAgent在感知与决策能力上仍存在瓶颈,未来应用空间打开的关键在计算机视觉、具身智能等底层技术的突破。 生成式AI产品目前的商业模式主要包括功能订阅、按量付费、产品销售等,其中C端应用以功能订阅和按量付费为主,商业化已经趋于成熟,而B端应用则主要为功能订阅、解决方案和产品销售,即将进入全面商业化阶段。目前第一批生成式AI应用包括JasperAI、NotionAI、MidJourney等均已经成功实现商业化。其中Office365Copilot的定价为每个用户30美元/月。相较于Office主线产品15-30美元/月的定价,最高提升了2倍以上。Salesforce的生成式AI模块服务GPT和销售GPT分别单用户每月付费为50美元。此外,Palantir、PaloAltoNetworks的AI产品已经在实际场景中得到应用且已经带来了明显的收入贡献,四季度AI应用将正式进入商业化落地阶段。
AI Agents是最近热议的焦点,OpenAI AI的应用研究主管Lilian Weng发布了一篇关于AI Agents的万字长文:《大语言模型(LLM)支持的自主代理》引起了行业的热议,在文章中,她清晰地定义了基于LLM构建AI Agents的应用框架:Agent=LLM(大型语言模型)+记忆(Memory)+规划技能(Planning)+工具使用(Tool Use),其中,LLM是智能体的大脑,而其它几个部分,是关键的组件。而最近复旦大学自然语言处理组《大模型智能体》综述论文,提出了一个基于LLM的智能体的概念框架,包括三个主要组成部分:大脑、感知和行动,非常值得关注!
长期以来,人类一直在追求与人类水平相当或超越的人工智能(AI),认为AI智能体是实现这一目标的有前景的工具。AI智能体是能感知环境、做出决策并采取行动的人造实体。自20世纪中叶以来,已经做出了许多努力以发展智能的AI智能体。然而,这些努力主要集中在算法或训练策略的进步上,以提高在特定任务上的特定能力或性能。实际上,这个领域缺乏的是一个足够通用和强大的模型,作为设计能适应多样化场景的AI智能体的起点。由于它们展示出的多功能和出色的能力,大型语言模型(LLMs)被认为是通用人工智能(AGI)的潜在媒介,为构建通用AI智能体提供了希望。许多研究努力已经以LLMs为基础来构建AI智能体,并取得了显著进展。我们首先从其哲学起源追溯智能体的概念,到其在AI中的发展,并解释为什么LLMs是适合作为AI智能体的基础。在此基础上,我们提出了一个基于LLM的智能体的概念框架,包括三个主要组成部分:大脑、感知和行动,该框架可以根据不同的应用进行定制。随后,我们探讨了基于LLM的智能体在三个方面的广泛应用:单智能体场景、多智能体场景和人-智能体合作。接下来,我们深入研究智能体社会,探讨基于LLM的智能体的行为和个性,当它们形成社会时出现的社会现象,以及它们为人类社会提供的洞见。最后,我们讨论该领域内的一系列关键主题和未解决的问题。
人工智能(AI)是一个致力于设计和开发能复制人类智能和能力的系统的领域[1]。早在18世纪,哲学家丹尼斯·狄德罗(Denis Diderot)提出了这样一个观点:如果一只鹦鹉能回应所有问题,那么它可以被认为是智能的[2]。虽然狄德罗指的是像鹦鹉这样的生物,但他的观点强调了一个深刻的概念,即高度智能的生物可能与人类智能相似。到了20世纪50年代,艾伦·图灵(Alan Turing)将这一概念扩展到了人工实体,并提出了著名的图灵测试(Turing Test)[3]。这个测试是AI的基石,旨在探究机器是否能展示与人类相当的智能行为。这些AI实体通常被称为“智能体”,是AI系统的基础构件。在AI中,智能体通常指的是能使用传感器感知其环境、做出决策,然后使用执行器作出反应的人工实体[1; 4]。
智能体这一概念起源于哲学,其根源可追溯到亚里士多德和休谟等思想家[5]。它描述了拥有欲望、信仰、意图和采取行动能力的实体[5]。这个想法转变到了计算机科学中,旨在使计算机能理解用户的兴趣并自主地代表他们采取行动[6; 7; 8]。随着AI的发展, “智能体”这个术语在AI研究中找到了其位置,用以描述展示智能行为并具有自主性、反应性、主动性和社会能力等特质的实体[4; 9]。从那时起,智能体的探索和技术进步成为AI社群关注的焦点[1; 10]。现在,AI智能体被认为是实现通用人工智能(AGI)的重要步骤,因为它们包含了广泛的智能活动的潜力[4; 11; 12]。
从20世纪中期开始,在发展智能AI智能体方面取得了显著进展,因为研究深入探讨了它们的设计和提升[13; 14; 15; 16; 17; 18]。然而,这些努力主要集中在提高特定能力上,如符号推理,或者掌握特定任务,如围棋或国际象棋[19; 20; 21]。在不同场景中实现广泛的适应性依然难以捉摸。此外,先前的研究更多地强调算法和训练策略的设计,而忽视了模型固有通用能力的发展,如知识记忆、长期规划、有效泛化和有效交互[22; 23]。实际上,增强模型的固有能力是智能体进一步发展的关键因素,该领域需要一个具备上述多种关键属性的强大基础模型,作为智能体系统的起点。
大型语言模型(LLMs)的发展为智能体的进一步发展带来了一线希望[24; 25; 26],并且社群已经取得了显著进展[22; 27; 28; 29]。根据“世界范围(World Scope,WS)”的概念[30],该概念涵盖了从自然语言处理(NLP)到通用AI的五个层次(即,语料库、互联网、感知、具象和社交),纯粹的LLMs是建立在第二层,具有互联网规模的文本输入和输出。尽管如此,LLMs在知识获取、指令理解、泛化、规划和推理方面展示了强大的能力,同时与人类进行有效的自然语言交互。这些优势赋予了LLMs作为通用人工智能(AGI)的媒介的称号[31],使它们非常适合用于构建智能体,以促进一个人类与智能体和谐共存的世界[22]。从这一点出发,如果我们提升LLMs到智能体的地位,并赋予它们更广泛的感知空间和行动空间,它们有可能达到WS的第三和第四层次。此外,这些基于LLMs的智能体可以通过合作或竞争来解决更复杂的任务,当将它们放在一起时,可以观察到新出现的社会现象,从而可能达到第五个WS层次。如图1所示,我们设想一个由AI智能体组成的和谐社会,人类也可以参与其中。
在本文中,我们提出了一个全面和系统的调查,重点关注基于大型语言模型(LLM)的智能体,试图研究这个新兴领域的现有研究和前景途径。为此,我们首先深入探讨关键的背景信息(第2部分)。具体来说,我们从哲学到人工智能(AI)领域追溯AI智能体的起源,并简要概述围绕人工智能体存在的争论(第2.1部分)。接下来,我们通过技术趋势的视角提供了AI智能体发展的简明历史回顾(第2.2部分)。最后,我们深入介绍智能体的基本特性,并阐明为什么大型语言模型非常适合作为AI智能体的大脑或控制器的主要组成部分(第2.3部分)。
受到“智能体”定义的启发,我们为基于大型语言模型(LLM)的智能体提出了一个具有三个关键部分的通用概念框架:大脑、感知和行动(第3部分),该框架可以定制以适应不同的应用场景。我们首先介绍大脑,主要由一个大型语言模型组成(第3.1部分)。与人类相似,大脑是AI智能体的核心,因为它不仅储存了关键的记忆、信息和知识,而且还承担了信息处理、决策、推理和规划等基本任务。这是智能体能否展示智能行为的关键决定因素。接下来,我们介绍感知模块(第3.2部分)。对于智能体而言,这个模块的作用与人类的感官器官类似。它的主要功能是将智能体的感知空间从仅限于文本扩展到一个包括文本、声音、视觉、触觉、嗅觉等多种感官模态的多模态空间。这种扩展使智能体能够更好地从外部环境中获取信息。最后,我们介绍用于扩展智能体行动空间的行动模块(第3.3部分)。具体而言,我们希望智能体能够拥有文本输出,进行实体化的行动,并使用工具,以便它能更好地响应环境变化,提供反馈,甚至改变和塑造环境。
然后,我们提供了基于大型语言模型的智能体的实用应用的详细而全面的介绍,并阐明了基础设计追求——“为了公益而驾驭AI”(第4部分)。首先,我们深入研究单一智能体的当前应用,并讨论它们在基于文本的任务和模拟探索环境中的表现,重点介绍它们在处理特定任务、推动创新以及展示类似人类的生存技能和适应性方面的能力(第4.1部分)。接下来,我们回顾了多智能体发展历史。我们介绍了基于LLM的多智能体系统应用中智能体之间的互动,其中它们参与合作、谈判或竞争。无论互动模式如何,智能体都共同努力实现共享目标(第4.2部分)。最后,考虑到基于LLM的智能体在隐私安全、道德约束和数据不足等方面可能存在的局限性,我们讨论了人-智能体合作。我们总结了智能体与人之间合作的范例:指导者-执行者范例和平等合作范例,以及具体的实践应用(第4.3部分)。
基于对基于大型语言模型(LLM)的智能体在实际应用中的探索,我们现在将焦点转向“智能体社会”的概念,研究智能体与其周围环境之间的复杂相互作用(§ 5)。本节首先调查这些智能体是否表现出类人行为并具有相应的个性(§5.1)。此外,我们介绍智能体所操作的社交环境,包括基于文本的环境、虚拟沙盒和物理世界(§5.2)。与前一节(§ 3.2)不同,这里我们将关注多种类型的环境,而非智能体如何感知它。在建立了智能体和他们环境的基础之后,我们继续揭示他们形成的模拟社会(§5.3)。我们将讨论模拟社会的构建,并进一步研究其中出现的社会现象。具体来说,我们将强调模拟社会中固有的教训和潜在风险。
最后,我们讨论了基于大型语言模型的智能体领域的一系列关键主题和未解决的问题(§ 6):(1)LLM研究和智能体研究的相互益处和灵感,其中我们展示了基于LLM的智能体的发展为智能体和LLM社群提供了许多机会(§ 6.1);(2)现有的评估工作以及从四个维度对基于LLM的智能体的一些前景,包括实用性、社交性、价值观和持续演化的能力(§ 6.2);(3)基于LLM的智能体的潜在风险,我们讨论了基于LLM的智能体的对抗性鲁棒性和可信度。我们还包括了其他风险的讨论,如滥用、失业和对人类福祉的威胁(§ 6.3);(4)扩大智能体数量,我们讨论了扩大智能体数量的潜在优点和挑战,以及静态和动态扩展的方法(§ 6.4);(5)几个未解决的问题,例如关于基于LLM的智能体是否代表通往AGI(人工通用智能)的潜在途径的争论,从虚拟模拟环境到物理环境的挑战,AI智能体中的集体智能,以及智能体作为一项服务(§ 6.5)。总之,我们希望本文能给相关领域的研究人员和从业者带来启发。
智能体的诞生:基于大型语言模型(LLM)的智能体构建
“适者生存”[131]表明,如果一个个体想在外部环境中生存,他必须有效地适应周围环境。这要求他具有认知能力,能够感知和响应外界的变化,这与第2.1节中提到的“智能体”的定义是一致的。受此启发,我们提出了一个基于大型语言模型(LLM)的智能体的一般概念框架,该框架由三个关键部分组成:大脑、感知和行动(见图2)。我们首先描述大脑的结构和工作机制,它主要由一个大型语言模型组成(§ 3.1)。大脑是AI智能体的核心,因为它不仅储存了知识和记忆,而且还承担了信息处理和决策等不可或缺的功能。它可以呈现推理和规划的过程,并且能够很好地应对未见过的任务,展现出智能体的智能。接下来,我们介绍感知模块(§ 3.2)。其核心目的是将智能体的感知空间从仅限于文本的领域扩展到包括文本、听觉和视觉模式的多模态范围。这一扩展使智能体能更有效地掌握和利用来自其周围环境的信息。最后,我们介绍了旨在扩展智能体行动空间的行动模块(§ 3.3)。具体来说,我们赋予智能体具体的行动能力和使用工具的技能,使其能够熟练地适应环境变化,提供反馈,甚至影响和塑造环境。
该框架可以针对不同的应用场景进行定制,即并非所有研究中都会使用每一个特定组件。一般来说,智能体按照以下工作流程进行操作:首先,感知模块,相当于人类的感官系统如眼睛和耳朵,感知外部环境的变化,然后将多模态信息转换为智能体能理解的表示形式。随后,作为控制中心的大脑模块进行信息处理活动,例如思考、决策以及与存储(包括记忆和知识)相关的操作。最后,与人类四肢相对应的行动模块,在工具的协助下进行执行,并对周围环境产生影响。通过重复以上过程,智能体可以持续地获得反馈并与环境互动。
随着众多国内外公司纷纷推出各种大规模模型,包括通用大模型、行业大模型、垂直大模型以及专属大模型,这些超强模型服务的背后都是基于拥有千亿或万亿参数的基础模型。大模型的诞生标志着人工智能领域取得了重大进展,可以在各种任务中实现更高的准确性,降低了应用开发的门槛,并增强了模型的泛化能力。这些因素共同催生出新的场景和产业模式,并加速产业智能化应用落地的进程。
一、大模型技术应用不断演进,迎来发展新机遇
随着ChatGPT这一对话生成式预训练变换模型的诞生,大模型进入一个快速发展的时代。这些超强模型服务背后是拥有千亿或万亿参数的基础模型,它们通过学习丰富的知识,成为与人类进行交互以及连接万物的强大工具。
通用大模型的发展
自2016年Open AI发布Gym强化学习平台以来,模型参数从GPT-1的1.17亿开始,经过不断迭代,增长到GPT-4的1.76万亿的参数规模,通用大模型的性能也得到显著提升。
斯坦福大学的研究发现,GPT-3已经可以解决70%的心智理论任务,相当于7岁儿童;至于GPT3.5,更是解决了93%的任务,心智相当于9岁儿童!2022年11月,ChatGPT正式发布,是基于GPT-3.5架构并通过强化学习训练后的大语言模型,目前仍以文字方式互动,支持包括自动文本生成、自动问答、自动摘要等多种任务。
自2017年6月以来,Google陆续发布了BERT、T5等预训练模型,参数规模也在逐步提升。近期,Google发布的通才模型PaLM-E包含5620亿参数,可用于控制机器人,为通用人工智能(AGI)的实现提供了可能。
Google PaLM-E 大模型控制机器人
二、MaaS 支持大模型应用落地全流程能力构建
MaaS(模型即服务)提供一套完整的大模型服务工具链和开放平台,允许行业用户基于行业基础大模型,利用整体模型套件经过微调再训练,生成满足特定场景需求的专属大模型。与提供基础设施的IaaS(基础设施即服务)、提供工具的PaaS(平台即服务)和提供软件的SaaS(软件即服务)不同,MaaS以模型作为交付产品。
基于MaaS构建的一站式行业大模型构建和应用解决方案,围绕模型的生命周期提供各种的产品和技术辅助,行业用户实现从数据预处理、模型构建、模型训练、模型评估到模型服务全流程能力构建。MaaS解决了企业构建行业大模型成本高、时间长、难度大的问题,降低数字化转型的成本和风险,支撑客户快速实现大模型应用的产品化和商业化,更快地实现数字化转型和升级。
MaaS 解决方案
三、场景化需求快速推动大模型价值释放
随着技术能力的提升和多样化场景需求的推动,大模型已成为人工智能领域最重要的动力源泉。不仅推动人工智能从技术积累、行业应用和产业变革,更是赋能千行百业的基础设施。
大模型在场景中的应用
四、行业大模型应用落地亟需建设路线指引
通用大模型在满足行业用户直接需求方面存在一定难度,主要是由于模型参数量巨大,训练和部署对算力消耗巨大,导致成本高昂;其次,模型的可解释性仍然较弱,通常需要增加内容管控手段来保证结果的安全性;最后,模型对训练数据的依赖性较强,对于超出训练数据的任务效果不尽如人意。更重要的是,在某些特定行业,通用基础大模型的表现并不理想,因此行业大模型应运而生。
行业大模型通常基于该行业领域的数据进行训练和优化,更好地理解和处理该行业的专业术语、规范和语义。行业大模型更加专注于某个特定的行业,满足对应行业的需求。目前的产业解决方案中,行业大模型结合自身在算力方面的优势,为行业模型训练提供强大的支持和动力,助力构建专属大模型及智能应用。然而,行业大模型最终要在真实场景中落地并达到理想的服务效果,需要充分解决行业用户的痛点。目前行业用户面临的问题主要包括计算资源不足、数据质量差、投入成本较高以及缺乏专业人才等突出问题。
报告来源:新华社品牌工程&凯度&牛津大学
报告部分内容展示:****************
****************
5月初,DeepLearning.ai 创始人吴恩达联合 OpenAI 推出入门大模型学习的经典课程《ChatGPT Prompt Engineering for Developers》,迅速成为了大模型学习的现象级课程,获得极高的热度。后续,吴恩达教授又联合 LangChain、Huggingface 等机构联合推出了多门深入学习课程,助力学习者全面、深入地学习如何使用大模型并基于大模型开发完整、强大的应用程序。 在《ChatGPT Prompt Engineering for Developers》课程推出之初,DataWhale 团队便投入到学习与开源建设之中,将每一门课程翻译为中文版,复现其代码,并在课程基础上探究了中文 Prompt 的实现及调优,对每一门课程实现了中英双语 Prompt 的效果对比,一直保持较高频率的内容优化与更新。至今,DataWhale 基于吴恩达大模型系列课程打造的开源项目《面向开发者的 LLM 入门教程》已完成六门课程的中文版制作,Github 获 star 达 6K。 开源地址:https://github.com/datawhalechina/prompt-engineering-for-developers
图1 项目首页
为更好地帮助国内学习者学习大模型开发,优化教程阅读体验,项目组特意组建了教程编撰小组,基于原课程内容,从文本阅读角度出发,打造更适合国内读者阅读的 PDF 教程、在线阅读。 针对 PDF 教程、在线阅读的阅读特点,我们调整了教程组织形式,优化了内容呈现方式,对代码规范、文字理论、图片展示等多个方面做出了优化,尽可能为读者呈现一版易于理解、便于阅读的文字教程。我们从理论学习出发,结合代码实践,较大程度地在源代码基础上实现了内容的丰富与优化,最大程度实现让读者仅读文字教程就能学习到课程的全部内容。
图2 在线阅读截图 在线阅读地址:https://datawhalechina.github.io/prompt-engineering-for-developers/ PDF 教程下载地址:https://github.com/datawhalechina/prompt-engineering-for-developers/releases/tag/v1%2C0%2C0
在八月初,吴恩达老师发布了两门新的大模型课程:《使用 Gradio 搭建生成式 AI 应用》(Building Generative AI Applications with Gradio)、《评估改进生成式 AI》(Evaluating and Debugging Generative AI),这两门课程一个从大模型开发的著名框架 Gradio 出发,指导开发者如何使用 Gradio,基于 Gradio 搭建大模型应用;一个结合热门的深度学习可视化工具 wandb,介绍评估改进生成式 AI 的方法与实践。 项目组同样第一时间实现了新课程的跟进,制作中文版教程,复现其代码并提供中文示例,以更好地帮助国内开发者学习。
指导开发者如何使用 Gradio 通过 Python 接口程序快速、高效地为生成式 AI 构建用户界面,主要内容包括:图片总结及生成应用、使用简单界面完成 NLP 任务、描述并生成游戏、与任意 LLM 交流等。
图3 Gradio图片
结合 wandb,提供一套系统化的方法和工具,帮助开发者有效地跟踪和调试生成式 AI 模型,主要内容包括:wandb 简介、训练并评估扩散模型、评估并跟踪 LLM、微调语言模型等。
图4 W&B目录
这是一个风云激荡的新时代,每一分每一秒都涌动着全新的变化,AIGC,是其中最具想象力与创造力的未来之一。我们想要将未来带给更多的人,让每一个有志于此的人都能去学习、拥抱大模型和它将造就的未来。我们不只在翻译,更在创造更多来自中文社区的思考和价值。期待每一位读者的肯定与反馈。 由于创作团队时间仓促、精力有限,教程难免有些疏漏甚至错误,我们期望学习者在学习的同时,也能积极给我们建议,或者直接对项目进行贡献,让我们共同打磨教程,为后面的学习者提供更好的内容。
今年3月末,我们在arXiv网站发布了大语言模型综述文章《A Survey of Large Language Models》的第一个版本V1,该综述文章系统性地梳理了大语言模型的研究进展与核心技术,讨论了大量的相关工作。自大语言模型综述的预印本上线以来,受到了广泛关注,收到了不少读者的宝贵意见。
在发布V1版本后的5个月时间内,为了提升该综述的质量,我们在持续更新相关的内容,连续进行了多版的内容修订(版本号目前迭代到V12),**论文篇幅从V1版本的51页、416篇参考文献,到V11版本的85页、610篇参考文献,现在进一步扩增到V12版本的97页、683篇参考文献。**继6月末发布于arXiv网站的大修版本V11,V12版本是我们两个多月以来又一次进行大修的版本。 相较于V11版本,V12版本的大语言模型综述有以下新亮点:
以下是综述部分章节的主要更新内容介绍,详细内容请参阅我们的英文综述。
我们对于最新符合条件的模型进行了补充,持续更新了现有的10B+的模型图和表格(如有遗漏,欢迎读者来信补充):
在模型架构部分,由于经典 Transformer 架构的注意力机制需要平方级别的时间复杂度进行计算,最近也出现一系列对语言建模新架构的探索,如S4、RWKV、RetNet 等,希望既可以具备 Transformer 在 GPU 上进行并行化训练的优势,也可以低复杂度、高效地进行解码与推断。此外也有一些工作致力于改进传统 Transformer架构的注意力机制或计算方式,使其高效训练和部署。我们新增了几种注意力机制的介绍,包括grouped-query attention,FlashAttention-2,以及PagedAttention。围绕这些内容,我们进行了简要介绍。此外,我们新增了解码策略子章节,介绍了常见的两种解码策略:贪心搜索和随机采样,并整理了针对这两种策略的改进算法,例如束搜索、top-p采样、top-k采样等策略。此外, 我们介绍了针对大模型的高效解码策略,以及具体模型和API解码时的常用设置。
在适配技术章节,我们增加了大量讨论及实验分析。在指令微调部分中,我们新增了指令微调的实用技巧介绍。在指令微调实验部分,我们加入了LLaMA-13B模型的指令微调实验针对不同混合数据集的分析。 在对齐微调部分中,为了帮助研究者快速有效地实现RLHF,我们提供了RLHF实用策略的介绍,主要包括如何有效地训练奖励模****型、以及如何高效地进行强化学习训练,希望为后续研究人员提供建设性参考。此外,我们大幅增加了对现有非RL对齐方法的介绍。与RLHF方法采用人工方式收集反馈数据不同,这部分工作主要借助奖励模型与大模型进行自动化的对齐反馈数据收集,并采用较为多样的监督训练方式微调大模型。最后,我们还针对SFT和RLHF两种训练方法进行了讨论。
经过预训练或适应性调整后,使用LLM的一个主要方法是设计合适的提示策略来解决各种任务。我们新增了表9对现有提示的代表性工作进行了总结,包括典型的LLM运用方法及其ICL、CoT和规划的重点。 此外,为了处理长程任务,使用长期记忆帮助进行规划是一类重要的方法。我们新增了目前使用记忆机制进行规划的工作,包括反思(Reflexion)和MemoryBank等。
大模型能力评估方面,我们增加了一个子章节对评测方法进行讨论,分别介绍了对基座模型、微调模型和专业模型的相关评测工作。我们总结了已有的评测工作,讨论了基准评测、人类评测和模型评测三类评测方法的优缺点。我们在表中总结了现有评测工作。
此外,随着新的大语言模型发布,我们在经验评测章节新增了多个热门大语言模型的评测结果,包括LLaMA 2 (Chat) 7B、Claude-2和Vicuna 13B,并补充了对新增模型的实验讨论。
一篇高质量的长篇综述文章需要大量的时间投入,所参与的老师和学生为此付出了很多的时间。尽管我们已经尽力去完善这篇综述文章,但由于能力所限,难免存在不足和错误之处,仍有很大的改进空间。我们的最终目标是使这篇综述文章成为一个“know-how”的大模型技术指南手册,让大模型的秘密不再神秘、让技术细节不再被隐藏。尽管我们深知目前这篇综述离这个目标的距离还比较远,我们愿意在之后的版本中竭尽全力去改进。特别地,对于预训练、指令微调、提示工程的内在原理以及实战经验等方面,我们非常欢迎读者为我们贡献想法与建议,可以通过GitHub提交PR或者邮件联系我们的作者。对于所有被采纳的技术细节,我们都将在论文的致谢部分中“实名+实际贡献”进行致谢。我们的综述文章自发布以来,收到了广泛网友的大量修改意见,在此一并表示感谢。也希望大家一如既往支持与关注我们的大模型综述文章,您们的点赞与反馈将是我们前行最大的动力。7. 本次修订的参与学生名单学生作者:周昆(新增了指令微调实验的任务设置与结果分析,添加了能力评测实验的实验设置与结果分析,添加了指令微调的实用技巧介绍,添加了RLHF实用策略的介绍)、李军毅(添加了非RL对齐方法的介绍)、唐天一(添加解码策略的介绍)、王晓磊(添加评测方法介绍)、侯宇蓬(添加第四章文字细节,更新图5)、闵映乾(添加第三章少数模型及相关介绍,更新表1、图2)、张北辰(添加表10)、陈昱硕(表8实验)、陈志朋(表12实验)、蒋锦昊(表12实验)、任瑞阳(表12实验)、汤昕宇(表12实验)学生志愿者:成晓雪(表12实验)、王禹淏(表12实验)、郑博文(表12实验)
版本时间主要更新内容V12023年3月31日初始版本V22023年4月9日添加了机构信息。修订了图表 1 和表格 1,并澄清了大语言模型的相应选择标准。改进了写作。纠正了一些小错误。V32023年4月11日修正了关于库资源的错误V42023年4月12日修订了图1 和表格 1,并澄清了一些大语言模型的发布日期V52023年4月16日添加了关于 GPT 系列模型技术发展的章节V62023年4月24日在表格 1 和图表 1 中添加了一些新模型。添加了关于扩展法则的讨论。为涌现能力的模型尺寸添加了一些解释(第 2.1 节)。在图 4 中添加了用于不同架构的注意力模式的插图。在表格 4 中添加了详细的公式。V72023年4月25日修正了图表和表格中的一些拷贝错误V82023年4月27日在第 5.3 节中添加了参数高效适配章节V92023年4月28日修订了第 5.3 节V102023年5 月7 日修订了表格 1、表格 2 和一些细节V112023年6月29日第一章:添加了图1,在arXiv上发布的大语言论文趋势图; 第二章:添加图3以展示GPT的演变及相应的讨论; 第三章:添加图4以展示LLaMA家族及相应的讨论; 第五章:在5.1.1节中添加有关指令调整合成数据方式的最新讨论,在5.1.4节中添加有关指令调整的经验分析,在5.3节中添加有关参数高效适配的讨论,在5.4节中添加有关空间高效适配的讨论; 第六章:在6.1.3节中添加有关ICL的底层机制的最新讨论,在6.3节中添加有关复杂任务解决规划的讨论; 第七章:在7.2节中添加用于评估LLM高级能力的代表性数据集的表格10,在7.3.2节中添加大语言模型综合能力评测; 第八章:添加提示设计; 第九章:添加关于大语言模型在金融和科学研究领域应用的讨论。 V122023年9月11日第三章:表格1新增模型,图2新增模型; 第四章:在4.2.1节中新增对新型架构的讨论,在4.2.2节中新增对几种注意力机制的介绍,新增4.2.4 节解码策略的介绍; 第五章:在5.1.2节中新增指令微调的实用技巧,在5.1.4节和表格 8中新增LLaMA-13B的指令微调实验分析,在5.2.3节中新增RLHF的实用策略,新增 5.2.4节不使用RLHF的对齐方法介绍,新增 5.2.5节关于SFT和RLHF的讨论; 第六章:新增表格 9 总结了提示的代表性工作,在 6.3节中更新了规划部分对记忆的介绍; 第七章:新增7.3.2节对评测方法的讨论,新增表格11对已有评测工作进行了总结,更新了7.4节经验能力评测及表格12的评测结果。
在《开发人员的LLM提示工程》一书中,我们全面探讨了LLM的世界以及为之制定有效提示的艺术。 本指南从基础入手,探索了自早期以来自然语言处理(NLP)的演变,直到我们今天所接触到的复杂的LLM。您将深入了解如GPT模型之类的模型的复杂性,理解它们的架构、能力和细微差别。 随着我们的进展,本指南强调了有效提示工程及其最佳实践的重要性。虽然像ChatGPT(gpt-3.5)这样的LLM非常强大,但只有在有效沟通的情况下才能实现它们的全部潜力。这就是提示工程的重要性所在。这不仅仅是向模型提问;还包括措辞、上下文和理解模型的逻辑。
通过专门讲解Azure Prompt Flow、LangChain和其他工具的章节,您将获得实践经验,学会制定、测试、评分和优化提示。我们还将探讨如Few-shot Learning(少样本学习)、Chain of Thought(思维链)、Perplexity(困惑度)和ReAct以及General Knowledge Prompting(通用知识提示)等高级概念,使您全面理解该领域。
本指南旨在提供实践见解和练习,确实,随着您的进展,您将熟悉几个工具:
大语言模型:NLP技术的奇点时刻。语言模型的核心是对任意一段文本序列进行概率建模,用一个高维向量来表示一个token的全部特征。我们将深度学习应用于NLP领域的范式转移总结为"有监督的机器学习->预训练+微调->预训练+提示"。其中,ChatGPT的横空出世开启了“预训练+提示”的新范式,这主要得益于OpenAI对生成类模型(GPT)和算法规模化(Scalability)这两个基础技术路线的成功押注,大语言模型“涌现”出了解决复杂问题的通用能力,催生了本轮全球范围内的生成式AI浪潮。 大模型应用:数据感知与代理能力。如何将个人的个性化私有数据和企业多年积累的行业专有知识嫁接到大模型的通用能力上,是大模型在垂直领域商业化落地的核心技术问题。我们在报告中详细列举了三种目前业内主流的实践方法,并对其优劣进行了比较分析。除了获取外部数据外,通过增加代理能力(Agent),让大语言模型具备自主理解、规划、执行复杂任务的能力,同时与计算机内部环境,甚至物理世界进行交互,这也将显著打开大模型应用的想象空间。此外,我们认为提升模型支持的上下文长度是应用创新的关键靶点,模型小型化也将助力大模型应用的商业化落地。 应用分析框架:通用能力与外部能力的组合。大模型应用可以被总结为,在基座模型的通用能力上,叠加一些其他的可实现的外部能力,这就包括上述的数据感知(可连接其他外部数据源)和代理能力(允许大模型与环境互动)。根据这一范式,我们可以将现阶段大模型的应用边界归纳为通用认知能力与上述两种外部能力的排列组合。基于此,展望未来大模型新应用的靶点可总结为:①通用能力的增强(上下文长度、复杂推理、数学、代码、多模态等)、②外部能力的扩充(处理非结构化数据、使用更复杂的工具、与物理世界的交互等)
本文阐述了认知战的特征及其对虚假信息和计算宣传的使用,以及认知战在战争和非战争冲突中的政治和军事目的。文章讨论了应对认知战争的防御和进攻措施,特别是符合相关道德原则的措施。
认知战的定义多种多样。下面是几个有影响力的定义,了解一下这个词的含义: "认知战是一种战略,其重点是改变目标人群的思维方式,并通过这种方式改变其行为方式"(Backes & Swab, 2019);"外部实体将舆论武器化,目的是(1)影响公共和政府政策,(2)破坏公共机构的稳定"(Bernal et al.)
因此,认知战是最近从心理战和信息战等相关的非动能战争形式中发展出来的。认知战在很大程度上依赖于新的通信和信息技术,特别是人工智能。认知战的主要特点包括:以全体民众为目标(而不仅仅是战时的军事目标),侧重于通过改变民众的思维方式来改变其行为,而不仅仅是就具体问题提供零散的虚假信息(例如,否认战争中的伤亡程度)、 例如,否认动能战争中的伤亡人数),依靠日益复杂的心理操纵技术(以及潜在的神经生理学技术,如经颅直接颅骨刺激(Bernal 等人,2020 年,第 32 页;DeFranco 等人,2020 年)),以及破坏机构稳定的目的,尤其是政府,尽管最初往往是间接地破坏认识机构的稳定,如新闻媒体组织和大学。重要的是,认知战能够利用新的公共传播渠道,如社交媒体,而民众对社交媒体的依赖性已与日俱增。此外,与传统的意识形态竞争(如冷战期间苏联与西方之间的意识形态冲突)相比,认知战的每个主角都有一个试图 "推销 "的思想体系或准体系,而认知战最初也非常注重通过强调现有差异和宣传极化观点(如宣传极左翼和极右翼观点),在目标人群中播下分裂和破坏合作的种子。简而言之,认知战争大量使用计算宣传。
众所周知,社交媒体平台的出现以及相关的网络技术,如算法和自动化软件(如模仿真人的机器人),都是认知战的重要组成部分、 众所周知,社交媒体平台和相关网络技术的出现,如算法和自动化软件(如模仿真人的机器人),使各种行为者传播虚假信息、错误信息、阴谋论、仇恨言论和宣传的数量呈指数级增长(Cocking & van den Hoven, 2018),这些行为者包括公民个人、单一问题压力团体、右翼和左翼极端主义团体、恐怖组织、犯罪组织,在某些情况下,如俄罗斯,还包括政府。按照伍利和霍华德(2019 年,第 4-5 页)的说法,将后一种为政治议程服务的现象称为计算宣传。计算宣传的一个特点是有助于形成回声室,在回声室中,用户接触到的信息会强化他们自己的观点。因此,社交媒体算法会调整用户接触到的内容,从而形成过滤泡沫。因此,个人用户被隔离在各种观点之外,主要接触与自己观点相似的用户。这就强化了用户的观点,而忽略了与之竞争的观点和可能对用户观点提出质疑的信息,从而导致 "硬"观点的增加,这种观点是不可修改的。其结果是削弱了以证据为基础的讨论,政治话语两极分化,助长了未经证实的极端主义观点(D'Alessio,2021 年)。
需要将认知战与网络战争、非战争状态的网络冲突、网络恐怖主义、网络犯罪、网络间谍以及所称的隐蔽认知战--一种隐蔽行动(Miller, 2016a; Miller & Bossomaier, 2023)等类别(有时相互重叠)区分开来。虽然网络犯罪这一类别目前已在法律中得到确立,但其他一些类别尚未确立,或者说,至少它们是否已得到令人满意的详细阐述还存在争议。具体而言,在战争概念方面存在一个问题或一系列问题,因为它可能适用于也可能不适用于网络冲突,包括认知战争。
关于这些不同类别之间的区别,需要区分四种伤害或损害。首先是对人本身造成的伤害(身体或心理伤害)。这里的心理伤害应从广义上理解,包括欺骗性或操纵性地诱导错误的信念或不必要的情感态度,以破坏自我管理。第二,对建筑物、信息和通信技术硬件及其他人类手工艺品(以及支持个人和集体人类生活的自然环境)造成的损害。第三,正如迪佩尔特(2010:384)所指出的,存在网络 "损害"(或者用术语来说是 "软损害"),例如对软件和数据的损害(相对于有形的信息和通信技术硬件本身而言)。第四,机构损害或伤害;即对机构程序和宗旨的破坏,例如安全机构的重大泄密事件,机构对领土控制的丧失。在这方面应该指出,破坏特定的机构程序和目的可能是为了破坏机构本身,特别是如果机构行为者本身或其服务对象的信念和态度成为攻击目标,例如,如果他们对机构的信任受到削弱,例如,在 2020 年总统选举中美国选举机构的情况。认知战的主要重点是第一种伤害,更具体地说是心理伤害,以及第四种伤害,即机构伤害或损害。
有鉴于此,是否应将认知战理解为战争、战争之外的一种冲突或秘密行动(或两者的某种组合)?
这里要提出的第一点是,认知战争所特有的上述两种伤害(心理伤害和制度伤害)虽然本身通常不被认为是战争的决定性因素,但至少在理论上可能有一个门槛,在这个门槛上可以适当地使用 "战争 "一词。与此相关的是,这两种伤害可能有一个门槛,在这个门槛上,发动动能战争可能在道义上是正当的。此外,即使造成的其他伤害/损害(即对人类本身造成的身体伤害程度和对有形财产的破坏程度等)不构成战争,也可能达到战争所确定的心理或制度伤害/损害的门槛。同样,即使所造成的其他种类伤害/损害的程度没有达到使战争正当化的心理或制度伤害/损害的门槛,也可能达到这一门槛。此外,心理和制度上的伤害/损害可能也有临界点,在这个临界点上,战争之外的严重破坏或有害反应在道义上,或许在法律上,都是合理的。这种反应可能包括经济制裁等;但也可能包括各种形式的秘密政治行动,特别是秘密认知战(下文将详细介绍)。
有些人声称,网络战争是与常规战争,特别是核战争并列的一种独特的新战争类别。以此类推,也可以说认知战争是一种独特的新战争类别,尽管鉴于其基于网络的 "攻击 "的性质,认知战争显然与网络战争重叠。然而,这两种说法都值得商榷。粗略地说,常规战争必然涉及 "杀人和毁物",以夺取和控制领土(在自卫战争中最终是自己的领土)。然而,无论是网络冲突还是认知战争,都不一定涉及这些事情。但也许网络战争是网络冲突的一种,涉及有组织的团体参与一系列持续的网络攻击,在这些攻击中,关键基础设施遭到大规模破坏,导致大量人员伤亡,例如,许多网络攻击中的一次在寒冬中破坏了电网的物理组件,间接导致大量人员死亡。以此类推,认知战争也许是网络空间冲突的一种,在这种冲突中,有组织的团体持续不断地制造虚假信息、进行宣传和使用操纵技术,以控制网上言论和诋毁政治对手(包括以毫无根据的说法破坏他们的声誉),并以弱势群体(如精神失常者)为微观目标,破坏政治体制,最终可能导致大范围的暴力叛乱和现有政治秩序的崩溃。
当然,除此之外,当代环境下的常规战争也会使用网络武器,更广泛地说,它还具有重要的网络维度。例如,2022 年 2 月俄罗斯入侵乌克兰。它涉及一系列广泛的网络攻击,包括对乌克兰银行和政府部门的攻击(Alazab,2022 年)。然而,可以说,在一场常规的动能战争中,网络层面必须成为主导层面,战争才能被合理地描述为网络战争。此外,当代环境下的常规战争,包括当前俄罗斯对乌克兰发动的战争,都有一个重要的认知战维度。根据等价推理,可以说,在一场原本常规的动能战争中,认知战维度必须成为主导维度,战争才能被合理地描述为认知战。
然而,可以说,至少到目前为止,认知战还没有上升到被合理定性为战争的冲突门槛;相反,它所包含的活动被更恰当地定性为非战斗冲突(相对于非战斗兵力)。当然,认知战争实际上并没有导致大规模的 "杀人毁物"(即使它有可能这样做,尽管是间接的);也没有导致占领和控制领土。此外,迄今为止,认知战争还没有导致体制遭到破坏,以至于民族国家的政治秩序被推翻。因此,认知战(以及更广泛的基于网络的冲突(Miller, 2019; Miller & Bossomaier, 2023))或许更适合被视为一种非战争状态的冲突(Galliott, 2019; Gross & Meisels, 2017; May, 2017)--或者说是常规战争的一种辅助手段。认知战除了具有非动能特征外,还经常发生在各方公认的和平时期,例如俄罗斯对 2020 年美国总统大选的干预。此外,认知战的许多事例可被恰当地视为秘密行动的一种。考虑一下这一建议。
民族国家对其他民族国家发动认知战的一个问题是所谓的归属问题;网络攻击也存在这个问题,尽管网络取证技术的发展明显缓解了这一问题(Lucas, 2013, p. 371; Office of the Director of National Intelligence, 2018; Rowe, 2013, p. 401)。与常规战争中的大多数攻击不同,或者说,与常规的攻击或盗窃犯罪不同,此类敌对活动存在一个重大的认识论问题:可靠的责任归属问题,以及反过来说,有罪的攻击者否认责任的可信度问题(至少,如果这些攻击不是作为常规战争的一部分进行的--因为在后一种情况下,他们可能不会否认)。由于网络空间中的行为体通过间接途径密集地相互联系在一起,因此往往很难确定这种敌对认知活动的来源,甚至很难知道这不仅仅是普通公民在进行政治交流时的表达,尽管这种交流消息不灵通,而且充斥着意识形态。
由于存在归属 "问题",因此否认的可信度也很高,再加上被攻击的自由国家对传播自由的承诺,这使得认知战成为专制民族国家在避免直接战争(实际上是避免使用致命兵力甚至胁迫性兵力)的同时破坏自由国家的一种极为有用的战略。实施认知战的民族国家通常会采取历史悠久的秘密行动战略,有时也被称为秘密政治行动(约翰逊,2021 年)。从历史上看,秘密政治行动的策略包括暗杀 "敌 "国的政治领导人、在战场外定点清除恐怖分子头目、资助政变和其他叛乱运动,还包括通过散布虚假信息和宣传、部署挑衅者等手段破坏 "敌 "国的稳定(Perry,2009)。
秘密政治行动通常是非法的,但也许不一定,至少在其所针对的民族国家中是非法的,即使在国际法中也是如此。这是秘密政治行动不公开进行的原因之一,尽管至少在和平时期进行的秘密政治行动中,这可能不是主要原因。战争之外的秘密政治行动虽然可能涉及杀戮和破坏财产,但其目的通常是为了避免战争,或至少是避免动能战争;此类秘密政治行动的全部意义在于削弱敌国,或保护自己不被削弱,同时似是而非地否认自己正在这样做,从而避免直接(动能)战争。因此,在核战争阴影笼罩下的冷战时期,秘密政治行动是苏联和美国都青睐的策略,或者说,俄罗斯在对美国采取侵略姿态时对其青睐有加,如最近利用剑桥分析公司(Cambridge Analytica)干预美国大选的事件就表明了这一点,这绝非偶然。
最合适的道德范畴或哲学传统中的一般描述是所谓的 "肮脏之手"。隐蔽政治行动是典型的 "脏手 "范例(尽管许多 "脏手 "行动显然不属于隐蔽政治行动);为了实现某种假定的更大道德利益(就隐蔽政治行动(包括隐蔽认知战争)而言,是为了实现相关民族国家的更大道德利益(假定)),而去做在道义上是错误的(而且通常是非法的)事情。民族国家的这一更大道义利益大概就是国家安全(而不是国家利益,后者在某些情况下客观上可能并不是一种利益,例如征服外国)。脏手行为在道德上的等同错误通常包括以下事实:(1) 故意对无辜者造成严重伤害;或 (2) 故意对有过错的人造成严重伤害,但伤害与他们的过错严重不相称;和/或 (3) 违反道德上合理的法律。脏手 "行动的典型例子是对恐怖主义嫌疑人实施酷刑以获取信息,以及在和平时期对外国政府的可疑武器设施进行非法网络攻击,如对伊朗核设施的 Stuxnet 攻击。请注意,在 "肮脏的手 "的情况下,"肮脏的 "行动在道德上可能是合理的,也可能是不合理的。无论如何,"肮脏 "行动都是一种法律或道德上的错误,受到严重伤害的人受到了伤害,至少其合法权利受到了侵犯。事实上,既然如此,"脏手 "行为通常是非法的。既然如此,就产生了一个重要问题,即如何追究那些在自由社会中从事秘密政治行动的人的责任(Regan & Poole, 2021)。
在此,重要的是要将 "脏手 "行动与合法的、道德上合理的但仍然有害的行动区分开来。据推测,士兵在战时的致命行为和其他有害行为,只要符合正义战争理论(诉诸战争权和战时法),就不是 "脏手 "行为。警察的有害行为(如使用强制兵力实施逮捕)只要符合法律规定的、社会公认的、客观上正确的道德原则,也不属于脏手行为(米勒,2016a,2016c)。
如果这一观点是正确的,那么隐蔽的政治行动,也就是隐蔽的认知战争,就对标准执法模式和正义战争理论提出了特别的挑战。一方面,根据定义,隐蔽认知战争(或多或少)是战争之外的有害行动;其存在的理由通常是在不引发战争的情况下伤害 "敌 "国,尤其是在核大国的情况下,避免引发核战争。此外,就国家安全而言,其职权范围可能比从民族国家的领土完整和政治独立角度理解的国防更为广泛。因此,适用正义战争理论有些不妥;它在很大程度上失之偏颇。
另一方面,根据定义,隐蔽的认知战争(或多或少)是非法的(至少在其所针对的民族国家)。因此,从道义上讲,人们强烈反对使用这种手段。然而,由于下文阐述的原因,在某些场合和某些领域,例如自由安全机构对参与无理认知战的有罪专制国家行为者的对等打击(下文将详细阐述),使用认知战似乎在道义上是合理的。此外,(显然)其存在的理由并不是执法,就像执法机构开展的警务工作一样。因此,"执法 "模式的应用在很大程度上没有触及问题所在;问题在于许多秘密的政治行动,因而也是秘密的认知战,尽管是非法的,与执法活动不一致,或至少是不协调,但在道义上显然是正当的。
在战争、经济萧条、大流行病和其他灾难已经造成不稳定影响的情况下,或者在已经存在两极分化社会的情况下,如英国脱欧、全球金融危机后的美国或以色列/阿拉伯冲突后的中东,认知战可能会更成功。因此,俄罗斯抓住 COVID 大流行的机会,加大了认知战的行动力度,例如向美国民众宣传各种阴谋论。同样,俄罗斯利用剑桥分析公司(Cambridge Analytica)在美国总统选举中挑拨。此外,基地组织和 "伊斯兰国 "等恐怖组织也利用认知战技术,在各个国家招募心怀不满的青年加入他们的事业,更重要的是,通过让他们的 "敌人 "反应过度来挑拨离间,就像 9/11 双子塔爆炸案一样,事实证明,基地组织在知名度、在心怀不满的穆斯林中的声望等方面都取得了巨大成功。
重要的是要明白,认知战争是在已经存在的社会、制度和技术背景下发生的,在这些背景下,假信息、错误信息、阴谋论、宣传、仇恨言论等的大规模扩散已经产生了破坏稳定的影响,其中大部分并非出于明确的政治目的(尽管可能无意中达到了这样的目的)。
一方面,还需要区分计算宣传(如虚假信息、意识形态/准意识形态/群体思维和仇恨言论),其内容明确或含蓄地表达了传播者的政治意识形态,(如 另一方面,计算宣传的内容并不如此表达,例如,俄罗斯国家官员向美国受众传播反疫苗阴谋论或美国右翼民族主义准意识形态,以挑拨美国关系。
认知战的出现带来了相当大的挑战,尤其是对致力于伦理或道德(交替使用这些术语)价值观和原则的自由国家而言,如传播自由、民主进程、法治、以证据为基础的真相说明等。因此,虽然有必要遏制虚假信息,但同时也要求在不损害传播自由的情况下这样做。同样,有必要打击参与认知战的国家,但自由国家通过散布自以为是的虚假信息或试图操纵专制国家的公民来达到这一目的是有问题的。另一个问题涉及责任。鉴于认知战争的性质,除了政府和安全机构之外,还需要各种机构承担起打击认知战争的责任,例如,承担起建设抵御虚假信息、意识形态和操纵技术的责任。这些责任到底是什么,应该分配给哪些机构?笼统地说,包括政府、安全机构、媒体组织以及学校和大学等教育机构在内的多个机构(或至少是其成员)应承担集体责任(可理解为共同责任(Miller, 2006, 2016b, Ch. 5))。
在其他地方,提出了一系列打击计算宣传的对策(Miller, 2020; Miller & Bossomaier, 2023)。这些措施包括:
政府颁布法律,要求 Facebook 和 Twitter 等大众社交媒体平台为其平台上的煽动和仇恨言论等非法内容承担法律责任。
对大众社交媒体平台实行强制许可制度,许可的条件是其平台上的内容必须符合由政府设立的独立法定机构(如澳大利亚电子安全专员办公室)确定和裁定的最低认识和道德标准。
尽管如此,如果合法内容不符合这些最低认识和道德标准(例如,由于明显虚假),并且被人为(例如,通过机器人)或以其他方式非法放大,社交媒体平台有责任删除这些内容,但只能根据上述独立法定机构的裁决(公开透明)进行删除。
法律规定,大众社交媒体平台的账户持有者必须在独立法定机构注册,然后由该机构发放唯一的身份标识,但必须在核实账户持有者的身份(如护照、驾照等)后方可发放。
在大众媒体公共传播渠道上传播具有政治意义的内容(包括但不限于对国家安全有影响的内 容),并拥有大量受众(如超过 100 000 名追随者)的传播者,在法律上必须公开其身份 (其他条件不变)。
这些措施都与认知战争有关。然而,这些措施并不足以打击从事认知战的敌对国家(而且,如果不重新设计认识论机构,这些措施可能也不足以打击其他环境中的计算宣传)。关于自由国家为打击参与认知战的敌对国家(如俄罗斯针对乌克兰的计算宣传活动)而应采取的措施。
在这里,需要区分微观层面的人际言论(如约翰-布朗在街角对玛丽-史密斯讲话)和利用大众媒体传播渠道的宏观层面的言论。还需要区分这种宏观层面的言论的两种形式。首先是通过大众媒体公共传播渠道向大量受众发表的宏观社会导向性言论。例如,CNN 的新闻广播和美国前总统唐纳德-特朗普在 Twitter 上的传播。这些传播的受众数以百万计,而且这些传播来自受众成员所熟知的单一已知来源。此外,重要的是,这些传播都是公开的,因为所有上述信息都是传播者和受众成员共同知晓的。因此,每个传播者和受众都知道信息来源是谁,传播内容是什么,也知道受众中的其他人都知道这些,也知道其他人都知道这些,以此类推。
其次是宏观层面的、基于个人资料的、有针对性的、通过大众媒体渠道向数百万人发表的、表面上是私人交流的言论。这种宏观层面的言论可能涉及使用机器人向选定的个人发送数百万封电子邮件,而这些人并不一定知道同样的通信正发送给数百万个收件人,而且(至少最初)是由单一来源发送的。) 这种形式的宏观言论受到计算宣传者的青睐,如剑桥分析公司。
显然,正如其他地方所论证的(Miller, 2020; Miller & Bossomaier, 2023),通过表面上私人交流的大众媒体渠道向数百万人发表基于个人资料、微观目标的宏观言论,并没有道德权利。事实上,恰恰相反,政府在道义上有义务打击此类言论(包括诉诸上文总结的手段)。然而,事实也将证明,外国人并没有道德权利对国内公民发表宏观层面的社会导向性言论,这对禁止俄罗斯大众媒体频道(如今日俄罗斯)等具有影响。因此,要为大卫-斯洛斯(David Sloss)倡导的政策提供理由,即取缔今日俄罗斯和类似的大众媒体渠道(斯洛斯,2022 年)。在此之前,需要进一步明确 "社会导向型言论"(Miller, 1994, 2001, 2010)的概念;这是一种公共传播形式。
社会导向型演讲是指演讲者以社会成员的身份向社会其他成员发表演讲(在上述讨论的意义上公开发表演讲)。在这里,"社群 "可以松散地理解为一个社会团体。因此,它可以是一个小的地方社区,也可以是一个大的国家社区,甚至是国际社区;它还可以是一个学术界、商界或政界社区(这只是对该术语的松散意义上的社会群体的几个例子)。社会导向性言论的例子包括英国首相发表全国讲话,安东尼-福奇博士在美国有线电视新闻网(CNN)上对美国民众说他们应该接种疫苗,以及一名被当地警方杀害的黑人的母亲呼吁在她所在的城市举行非暴力示威活动以示回应。
那么,通过大众媒体的公共传播渠道向数百万人发表社会导向性言论,即发表宏观层面的社会导向性言论的所谓道德权利又是什么呢?至少在原则上,公民 A 作为 A 的政治群体的成员,有向 A 的政治群体的其他成员发表言论的道德权利。这是一种自由权,因为如果一个人在某一时刻行使这一权利,那么其他人可能就无法行使,事实上,即使在相当长的一段时间内,可能也不是每个人都能行使这一权利;公民太多了,不可能做到这一点。更具体地说,在现代大众社会中,行使这一自由权利需要利用大众媒体的公共传播渠道。但是,虽然大众传媒渠道使大众受众成为可能,每个人都可以成为大众受众的一员,但大众传媒渠道并不能使大众演讲者成为大众受众的演讲者。即使在原则上,也不可能让每个人,甚至是大多数人都成为大众受众。只有少数人才能成为大众传播者;公民人数太多,公共传播渠道太少,不可能人人都成为大众传播者。因此,在这里和在其他地方一样,需要有一个公平的程序来管理这一自由权利;而这一公平的程序可能很难找到。然而,如果是外国行为者试图向本国以外的国内受众进行传播,就没有必要确定这样的公平程序,因为这样的外国行为者并不拥有相关的自由权。因此,俄罗斯国家行为体(以及更广泛意义上的俄罗斯公民)并不拥有向美国公民就重大政治问题进行宏观交流的道德权利(具体而言,即自由权利)。同样,美国国家行为者(以及更广泛意义上的美国公民)也不享有就重大政治问题与美国公民进行宏观交流的自由权利。
当然,外国行为者也无权向本国受众以外的其他国内受众进行社会定向传播。毕竟,鉴于他们不是相关社区的成员,他们无法参与上述定义的社会导向行动。然而,有人可能会认为,外国国家行为者在使用大众传播渠道向其国内受众以外的其他国内受众公开传播方面拥有不那么严格(比向其国内受众成员进行社会定向传播的权利更不严格)的自由道德权利。外国国家行为者(如俄罗斯国家行为者)行使这种宏观层面的道德权利(假设存在的话),将取决于有关国内受众(如美国公民)是否准备倾听有关传播;也就是说,美国公民没有倾听的道德义务。在此,需要再次援引共同权利的概念。
与上述观点一致,假定,一个政治共同体的成员作为该共同体的成员,有一项共同的道德权利来倾听那些无权通过大众传媒公共传播渠道向他们发表社会导向性言论的发言者的言论。因此,美国公民拥有在 "今日俄罗斯 "节目中收听俄罗斯国家行为者讲话的共同权利。请注意,作为一项共同权利,它将被共同行使;也就是说,任何一个单独行动的公民都没有这样的权利。然而,这种共同权利也包含不这样做的共同权利。因此,美国公民拥有共同的道德权利,可以禁止外国国家行为者使用大众媒体的公共传播渠道,包括社交媒体,向他们即美国公民公开传播具有政治意义的信息。与公民成员的其他共同权利一样,这一共同权利可由公民选举的代表公民行使。简而言之,自由政府(如美国政府)有道义上的权利禁止外国行为者利用大众媒体传播渠道向有关自由国家的公民公开传播具有政治意义的信息,而且,如果有关传播包含计算宣传等内容,则可能有道义上的义务这样做。事实上,如果有关外国参与了认知战争,那么就有明确的道德义务来实施此类禁令。因此,同意斯洛斯(Sloss,2022 年,第 6 章)的观点,即俄罗斯等国家行为者在 Facebook、Twitter 和其他 "大科技 "上的账户应被撤销,因为这些行为者参与了与自由国家的认知战,特别是参与了旨在破坏自由国家关键机构的计算宣传活动。
必须指出的是,上述关于宏观层面、社会导向、具有政治意义的言论的共同道德权利与社区每个成员通过非大众媒体公共传播渠道的传播渠道倾听外国国家行为者的微观层面的人际权利是一致的。因此,上述禁令不适用于俄罗斯境内的俄罗斯公民与美国境内的美国公民之间的微观交流。另一方面,这种微观层面的人际权利并非绝对权利。与大多数(如果不是全部)道德权利一样,它在某些条件下可以被推翻。然而,从本质上讲,它是人类进行自由言论的基本自然道德权利,因此,存在着反对侵犯这一权利的强烈推定;这一推定只能被具体而重要的道德考虑因素所推翻,而不能被全面的国家安全诉求等因素所推翻。
迄今为止,一直在关注针对认知战的防御措施。现在是考虑进攻性措施的时候了。当然,在自卫的大背景下,针对攻击者的非动能攻击性措施(假设它们可能有效)是有理由遵循互惠原则的(Miller, 2016a, 2016b, 2016c; Miller & Bossomaier, 2023)。
假设有关的进攻措施是非动能的。如果是这样,而且这些措施针对的是有过错的攻击者,那么可能会认为,除了有效性的可能性以及遵守互惠原则的可能性之外,几乎没有任何限制(如果有的话)。如果敌国的某些成员正在散布虚假信息、宣传、意识形态和仇恨言论,并通过计算宣传和其他操纵手段来达到这一目的,那么捍卫者在道义上也有权这样做,至少如果目标受众是敌国的有罪成员的话。也许是这样。然而,在这一点上马上就会出现两个问题。
首先,这些非动能措施可能具有动能战争所特有的致命或其他动能效果。例如,传播虚假信息、宣传和仇恨言论的目的是煽动暴力。更一般地说,认知战技术的使用不能脱离其动能效应,当然也不能脱离其预期的动能效应。毕竟,参与认知战的全部意义最终在于改变行为。
其次,许多非动能措施如果只针对有罪的攻击者,就不会有效。例如,宣传(部分)包括旨在削弱敌方战争努力(在动能战争的总体背景下)的虚假信息;目标显然是全体平民。此外,在认知战中适用有罪责/无罪责的区分是有问题的,当然也不符合正义战争理论家和其他人在动能战争中使用致命兵力时所依据的相对明确的战斗人员/非战斗人员的区分。
在认知战争中适用有罪/无罪/有罪的区别是有问题的,因为,举例来说,一个专制国家的安全部队正在参与认知战争,该国家的许多平民成员可能会支持认知战争,但这只是微弱的支持,他们口头上向朋友和家人表示支持,除此之外没有任何影响力,也没有提供任何物质支持。此外,在这样做的过程中,他们自己也可能不知不觉地成为相关专制国家虚假信息和操纵性宣传的受害者。既然他们是这种意义上的受害者,也许他们并没有真正的罪责。但是,如果是这样的话,在实践中又该如何将他们与那些只是完全了解其安全机构所使用的虚假信息和操纵性宣传手段并在口头上赞同使用这些手段的公民区分开来呢?后一类人是有罪的(或比前一类人更有罪),但实际上却无法与前一类人区分开来。
将在动能战争背景下进行的认知战与在 "和平时期"(即在没有动能战争的情况下)进行的认知战区分开来。因此,自 2022 年 2 月俄罗斯入侵乌克兰以来,乌克兰和俄罗斯在动能战争的背景下展开了一场认知战争。相比之下,俄罗斯对美国发动了某种程度的认知战争,例如,它试图干涉美国总统选举,并在更大范围内挑拨离间,但这并不是在俄罗斯对美国发动动能战争的背景下进行的。可以说,在后一种情况下,即一个自由国家在 "和平时期 "发动一场道义上合理的(假定的)认知战争,诉诸有害的进攻性认知战争措施,将目标对准敌对国家中不可定罪(或至少罪责小得多)的成员,不仅没有必要,而且至少在中长期内可能会适得其反。相反,以下三方面的措施组合可能就足够了:(1) 基本上是防御性的认知措施,例如 实施上述打击计算宣传的措施,包括禁止敌对国在防御国的公共传播渠道上进行宣传;(2) 针对敌对国的虚假信息、宣传和操纵性使用制定反叙述,但反叙述本质上不是虚假或操纵性的,因此不是有害的攻击性措施; (3) 酌情针对 "敌 "国的罪责成员采取有害的攻击性措施,例如:(a) 在 "敌 "国的领土上进行攻击;(b) 在 "敌 "国的领土上进行攻击;(c) 在 "敌 "国的领土上进行攻击。
那么,在动能战争(或可能是动能战争的威胁)背景下开展的认知战又是什么呢?鉴于动武战争的利害关系远大于纯粹的认知战争,而且利害关系就在此时此地,因此需要放宽限制,避免对交战国中不可定罪的成员使用有害的攻击性措施。(如上所述,假定一个自由国家的视角来决定其对敌对国家在道义上不合理地使用认知战争的反应,尽管这一次是在动能战争的背景下(由自由国家对敌对国家,实际上是交战国,正义地发动战争))。在这一点上,必要性和相称性的一般原则具有明确的适用性。此外,在这种动能战争的背景下,适用于使用认知战争方法的有罪/无罪区分就不那么有说服力了。在这方面,它类似于与动能战争密切相关的道德和法律歧视原则。根据 "区别对待 "原则,非战斗人员不能成为蓄意攻击的目标,但如果军事行动符合 "军事必要性 "原则,而且根据 "相称性 "原则,非战斗人员在军事行动中被非蓄意杀害的人数不致过多,则允许非战斗人员在军事行动中被非蓄意杀害。然而,正如在上文所看到的,如果对非战斗人员或以其他方式划定的无辜(即不可定罪的)平民造成的预期伤害不是死亡或严重身体伤害,那么歧视原则(或相关原则)的作用就小得多,因为在使用认知战争技术的情况下,这种伤害很可能不是死亡或严重身体伤害。因此,在某些情况下,例如,如果没有直接或间接造成死亡或严重人身伤害(或没有不成比例地造成死亡或严重人身伤害--见下文),通过传播虚假信息、宣传和/或仇恨言论故意伤害不可定罪的公民在道义上可能是正当的。
(1) 使用有关认知战技术(假定其本身在道义上是错误的)所造成的伤害的性质,如 (2) 使用有关认知战手段是有效的,而且没有比它更有效、危害性更小(从各方面考虑)的手段来实现它所服务的道德上重要的军事或政治目的; (3) 使用道德上错误的手段及其造成的伤害,与该手段最终实现的军事或政治目的所具有的道德分量相比,并不是不相称的。
最后一点涉及到在发动正义动能战争的背景下使用认知战争技术可能导致的不可定罪公民的死亡或重伤。如果这些死亡或重伤不是有意造成的,那么诉诸必要性和相称性原则,使用有关认知技术在道义上可能是合理的。这与战斗人员根据必要性、相称性和区别对待原则使用致命兵力无意杀害不可定罪的公民(或至少是非战斗人员)在道义上是合理的。另一方面,如果非可判罪公民的死亡或重伤是有意为之,则很可能违反歧视原则。然而,在后一种情况下,如果涉及有意造成的死亡或伤害,很可能会因两个因素而产生道德问题。首先,这些认知技术的使用与所造成的死亡或严重伤害之间存在间接(因果)关系。其次,那些直接造成严重伤亡的人本身必须对这些伤亡承担一定的(也许是全部的)道义责任,尽管他们的行为在一定程度上是基于那些将他们作为认知战技术目标的人所诱导他们的信念和其他态度,其目的是让他们的目标也这样做。可以说,在这类情况下,存在着共同的道德责任(米勒,2001 年,第 8 章,2006 年,2016b,第 5 章);认知战技术的使用者及其目标在道德上对由此造成的不可定罪公民的伤亡负有共同责任。成功使用认知战争技术来煽动对不可治罪的公民实施暴力就是一个例子。
本文对认知战进行了描述,发现认知战要么是动能战争的一个非动能层面(如俄罗斯人在 2022 年入侵乌克兰时使用的认知战),要么是一种非战争冲突,最重要的是,是一种秘密行动,即隐蔽的认知战(无论是在战争中还是在和平时期进行)。此外,还概述了一系列在道义上有正当理由的打击认知战的防御措施,并根据针对敌国不可定罪成员的问题,提出了支持采取有限制的进攻措施来打击认知战的论点。
这篇博客解释了如何训练和微调大型语言模型(LLMs)以创建像Chat-GPT这样的系统。我们将讨论模型的预训练、少样本学习、有监督微调、基于人类反馈的强化学习(RLHF)以及直接偏好优化。我们之前的博客以高层次地介绍了这些观点。在本文中,我们力图让这些概念在数学上更为精确,并提供关于为什么使用特定技术的洞察。
对于本博客的目的,我们将假定大型语言模型是一个变换器解码器网络。解码器网络的目标是预测部分完成的输入字符串中的下一个词。更准确地说,这个输入字符串被划分为令牌(tokens),每一个令牌都代表一个词或部分词。每个令牌被映射到一个相应的固定长度的嵌入(embedding)。代表这个句子的一系列嵌入被送入解码器模型中,该模型预测序列中可能下一个令牌的概率分布(图 1)。下一个令牌可以通过从这个分布中随机抽样来选择,然后将扩展的序列反馈到模型中。通过这种方式,字符串逐渐得到扩展。这个过程被称为解码。请参见我们之前的博客了解其他解码方法。
解码器网络由一系列变换器层组成(图 2)。每一层(图 3)都通过自注意力机制(self-attention mechanism)混合来自令牌嵌入(token embeddings)的信息,并通过并行的全连接网络独立地处理这些嵌入。当嵌入通过网络传递时,它们逐渐融入了更多关于整个序列含义的信息。部分序列中最后一个令牌的输出嵌入通过线性变换和softmax函数映射到后续令牌可能值的概率分布上。有关变换器层和自注意力的更多信息可以在我们之前的一系列博客中找到。
Large language models: 大型语言模型 * Pretraining: 预训练
Masked self-attention: 掩码自注意力 * Is this model useful?: 这个模型有用吗? * Supervised fine-tuning: 监督微调 * Reinforcement learning from human feedback: 从人类反馈中进行强化学习
Reward model: 奖励模型 * Multiple comparisons: 多重比较 * Using the reward model: 使用奖励模型 * Practical matters: 实用问题 * Direct Preference Optimization: 直接偏好优化 * Summary: 总结
人工智能并不是魔法。《AI的工作原理》通过解释发生了什么、何时发生、为何发生、如何发生,并没有使用一条数学方程式,来揭开人工智能的爆炸性增长的神秘面纱,阐明AI实际上在"底层"是怎么运作的。 人工智能无处不在——从自动驾驶汽车,到从文本生成图像,再到像ChatGPT这样的语言系统的无法预料的力量——然而似乎很少有人真正知道这一切是如何运作的。《AI的工作原理》解开了人工智能的奥秘,无需复杂的数学和不必要的术语。 您将学到:
人工智能、机器学习和深度学习之间的关系 人工智能的历史以及为什么人工智能革命现在才发生 符号人工智能经过几十年的研究失败后,为神经网络的出现打开了大门 神经网络是什么,它们是如何被训练的,以及为什么现代AI的所有奇迹都可以归结为一个简单的重复单元,该单元知道如何将输入数字相乘以产生一个输出数字。
像ChatGPT和Bard这样的大型语言模型对我们社会的影响——再也没有什么会像以前一样了
人工智能并不是魔法。如果您曾经想知道它是如何工作的,它能做什么,或者为什么有这么多炒作,《AI的工作原理》将教给您所有您想知道的一切。
本文提供了对多模态基础模型的分类和演变的全面综述,这些模型展示了视觉和视觉-语言能力,重点关注从专家模型到通用助手的转变。研究范围涵盖了五个核心主题,分为两类。(i) 我们从对既定研究领域的调查开始:为特定目的预训练的多模态基础模型,包括两个主题 - 学习视觉基础架构的方法,用于视觉理解和文本到图像生成。(ii) 然后,我们介绍了探索性、开放性研究领域的最新进展:旨在担任通用助手角色的多模态基础模型,包括三个主题 - 由大型语言模型(LLMs)启发的统一视觉模型,多模态LLMs的端到端训练,以及将多模态工具与LLMs链接。本文的目标读者是计算机视觉和视觉-语言多模态社区的研究人员、研究生和专业人士,他们渴望了解多模态基础模型的基础知识和最新进展。
视觉是人类和许多生物感知和与世界互动的主要渠道之一。人工智能(AI)的核心愿望之一是开发能够模仿这种能力的AI智能体,以有效地感知和生成视觉信号,从而推理和与视觉世界互动。例如,识别场景中的对象和动作,以及为交流创建素描和图片。建立具有视觉能力的基础模型是一个旨在实现此目标的普遍研究领域。
在过去的十年中,AI领域在模型的开发中经历了丰硕的轨迹。我们将它们分为图1.1所示的四个类别。这个分类可以在AI的不同领域中共享,包括语言、视觉和多模态。我们首先使用自然语言处理中的语言模型来说明演变过程。(i)在早期,为各个数据集和任务开发了特定任务的模型,通常是从头开始训练的。(ii)通过大规模的预训练,语言模型在许多已建立的语言理解和生成任务上实现了最先进的性能,例如BERT(Devlin等,2019)、RoBERTa(Liu等,2019)、T5(Raffel等,2020)、DeBERTa(He等,2021)和GPT-2(Radford等,2019)。这些预训练的模型为下游任务适应提供了基础。(iii)由GPT-3(Brown等,2020)举例,大型语言模型(LLMs)将各种语言理解和生成任务统一到一个模型中。随着网络规模的训练和统一,出现了一些新的能力,如上下文学习和思维链。(iv)伴随着人工智能对齐的最新进展,LLMs开始扮演通用助手的角色,遵循人类的意图,完成广泛的语言任务,例如ChatGPT(OpenAI,2022)和GPT-4(OpenAI,2023a)。这些助手展示了有趣的能力,如交互和工具使用,并为开发通用AI智能体奠定了基础。重要的是要注意,最新一代的基础模型在提供额外功能的同时,也借鉴了其早期版本的显著特性。
**受到NLP中LLMs的巨大成功的启发,计算机视觉和视觉-语言社区的研究人员自然会问:ChatGPT/GPT-4在视觉、视觉-语言和多模态模型方面的对等物是什么?**毫无疑问,自从BERT诞生以来,视觉预训练和视觉-语言预训练(VLP)越来越受到关注,并已成为视觉的主流学习范式,承诺学习通用的可迁移的视觉和视觉-语言表示,或生成高度可能的图像。可以说,它们可以被视为多模态基础模型的早期生成,就像BERT/GPT-2对语言领域一样。虽然建立像ChatGPT这样的语言通用助手的路线图很清晰,但研究社区越来越需要探索建立计算机视觉的对等物:通用视觉助手的可行解决方案。总的来说,建立通用智能体一直是AI的长期目标。具有新兴属性的LLMs已显著降低了为语言任务建立此类智能体的成本。同样,我们预见到视觉模型将展现出新的能力,例如遵循由各种视觉提示组成的指令,如用户上传的图像、人类绘制的点击、素描和遮罩,除了文本提示。这样强大的零样本视觉任务组成能力可以显著降低建立AI智能体的成本。
在这篇文章中,我们将多模态基础模型的范围限制在视觉和视觉-语言领域。相关主题的最新综述论文包括:(i) 图像理解模型,如自监督学习(Jaiswal等,2020;Jing和Tian,2020;Ozbulak等,2023),切分任何东西(SAM)(Zhang等,2023a,c);(ii) 图像生成模型(Zhang等,2023b;Zhou和Shimada,2023);以及(iii) 视觉-语言预训练(VLP)。现有的VLP综述论文涵盖了在预训练时代之前,针对特定VL问题的VLP方法,图像-文本任务,核心视觉任务,和/或视频-文本任务(Zhang等,2020;Du等,2022;Li等,2022c;Ruan和Jin,2022;Chen等,2022a;Gan等,2022;Zhang等,2023g)。两篇最新的综述论文讨论了视觉模型与LLM的集成(Awais等,2023;Yin等,2022)。
其中,Gan等(2022)是一篇关于VLP的综述,涵盖了2022年及之前的CVPR关于视觉和语言研究的最新进展系列教程。本文总结了2023年CVPR关于视觉基础模型最新进展的教程。与前述主要侧重于给定研究主题的文献回顾的综述论文不同,本文提出了我们对多模态基础模型从专家到大型语言模型时代的通用视觉助手的角色转变的观点。本综述论文的贡献总结如下。
•** 我们提供了一篇全面且及时的现代多模态基础模型的综述**,不仅涵盖了视觉表示学习和图像生成的成熟模型,还总结了过去6个月由LLM启发的新兴主题,包括统一视觉模型,与LLM的训练和链接。 • 本文旨在为观众提供一种观点,推崇在开发多模态基础模型中的一种转变。在特定视觉问题的伟大建模成功的基础上,我们正朝着构建能够按照人类意图完成广泛计算机视觉任务的通用助手迈进。我们对这些高级主题进行了深入讨论,展示了开发通用视觉助手的潜力。
正如Stanford基础模型论文(Bommasani等,2021)所阐述的,AI正随着诸如BERT、GPT家族、CLIP(Radford等,2021)和DALL-E(Ramesh等,2021a)这些模型的兴起而经历一场范式转变,这些模型经过广泛的数据训练,可以适应各种下游任务。他们将这些模型称为基础模型,以强调它们在核心上的关键性但不完整的特性:研究社区的方法论的同质化和新能力的出现。从技术角度来看,使基础模型成为可能的是迁移学习,使它们变得强大的是规模。基础模型的出现主要观察到在NLP领域,范例包括从BERT到ChatGPT。这一趋势在近年来获得了推动,扩展到计算机视觉和其他领域。在NLP中,BERT在2018年底的推出被视为基础模型时代的开始。BERT的显著成功迅速激发了计算机视觉社区对自监督学习的兴趣,催生了如SimCLR(Chen等,2020a)、MoCo(He等,2020)、BEiT(Bao等,2022)和MAE(He等,2022a)等模型。在同一时期,预训练的成功也显著推动了视觉-语言多模态领域达到了前所未有的关注度。
在本文中,我们关注的是多模态基础模型,这些模型继承了Stanford论文(Bommasani等,2021)中讨论的所有基础模型的属性,但侧重于具有处理视觉和视觉-语言模态能力的模型。在不断增长的文献中,我们基于功能和通用性对多模态基础模型进行分类,见图1.2。对于每个类别,我们都展示了一些示例模型,展示了这些多模态基础模型固有的主要能力。
学习通用视觉表示对于构建视觉基础模型至关重要,因为预训练一个强大的视觉主干对所有类型的计算机视觉下游任务都是基础,这些任务范围从图像级别(例如,图像分类、检索和字幕)、区域级别(例如,检测和定位)到像素级别任务(例如,分割)。我们将方法分为三类,取决于用于训练模型的监督信号类型:
标签监督。像ImageNet(Krizhevsky等,2012)和ImageNet21K(Ridnik等,2021)这样的数据集一直受到监督学习的欢迎,更大规模的专有数据集也在工业实验室中使用(Sun等,2017;Singh等,2022b;Zhai等,2022a)。
语言监督。语言是一种更丰富的监督形式。像CLIP(Radford等,2021)和ALIGN(Jia等,2021)这样的模型使用来自网络的数百万甚至数十亿噪声图像-文本对上的对比损失进行预训练。这些模型使得零射击图像分类成为可能,并使传统的计算机视觉(CV)模型执行开放词汇CV任务。我们提倡在野外进行计算机视觉的概念,并鼓励未来基础模型的开发和评估。
仅图像自监督。这一工作方向旨在从图像本身中挖掘出监督信号来学习图像表示,范围从对比学习(Chen等,2020a;He等,2020)、非对比学习(Grill等,2020;Chen和He,2021;Caron等,2021)到遮蔽图像建模(Bao等,2022;He等,2022a)。
多模态融合,区域级和像素级预训练。除了预训练图像主干的方法外,我们还将讨论允许多模态融合的预训练方法,例如CoCa(Yu等,2022a)、Flamingo(Alayrac等,2022),区域级和像素级图像理解,例如开放集对象检测(例如,GLIP(Li等,2022e))和可提示分割(例如,SAM(Kirillov等,2023))。这些方法通常依赖于预训练的图像编码器或预训练的图像-文本编码器对。
最近,由于大规模图像-文本数据的出现,已经构建了基础图像生成模型。使之成为可能的技术包括向量量化VAE方法(Razavi等,2019)、基于扩散的模型(Dhariwal和Nichol,2021)和自回归模型。
基于文本的视觉生成。这个研究领域关注的是生成忠实的视觉内容,包括图像、视频等,这些内容是以开放式文本描述/提示为条件的。文本到图像生成发展了生成模型,这些模型合成了忠实于文本提示的高保真度图像。主要例子包括DALL-E(Ramesh等,2021a)、DALL-E 2(Ramesh等,2022)、Stable Diffusion(Rombach等,2021;sta,2022)、Imagen(Saharia等,2022)和Parti(Yu等,2022b)。基于文本到图像生成模型的成功,文本到视频生成模型基于文本提示生成视频,例如Imagen Video(Ho等,2022)和Make-A-Video(Singer等,2022)。
与人类意图一致的视觉生成器。这个研究领域关注的是改善预训练的视觉生成器,以更好地遵循人类意图。为解决基础视觉生成器固有的各种挑战,已经进行了努力。这些包括改善空间可控性(Zhang和Agrawala,2023;Yang等,2023b)、确保更好地遵循文本提示(Black等,2023)、支持灵活的基于文本的编辑(Brooks等
根据自然语言处理(NLP)中的模型发展历史和分类,我们将图1.2中的多模态基础模型分为两类。• 特定目的的预训练视觉模型涵盖了大多数现有的多模态基础模型,包括视觉理解模型(例如,CLIP(Radford等,2021),SimCLR(Chen等,2020a),BEiT(Bao等,2022),SAM(Kirillov等,2023))和视觉生成模型(例如,Stable Diffusion(Rombach等,2021;sta,2022)),因为它们具有针对特定视觉问题的强大可迁移能力。• 通用助手指的是能够遵循人类意图以完成野外各种计算机视觉任务的AI代理。通用助手的含义有两层面:(i)具有统一架构的通用型,可以完成不同类型问题的任务;以及(ii)容易遵循人类指令,而不是替代人类。为此,已经积极探讨了一些研究课题,包括统一视觉建模(Lu等,2022a;Zhang等,2022b;Zou等,2023a),与大型语言模型(LLMs)的训练和链接(Liu等,2023c;Zhu等,2023a;Wu等,2023a;Yang*等,2023)。
• 第1章介绍了多模态基础模型研究的领域,并展示了从专家模型到通用助手的研究历史转变。• 第2章介绍了不同消耗视觉数据的方式,重点关注如何学习一个强大的图像骨干。• 第3章描述了如何生成与人类意图一致的视觉数据。• 第4章描述了如何设计统一的视觉模型,具有交互式和可提示的界面,特别是在没有使用LLMs的情况下。• 第5章描述了如何以端到端的方式训练LLM,以处理视觉输入进行理解和推理。• 第6章描述了如何将多模态工具与LLM链接,以实现新的功能。• 第7章总结了本文并讨论了研究趋势。
第2至6章是本综述论文的核心章节。这些章节的结构概述如图1.2所示。我们首先讨论了两种特定任务的典型多模态基础模型,包括第2章中的视觉理解和第3章中的视觉生成。由于多模态基础模型最初是基于图像骨干/表示学习用于理解任务的,因此我们首先对图像骨干学习方法的过渡进行了全面回顾,从早期的监督方法发展到最近的语言-图像对比方法,并将讨论扩展到从图像级别到区域级别和像素级别的图像表示(第2章)。最近,生成型AI越来越受欢迎,视觉生成基础模型已经得到了发展。在第3章中,我们讨论了大规模预训练的文本到图像模型,以及社区如何利用生成基础模型开发新技术,使它们更好地与人类意图一致。受到自然语言处理领域最新进展的启发,LLMs在日常生活中为各种语言任务提供通用助手,计算机视觉社区一直在期望并尝试构建通用的视觉助手。我们讨论了构建通用助手的三种不同方法。受到LLMs的精神启发,第4章着重于统一不同的视觉理解和生成模型,而无需在建模中明确纳入LLMs。相比之下,第5章和第6章侧重于采用LLMs构建通用视觉助手,通过在建模中明确增加LLMs来实现。具体来说,第5章描述了端到端训练方法,第6章专注于无需训练的方法,将各种视觉模型链接到LLMs。
在进行因果分析的关键挑战是,确定正确的假设(如因果图)需要大量的手动努力。由于不能仅从数据中学习因果图,领域专家面临着提供并验证潜在因果关系的困难任务。在本次演讲中,我将讨论大型语言模型(LLMs)如何提供到目前为止被认为仅限于领域专家的新功能,例如推断因果关系的方向,识别任何缺失的关系,或验证因果分析中的基础假设。首先,我将展示LLMs在因果图发现方面的成果。基于GPT-3.5和4的算法在多种数据集上表现优于现有算法:涵盖物理学、工程学、生物学和土壤科学等领域的Tuebingen成对数据集(97%,13点增益)、北极海冰覆盖数据集(0.22汉明距离,11点增益)以及医疗疼痛诊断数据集。我们发现LLMs通过依赖如变量名等信息来推断因果关系,这一过程我们称之为基于知识的推理,它与非LLM基础的因果发现是不同且互补的。其次,我将描述这些LLMs的功能如何可以扩展用于因果推断流程中的有用任务:识别任何缺失的混淆变量,建议工具变量,建议可验证因果分析的特殊变量(如负对照),以及关于根本原因归因的推理。与此同时,LLMs展示了不可预测的故障模式,我将提供一些解释它们稳健性的技术,特别是与数据集记忆有关。展望未来,通过捕捉关于因果机制的领域知识,LLMs可能为推动因果推理研究开辟新的前沿,并促使因果方法的广泛采用。
与单个无人飞行器相比,无人飞行器蜂群具有巨大的意义,因此越来越受到研究人员的关注。许多研究仅关注这一复杂的多学科群体所面临的少数挑战。其中大多数都存在一定的局限性。本文旨在从控制、路径规划、架构、通信、监控和跟踪以及安全问题的角度,认识和安排相关研究,以评估蜂群的运动规划技术和模型。然后,本文介绍了对无人机蜂群的最新理解以及蜂群智能(SI)概述。研究考虑了多种挑战,并介绍了一些方法。研究结果表明,蜂群智能在这个时代处于领先地位,是无人机蜂群最重要的方法,可在不同环境中做出独特贡献。这些研究的整合将成为有关蜂群知识的基础,为运动规划问题提供指导,并加强对现有方法的支持。此外,本文还能提出新的策略,为今后的工作奠定基础。
无人机因其潜在的应用而在我们的生活中具有重要意义。单个无人机的功率、能力、传感和飞行时间都受到限制。这就提出了采用无人机蜂群系统的要求。无人机蜂群克服了单个无人机的缺陷和限制,并协助更大规模的团队合作,成功完成空中任务。无人机蜂群的优势在于数量众多,因此能带来多种可能性。其中许多好处包括在更短时间内完成任务、冗余和协作执行任务。
蜂群并不是一个现代概念。它存在于自然界中,是由生物种群的合作和相互交流所激发的[1]。通过研究鸟群、蚁群的运动、蜜蜂的合作、鱼群和狼的捕食,无人机群的概念应运而生。动物界的团结使我们有可能实现一个共同的具有挑战性的复杂目标。
然而,蜂群并不局限于自然现象。它还受到一种军事战术的启发,在这种战术中,来自多个轴心的许多单位以协调和刻意组织的形式攻击一个共同目标[2]。自公元四世纪以来,蜂群战术就在军事史上出现过。然而,如今蜂群作战已将传统的指挥和控制概念转变为创新概念。此外,一个人能够同时指挥和控制多架无人机。
由于无人机蜂群具有远距离作业、增强鲁棒性和灵活性等重要能力,因此正在不断发展[3]。蜂群智能对技术、科学、社会等许多领域以及检测、跟踪、运输等各种系统都有很大影响 [4]。对于无人机蜂群的运动规划,不同的研究考虑了控制设计、路径规划算法、通信结构、监控和跟踪架构以及安全飞行协议等方面的许多改进[5]。
研究人员在文献[6]中将计算技术与数学模型相结合,研究了通信效果。这种方法简化了建模过程,但建模速度较慢且内存不足。文献[7]提出了一种基于分散、领导者-追随者策略的控制器,以及基于树状网络的几何结构。这项研究实现了多架无人飞行器在保持同步的情况下到达一个共同点。此外,建议的设计显示出灵活性和稳健的性能。不过,这项研究仅限于有限数量的无人机。在 [8] 中,研究人员为无人机群的新型路径规划开发了一个框架。所提出的算法实现了高效的路径规划,减少了能量和检查时间。此外,它还为确定各种参数提供了指导。
在[9]中,研究提出了一种计算蜂群控制和模拟其分布式行为的算法。研究和模拟显示了不同场景下的通信延迟效应。文献[10]在考虑有限通信距离影响的同时,提出了一种带有弹性指标的改进算法。这一策略在一次监视任务中得到了实施,结果表明它是一种能有效面对外部干扰和威胁的更现实的方法。最近的一项研究[11]将 PIO 算法、比例积分控制器和比例积分微分控制器的概念用于无人机集群的编队控制。这一策略优于传统方法,并提供了安全的飞行协议。相关调查部分对这一技术的发展进行了进一步的广泛思考。
本文的动机是在单一平台上收集可能阻碍无人机群性能的多种挑战。此外,还要提供适当的方法作为解决方案,以实现最佳运动规划。这项研究可以帮助研究人员探索多种运动规划策略及其贡献和局限性。选择适当的运动规划技术和模型可以快速完成复杂的任务,同时还能实现应用的点对点目标。本文的主要贡献如下
本文分为多个部分。第 2 节介绍了无人机蜂群的现状。第 3 节评估了蜂群智能的概念。第 4 节介绍无人机蜂群面临的挑战。第 5 节对用于应对无人机蜂群诸多挑战的技术和模型进行了广泛调查。第 6 节讨论了主要发现和局限性。第 7 节给出结论,第 8 节就今后的进一步研究和开发工作提出建议。
由于采用了人工智能(AI)技术和边缘计算,蜂群可以集体做出决策,并使用相对简单的指令完成空中任务[12]。Veronte 自动驾驶仪已经开发了跟随领导者、执行任务、路径规划、感应和避让等功能。这些功能的进步使团队合作成为可能,并确保了任务的成功。监视和攻击诱导是全球蜂群的一个里程碑事件。无人机群这一改变游戏规则的能力既有利于大国,也有利于小国。蜂群的其他重要方面包括联合决策、自我修复和自适应编队飞行。无人机群仍处于进展阶段,正在开展进一步研究,以进一步增强系统。进一步的重点包括扩大人工蜂群智能的能力,提高蜂群代理的自主状态,以及商品化以降低成本影响。
无人机蜂群最令人惊叹的地方在于其利用蜂群智能技术在民用和军用方面的应用[13]。民用机构正在利用蜂群技术实施更大的计划。美国国家航空航天局(NASA)也在利用这种基于人工智能的蜂群技术进行气候变化分析[14]。这样做的结果是完成了所需的工作,而这些工作在使用一个人时是不可能完成的。此外,许多发达国家已通过相关法规,普及无人机群的商业应用。无人机群在电力线和结构检查、精准农业、测量、搜索和救援行动等方面表现出巨大的性能。
然而,无人机蜂群因其在军事用途上的潜力和效率而备受瞩目。如果在战斗中,无人机蜂群中的一些无人机被击落,那么剩下的无人机仍能以类似的战术、威力和灵活性完成任务。雷神公司(Raytheon)在美国国防部高级研究计划局(DARPA)项目的一次实战演习中使用了蜂群操作,证明了这一点[15]。雷神公司的蜂群具有通信和协调能力。此外,所有个体都有传感器、摄像头和战术突击套件(TAK)集成能力,可用于环境探索。
蜂群技术正在增强军队执行复杂环境任务的能力。许多国家的军队,如美国和中国军队,在最高级别的蜂群行动模拟测试和观察方面处于领先地位[16]。一些国家的军队,如英国军队,正在将这项技术用于实时作战。英国还试验过莱昂纳多公司的 "光辉云"(Brite Cloud)蜂群,其中包含电子战干扰器。同样,俄罗斯很快也将大型无人机蜂群诱导技术 "Flock 93 "作为其军队的目标。此外,它还试图在 2025 年之前填补这一空白。伊朗、土耳其和印度也在尝试利用分布式智能和边缘计算,使这项技术更加成熟和普及。无人机群是空战的未来,而未来就是现在[17]。
在这个世界上,我们观察到,所有个体都希望放大自己的智慧。为了实现这个目标,他们认为并更喜欢一起工作,就像蜂群、鱼群和鸟群一样。这是因为他们相信,他们在群体中比单独行动更聪明。由于具有反馈回路的实际系统的深度相互联系而形成的一种新智能,被称为蜂群智能[18]。简单地说,蜂群是一个由所有比单个更聪明的大脑组成的大脑。蜂群智能是生物启发人工智能的一个不断发展的领域 [19]。
此外,利用蜂群智能,许多脑袋会遵循一个单一的思维。所有个体都遵循明确的规则,不仅彼此互动,还与环境互动。这种自适应策略需要大量的个体。它能够对相似个体的集群进行调度、聚类、优化和路由选择。蜂群智能强调任务在日程表中的相对位置。它遵循求和评估规则进行调度。蜂群中所有相似个体的协作称为聚类。例如,蜂群中的无人机不同于其他群组的无人机。它能够通过优化从所有可行结果中提供最佳和低成本的解决方案。此外,它还具有潜在的路由能力。它模仿蚂蚁的原理,前向蚂蚁收集信息,后向蚂蚁利用这些信息[20]。
蜂群智能的主要方面包括分布、聚合、合作、自组织、涌现和模仿自然行为[21]。分布是蜂群智能的首要特征,因为所有个体都能选择并执行自己的行动。个体通过间接改变环境进行互动的现象被称为 "静能"(stigmergy)。这种现象使它们能够感知周围环境,并切断个体间的互动。另一个重要行为是蜂群中所有无人机的合作[22]。无人机通过合作解决复杂的任务,并利用蜂群智能展示其集体行为。蜂群智能的另一个方面是自组织。这种行为基于正反馈、负反馈、波动放大和不同的社会互动。正反馈是通过分配更多的无人飞行器来放大,从而获得更好的结果。负反馈是为了稳定,避免所有无人飞行器都趋于相似的状态。自组织现象通常观察到两种反馈之间的紧张关系,如复杂网络、市场、蜂窝自动机等。自组织现象的另一个特点是突现性,突现性可以是弱的,也可以是强的。如果个体行为可追溯到自发特性,则称自发为弱自发。如果个体行为无法从涌现属性中追溯,则称涌现为强涌现。此外,无人机群是通过从自然蜂群行为中获取灵感来建模的。一般来说,蜂群行为包括觅食、筑巢和在环境中一起移动。因此,模仿这些自然蜂群行为是蜂群智能的另一个关键方面[23]。
蜂群智能有两个层次。第一个层次是利用正反馈信息素来标记较短的路径,并向其他人发出进入信号。而第二级蜂群智能则使用负信息素来标记不愉快的路线,并且不向其他蜂群发出进入信号。
蜂群一般遵循五个原则。接近原则、质量原则、多样化响应原则、稳定性原则和适应性原则 [24]。根据就近原则,蜂群的基本个体可以很容易地对环境变化做出反应,而环境变化是由它们之间的相互作用引起的。质量原则允许蜂群只对位置安全等质量因素做出反应。多样化响应原则使设计分布的方式能够最大限度地保护所有个体不受环境波动的影响。稳定性原则限制蜂群在环境变化时表现出稳定的行为。适应性原则显示了蜂群的敏感性,因为蜂群的行为会随着环境的变化而变化。最广泛使用的原则是所有个体之间的吸引、避免碰撞和自组织。在遵循吸引原则时,它们会靠得更近,并集中在一个相似的方向上。在遵循避免碰撞原则时,它们会保持一定的距离以避免碰撞。而在自组织规则中,它们会与邻居互动,但不会信任所有邻居。
蜂群智能的机制涉及蜂群中个体的环境、互动和活动。蜂群中的个体之间没有直接的交流[25]。它们是通过环境变化来相互影响的。因此,环境变化可以作为外部记忆。这种模拟工作是通过应用蜂群所有成员的滞后行为来完成的。此外,个体在感知-反应模型和任何随机模型之间的平衡中选择自己的行动。然后,它们根据感知-反应模型做出反应和移动,同时感知和影响当地的环境属性。
原蜂群语言、蜂群语言、Star-Logo 语言和增长点语言是用于蜂群智能的编程语言。原初蜂群语言使用非定常介质抽象来为蜂群编程[26]。这种无定形介质抽象是通过利用一种来自 Proto 连续时空模型的语言和一种在所提供的硬件上估算该模型的运行库而获得的。蜂群智能的另一种语言是一种称为蜂群的分布式编程语言。它的基本概念是移动计算而不是数据。蜂群类似于 Java 字节码解释器的原始版本。现在,它作为 Scala 库得到了应用。Star-Logo 不仅是一种编程语言,也是分散系统的可编程建模环境。利用这种编程语言,可以模拟不同的现实场景,如市场经济、鸟群、交通堵塞等。而要对非定域性计算介质进行编程,生长点语言是必不可少的。这种编程语言能够生成预先指定的复杂模式,如任意电路的互连形式。
蜂群智能有许多重要意义,这里将讨论其中一些。它能使蜂群灵活应对外部挑战和内部干扰。即使某些代理出现故障,它也能以稳健的性能完成任务 [27]。它使蜂群的可扩展性从几个个体到一百万个个体不等。蜂群中没有中央机构或控制。它具有完全的适应性,只能提供自组织解决方案。变化在网络中的传播速度非常快。所有这些都有利于个体集群。
无人机蜂群的基础是在规划的路径上控制所有单个无人机。为了解决蜂群编队中的重建、防碰撞、搜索和跟踪问题,需要开发适当的控制系统框架和控制器 [28]。集中式和分布式是自动化集群的两大控制平台。集中式平台的主要优点是输出质量更高,但可扩展性有限。而分散式平台的主要优点是可扩展性更强,复杂性更低。无人机群网络保证了节点的连接性,简化了应用设计。传感器输入与环境和目标的先验知识是传统模型的基本要素。
各种研究利用多层分布式控制框架克服了这些问题。控制器的设计在无人飞行器的流程设计中至关重要。许多研究建议使用 ANFIS 控制器来减少学习误差和提高控制器的质量。在无人机按照特定路径运动的过程中,机载万向节系统的控制会直接影响目标跟踪性能。一些研究提出了用于万向节系统建模的非线性哈默斯坦块结构,以提高模型预测控制器(MPC)的效率。这也提高了在外部干扰下实时跟踪目标的性能。其他编队控制方法包括领导者-追随者策略、共识理论、虚拟结构法、行为法等。图 1 表示 [29] 中给出的使用领导者-跟随者控制器的分布式制导模型概念。图中第一列给出了领导者引导算法,其他两列则代表跟随者。该模型中的预分配拓扑结构不可更改。
图 1. 使用领导者-追随者控制器的分布式制导模型。
无人机蜂群的路径规划具有相当大的挑战性 [30]。为了解决这个 NP 难问题,许多研究都提出了路径规划算法。这些算法分为经典算法和元启发式算法,如图 2 所示。经典算法需要环境信息,而元启发式算法则需要实时位置和测量的环境要素信息。如图 2 所示,路线图算法(RMA)、A* 算法和人工势场法(APF)就是经典算法的一些例子。如图 2 所示,粒子群优化算法(PSO)、鸽子启发优化算法(PIO)、果蝇优化算法(FOA)和灰狼优化算法(GWO)是元启发式算法的一些例子。
图 2:无人机群的路径规划算法
蜂群路径规划可分为动态路径规划、三维路径规划、区域覆盖路径规划和最优路径规划 [31]。动态路径规划对于无人机群在复杂环境中执行任务至关重要。为确保动态路径规划,许多研究人员建议使用卡尔曼滤波器的碰撞概率、人工势场(APF)与墙跟法(WFM)、轨迹检测、场景理解框架等方法。所有这些方法都能提供更好的方向估计、更好的性能并避免路径冲突。三维路径规划比较复杂,但许多研究都采用元启发式算法来处理。如 GWO 算法实现可行的飞行轨迹,FOA 算法进行局部优化,PIO 优化初始路径。
所有这些算法都能有效地用于无人机群在威胁和紧急情况下的三维路径规划。无人机可在所有兴趣点区域移动的路径规划是区域覆盖路径规划。许多研究建议采用五态马尔可夫链模型、改进的势能博弈论和网络-物理系统。为了实现最佳路径规划,无人机的电池容量、匹配性能和能耗都是需要认真考虑的问题。研究建议采用耦合和分布式规划策略、移动人群感知系统(MCS)和节能数据收集框架来实现最佳路径规划。
对于蜂群实施来说,无人飞行器的结构非常重要 [32]。架构是设计、管理和优化技术的结合。蜂群架构可以基于通信、任务条令、控制等。基于通信的蜂群架构有两种形式。基于 Ad-hoc 网络的架构和基于基础设施的蜂群架构。这两种架构都很有前途,在复杂环境下表现良好。
在设计蜂群架构时,考虑作战任务也很重要。研究认为,如果不考虑任务条令,则是不谨慎的。目前设计蜂群系统的方法包括自下而上的建模方法和自上而下的设计方法。同样,基于控制的架构也有利于蜂群。图 3 给出了 [33] 中提出的基于任务的蜂群可组合性架构(MASC)。该框架侧重于阶段、战术、战术和算法。根据该图,任务解释了整个任务,阶段评估了特定时期,战术是个体在执行任务时按特定顺序使用的方法,游戏描述了蜂群的行为,算法是程序。此外,将分布式行为控制方法与集中式协调联系起来,可以有效地执行蜂群航空任务。航空航天架构可以高效地完成思考任务、执行任务、反应任务和社交任务。此外,物联网(IoT)也支持蜂群架构并促进互动。
蜂群面临的另一个主要挑战是监控和跟踪。在蜂群运行期间,所有无人飞行器的位置、状态和外部环境都会随时间发生变化。此外,蜂群还要适应这些变化并相应地调整自己的行为。为此,持续监控和跟踪至关重要。许多研究人员提出了不同的控制模型、仿真模型和仿真工具,以解决监控和跟踪难题。动态数据驱动应用系统(DDDAS)是一种解决方案,可协助环境和任务的适应[34]。
图 3. MASC 框架。
目标搜索需要考虑有效的方法和控制策略。如果目标知道搜索者的移动性和位置,那么搜索的复杂性就会增加。分布式战略还为自动目标识别(ATR)问题提供了解决方案。许多研究人员建议采用分层探测解决方案、学习型尖端软件和最佳技术来跟踪蜂群中的无人机。图 4 展示了使用改进型豆类优化算法(BOA)的空间分布情况,该算法基于 [35] 中开发的种群进化模型。在该图中,蜂群空间分布为三层,即临时调度层、个体层和父层。BOA 展示了有效的目标搜索能力、新兴的群体智能和分布式协作互动。使用 BOA 的个体分布可表示为
图 4. 单个无人飞行器的空间分布。
通信是无人机蜂群面临的主要挑战之一[36]。在嘈杂复杂的环境下,无人机群需要准确高效的数据通信来执行任务。数据通信取决于适当的结构化网络。图 5 显示,无线 ad-hoc 网络能够提供高效通信,如文献 [37] 所述。图中一个基站与两架无人机相连。这两架无人机又与另一组无人机相连。无人机的内部连接是独立的,但相互连接则依赖于基站。有三种形式的网络,包括 Flying Ad-hoc Network (FANET)、Mobile Adhoc Network (MANET) 和 Vehicle Adhoc Network (VANET)。FANET 网络为少数无人机与 GCS 之间的通信提供了一个网络,而其余无人机则相互通信。FANET 增强了通信范围以及在蜂窝基础设施有限和存在障碍的地区的连通性。MANET 和 VANET 与 FANET 相互连接。因此,除了移动性、更好的连接性、能源限制等少数几个特点外,FANET 具有与其他两种形式相似的特点。MANET 不需要互联网基础设施的任何支持,只需一定数量的移动设备即可组成。而 VANET 由地面车辆组成。
为了快速部署,无人机蜂群充当空中基站,为通信基础设施提供支持。这种无线网络在无人机与物联网(UAV-IoT)、无人机与蜂窝卸载(UAV-CO)、无人机与应急通信(UAV-EC)等之间成功实现。这些都提高了传输效率,减少了响应延迟。此外,高效通信还能解决合作、控制和路径规划等其他挑战。因此,有效通信是无人机群的基础。
图 5. 用于多组无人机的 Ad-hoc 网络
在无人机蜂群协作中,自组织行为对每个无人机都至关重要。在自组织蜂群飞行过程中,所有无人机之间都要进行数据传输和通信,以便做出适当的决策。但在复杂的飞行条件下,无人机之间存在碰撞的风险。因此,关键挑战之一是为安全飞行提供避免碰撞协议[38]。由于无人机的持续移动性、有限的资源和空中链路的不稳定性,这些协议是必要的。蜂群中的所有无人机成员必须通过多跳连接了解彼此的位置。其中大多数都需要全球定位系统(GPS),而在没有 GPS 的情况下,无人机的位置可以通过三个已知位置节点的欧氏距离公式来估算。有几种研究利用鹅群算法、雷诺法则和鸽群算法提供了安全飞行协议。除此之外,许多优化算法也能促进无人机群达成共识。雷诺协议使用了三种成群行为规则。首先是分离规则,即无人机试图远离蜂群中的相邻无人机。其次是对齐规则,无人机试图与相邻无人机的速度保持一致,以避免碰撞。第三种是凝聚规则,即无人机试图靠近相邻的无人机以形成集群,从而分享相同的位置。使用雷诺规则的自组织飞行模型是根据 [39] 的想法给出的。所有这些规则可归纳为以下公式
这里,N 表示蜂群中无人机的数量,sij是两个无人机 i 和 j 在时间 t 中的位置,𝑗 ∈ N𝑖 (𝑡) 与 𝑉 表示具有局部最小值的吸引力-反斥势函数。这些规则为无人机蜂群提供了适当的安全飞行协议,但仍有局限性,应加以改进,以实现更安全的轨迹规划。
无人机蜂群的成功运动规划需要重要的优化算法和相关基础设施或模型。表 1 提供了对应用于无人机群运动规划的技术和模型的全面探讨。本综述将提供对以往和当前研究中使用的无人机群所面临挑战的适当技术的详细和更好的理解。
Kim 等人[40]考虑使用卡尔曼滤波器与协方差交集(CI)算法和平滑法,以及字符串匹配法来观察使用无人机群进行空中监测的情况。研究人员采用隐马尔可夫模型(HMM)进行路径规划,实现了跟踪精度的提高和跟踪误差的降低。Oh 等人[41]提出了一种矢量场制导方法来跟踪移动物体。该研究还为此引入了一种两阶段方法:带有费舍尔信息矩阵(FIM)的 K-means 聚类和合作对峙跟踪法。结果表明,对峙群跟踪成功,允许局部重新规划,并将所有感兴趣的目标保持在传感器的视场(FOV)范围内。Sampedro 等人[42]提出了无人机群的全局任务规划器(GMP)和代理任务规划器(AMP)。他们的建议提供了一个完整的操作性强、稳健、可扩展且灵活的框架,可自动执行许多高级任务。
Yang等人[43]分析了11种用于无人机群的群智能(SI)算法。该研究解释了这些算法的特点和原理,并分析了不同的算法组合和多架无人机的任务分配。Hocraffer 和 Nam [44] 对与人的因素有关的人-系统界面进行了元分析。该分析为开始研究提供了基础,增强了态势感知(SA),并取得了高效成果。Lee 和 Kim [45] 利用线性和非线性控制器研究了多旋翼动态模型,用于多无人机的轨迹跟踪控制。研究结果表明,线性控制器易于应用、鲁棒性好并能提供最优性,一些非线性控制器也易于应用、直观并能提供全局稳定性。Yang 等人[46] 将正交多群合作粒子群优化算法与知识库模型(MCPSO-K)联系起来。该技术收敛速度更快,避免了过早收敛,降低了计算成本,并确保了粒子的均匀分布。
表 1. 应用各种技术和模型进行无人机群运动规划的综合综述。
Guastella 等人[47] 将运行空间视为三维网格,并将修改后的 A* 算法用于多无人机的路径规划。研究人员发现,该算法减少了计算时间,改善了规划轨迹,并能自动重新分配目标。Duan 等人[48]通过将记忆算法(MA)与可变邻域下降算法(VND)相结合,给出了一种新颖的混合元启发式方法,用于多无人机的路径规划。结果优化了路径,给出了高效的结果,并高效地解决了容量车辆路由问题(CVRP),甚至是非确定性多项式时间难(NP-hard)问题。Koohifar 等人[49]将带有递归贝叶斯估计器的扩展卡尔曼滤波器(EKF)和克拉默-拉奥下界(CRLB)用于无人机群的路径规划。分析表明,所提出的方法成功地规划了未来的跟踪轨迹。此外,CRLB 的性能也优于其他方法并有所提高。
Shao 等人[50] 将鲁棒性误差符号积分(RISE)反馈控制器与扩展状态观测器(ESO)相结合,并使用了残余估计误差。这一策略解决了整块干扰问题,实现了跟踪精度、有效性和优越性。Campion 等人[51]研究了用于无人机群的蜂窝移动基础设施、机器学习和分布式控制算法、机器-机器(M2M)通信和第五代(5G)网络。该研究表明,所应用的技术缓解了以往研究的限制因素,提高了无人机群的效率和商业用途。Shao 等人[52]提出了基于扩展状态观测器(ESO)的鲁棒控制器,并采用了动态表面控制(DSC)设计和基于扰动观测器(DOB)的控制技术。该建议在提高抗干扰能力的同时,在跟踪方面也显示出了有效和卓越的效果。Mammarella 等人[53] 将基于样本的随机模型预测控制(SMPC)和制导算法应用于无人机群的跟踪控制。所应用的算法有效地处理了噪声和参数不确定性,保证了实时跟踪和良好的稳定性能。
Huang 和 Fie [54]介绍了粒子群优化(GBPSO)的全局最佳路径竞争法。该策略提高了搜索能力,避免了局部最小值,并提供了质量和速度更优的可行最优路径。Ghazzai 等人[55]提出了带宽饥渴和延迟容忍的应用,并利用典型的微波(μ-Wave)和高速率毫米波波段(mm-Wave)进行轨迹优化。此外,研究还采用了分层迭代方法。双波段增加了多无人机的停靠位置,并最大限度地减少了服务时间。Liu 等人[56] 利用快速模型预测控制方法和扰动估计方法实现了分布式编队控制算法。该策略适用于任意的、随时间变化的规定形状编队,并在规定的二维(2D)或三维形状上实现了平衡配置。
Xuan-Mung 等人[57] 使用了鲁棒饱和跟踪反步态控制器 (RAS-BSC) 和 Lyapunov 理论。研究人员发现,所提出的机制提供了闭环系统的稳定性,并限制了跟踪误差和扩展状态观测器(ESO)误差。此外,它在不确定性条件下具有快速和鲁棒性,性能优越。Fabra 等人[58]为无人机群提出了一种基于任务的无人机群协调协议(MUSCOP)。该研究在多种条件下实现了高度的蜂群凝聚力,并在位置偏移误差较小的情况下实现了最少的同步延迟。Causa 等人[59]采用多全球导航卫星系统(multi-GNSS)星座方法和边缘成本估算方法对多个无人机进行路径规划。这些方法减少了计算时间和整个任务时间,为离线和近实时场景下的任务分配问题和规划提供了快速解决方案。
Brown 和 Anderson [60] 应用昆式多项式轨迹生成方法、多目标粒子群优化(OMOPSO)和区域搜索雷达模型来优化无人机群的轨迹。这种组合可获得最大数量的较佳轨迹,减少重访时间和燃料消耗,并提高探测概率。Mehiar 等人[61] 为无人机群开发了量子机器人达尔文粒子群优化算法(QRDPSO)。该优化算法提供了更稳定、高效和快速的最优解,避开了障碍物,克服了通信限制。此外,该算法在搜救行动中达到了全局最优。Wang 等人[62]为多架无人机提出了领导者跟随模型、Routh-Hurwitz 准则、共识协议和模型预测控制器。所应用的方法预测了领导者状态的变化,减少了达成共识的时间,并保持了编队的形状。
Altan [63] 针对无人机群提出了元启发式优化算法、Harris Hawks 优化(HHO)和粒子群优化(PSO)。他建议的方法在多几何路径上表现最佳,并能快速确定控制器参数。HHO 性能更优,克服了稳定问题,并给出了最少的沉降、峰值时间和过冲。Wang 等人[64]开发了神经关系推理(NRI)模型以及无人机群和弹簧颗粒之间的映射表。所开发方法的结果能够提高位置检测性能。此外,它还将三维空间中的运动投射到二维平面上,设计的算法预测了运动轨迹,并给出了较高的精度。Rubí 等人[65]针对无人机群采用了四种 PF 算法,即反步法(BS)和反馈线性化(FL)算法、非线性制导法(NLGL)算法和胡萝卜追逐(CC)几何算法。比较结果表明,路径跟踪 BS 算法在偏航误差和路径距离方面表现更优,而 CC 算法需要的数据更少,并且证明易于适用于任何路径类型。Selma 等人[66]使用混合控制器、自适应神经模糊推理系统(ANFIS)和 PSO 算法对多个无人机进行轨迹跟踪。结果表明,PSO 算法能自动调整 ANFIS 参数,通过提高控制器质量最大限度地减小跟踪误差,并且性能优越。
Xuan-Mung 等人[57] 使用了鲁棒饱和跟踪反步态控制器 (RAS-BSC) 和 Lyapunov 理论。研究人员发现,所提出的机制提供了闭环系统的稳定性,并限制了跟踪误差和扩展状态观测器(ESO)误差。此外,它在不确定性条件下具有快速和鲁棒性,性能优越。Fabra 等人[58]为无人机群提出了一种基于任务的无人机群协调协议(MUSCOP)。该研究在多种条件下实现了高度的蜂群凝聚力,并在位置偏移误差较小的情况下实现了最少的同步延迟。Causa 等人[59]采用多全球导航卫星系统(multi-GNSS)星座方法和边缘成本估算方法对多个无人机进行路径规划。这些方法减少了计算时间和整个任务时间,为离线和近实时场景下的任务分配问题和规划提供了快速解决方案。
Brown 和 Anderson [60] 应用昆式多项式轨迹生成方法、多目标粒子群优化(OMOPSO)和区域搜索雷达模型来优化无人机群的轨迹。这种组合可获得最大数量的较佳轨迹,减少重访时间和燃料消耗,并提高探测概率。Mehiar 等人[61] 为无人机群开发了量子机器人达尔文粒子群优化算法(QRDPSO)。该优化算法提供了更稳定、高效和快速的最优解,避开了障碍物,克服了通信限制。此外,该算法在搜救行动中达到了全局最优。Wang 等人[62]为多架无人机提出了领导者跟随模型、Routh-Hurwitz 准则、共识协议和模型预测控制器。所应用的方法预测了领导者状态的变化,减少了达成共识的时间,并保持了编队的形状。
Altan [63] 针对无人机群提出了元启发式优化算法、Harris Hawks 优化(HHO)和粒子群优化(PSO)。他建议的方法在多几何路径上表现最佳,并能快速确定控制器参数。HHO 性能更优,克服了稳定问题,并给出了最少的沉降、峰值时间和过冲。Wang 等人[64]开发了神经关系推理(NRI)模型以及无人机群和弹簧颗粒之间的映射表。所开发方法的结果能够提高位置检测性能。此外,它还将三维空间中的运动投射到二维平面上,设计的算法预测了运动轨迹,并给出了较高的精度。Rubí 等人[65]针对无人机群采用了四种 PF 算法,即反步法(BS)和反馈线性化(FL)算法、非线性制导法(NLGL)算法和胡萝卜追逐(CC)几何算法。比较结果表明,路径跟踪 BS 算法在偏航误差和路径距离方面表现更优,而 CC 算法需要的数据更少,并且证明易于适用于任何路径类型。Selma 等人[66]使用混合控制器、自适应神经模糊推理系统(ANFIS)和 PSO 算法对多个无人机进行轨迹跟踪。结果表明,PSO 算法能自动调整 ANFIS 参数,通过提高控制器质量最大限度地减小跟踪误差,并且性能优越。
Liu 等人[67]提出了一种动力学控制器、基于分布式β角测试(BAT)的拓扑控制算法和飞行 ad-hoc 网络(FANET)用于无人机植群。这种机制可以进行邻居选择,并大大减少通信开销。Madridano 等人[68]应用三维概率路线图(PRM)算法、机器人操作系统(ROS)架构、Mav-Link 协议、Pixhawk 自动驾驶仪和匈牙利方法进行三维轨迹规划。这种组合使用最短的时间生成了最优解,并减少了计算时间和总行程距离。Zhou 等人[69]分析了采用不同 SI 算法的层次控制框架。该分析对主要技术的发展趋势、未来研究和局限性进行了分类。Wubben 等人[70] 采用 MUSCOP 协议和仿真工具 Ardu-Sim,为多个无人机提供恢复能力。该协议有效地处理了失去领导者和后备领导者的问题,并引入了可忽略的飞行时间延迟。
Selma 等人[71]将基于自适应网络的模糊推理系统(ANFIS)和改进的蚁群优化(IACO)用于控制轨迹跟踪任务。事实证明,该策略性能优越,大大降低了均方误差(MSE)和均方根误差(RMSE),使无人机能在最短时间内达到预期轨迹。Altan 和 Hacıoğlu [72] 使用基于牛顿-欧拉法的三轴万向节系统、哈默斯坦模型和模型预测控制(MPC)算法进行目标跟踪。这种机制能稳定地跟踪目标,即使在外部干扰下也表现出鲁棒性。Sanalitro 等人[73]提出了一种飞鹤系统,该系统采用基于优化的调整方法和内环或外环方法。该系统处理了旋转和平移轨迹带来的参数不确定性,保证了稳定性,并提高了 H∞ 的性能。Chen 和 Rho [74] 根据最终用户(EUs)的要求,利用自组织图(SOMs)引入了 SI 技术。该技术可实现无人机阵列的自组织,并将无人机重新配置为枢纽或终端。此外,它还能有效地共享信息。
Qing 等人[75]将改进的蚁群优化(ACO)、最小捕捉算法和归零控制障碍函数(ZCBF)应用于多蜂群。结果表明,所提出的算法为实时决策提供了最佳结果。此外,它还有效地提供了无碰撞和无规避的轨迹。Miao 等人[76]提出了一种多跳移动中继系统、最小保密能效(MSEE)最大化传输方案,并利用块坐标下降法(BCD)、连续凸近似(SCA)技术和 Dinkelbach 方法为多架无人机生成了一种算法。结果保证了收敛性,并在能效和保密率方面有了重大改进。Shao 等人[77] 将无人机群的多分段策略与改进的粒子群优化-高斯伪谱法(IPSO-GPM)相结合。研究结果表明,所应用的机制提高了求解的最优性,生成了高质量的轨迹,并耗费了最少的运行时间。
Gu 等人[78]建议采用网络集成轨迹聚类(NIT)来确定无人机群的子群。这种聚类方法反应迅速,准确性高,在复杂环境中证明是有效、容错和稳定的。Ling 等人[79]提出了一种规划算法;针对无人机群的开箱即用轨迹绘制和多轮蒙特卡罗模拟。该算法可在噪声和不稳定通信条件下工作,并被证明适用于合作蜂群应用。Yao 等人[80] 为无人机群采用了群智能和优化算法。结果表明,所提出的无人机群控制算法有效提高了无人机群的自主性和巡检效率,并最大限度地降低了巡检成本。Xia 等人[81]提出了针对无人机群的多代理强化学习(MARL)与多无人机软行为批判(MUSAC)。所建议的机制允许做出智能飞行决策,降低了功耗,提高了跟踪成功率,并为探测覆盖提供了高性能。
Nnamani 等人[82] 将网格结构方法应用于无人机群。研究结果表明,该方法提高了通信保密率和物理层安全性,并评估了窃听者未知位置的最佳半径。Xu 等人[83] 为无人机群设计了通信感知集中式和分散式控制器。他们提出的控制器实现了较高的航点跟踪精度。在两种控制器之间,分散控制器的性能更优,并能保持稳定。Sharma 等人[84]研究了用于无人机群路径规划的多种 SI 算法。分析表明,PSO 的计算复杂度较低,ACO 具有良好的可扩展性,而 Firefly 则利用单一算子搜索解决方案。Han 等人[85]采用大规模多输入多输出(MIMO)和基于中心极限定理(CLT)的反向散射通信系统来分析性能和优化轨迹。这种组合在检测寄生装置和分离寄生信号方面表现出色。此外,它还降低了能耗并优化了轨迹规划。
Zhou 等人[86]使用了多目标跟踪(MTT)系统、基于智能无人机蜂群的协同跟踪算法和多目标 Lyapunov 优化模型。结果表明,在提高轨迹预测精度的同时,执行复杂度和能耗也有所降低。Brown 和 Raj [87] 应用反应式跟踪和带有预测性预定位的反应式跟踪来研究初始蜂群形成的影响。跟踪的性能更优越。
Sastre 等人[88]应用无碰撞蜂群起飞启发式(CSTH)的两种改进算法和基于欧氏距离的 CSTH(ED-CSTH)算法来分析轨迹和批次生成。本研究还使用了 ArduSim 模拟器和垂直起降(VTOL)技术,以及用于无人机群的库恩-蒙克雷斯算法(KMA)。所提出的方法优化了计算时间,确保了安全距离,并缩短了起飞所需的时间。而 KMA 被证明是现实条件下最合理的选择。Bansal 等人[89] 针对无人机群提出了一种可扩展的身份验证-证明协议 SHOTS,该协议采用了物理不可克隆函数(PUF)、Mao Boyd 逻辑方法和 Christofides 算法。作者为无人机群提出了一种轻量级认证和证明机制,利用物理不可克隆函数(PUF)以轻量级方式确保物理安全和必要的信任。
多架无人机的重要性正在扩大其在许多领域的合作行动和应用。无人机群被部署在不确定、室内、室外、交通等多种环境中。研究结果表明,决策、控制、路径规划、通信、监控、跟踪、瞄准、碰撞和避障等诸多挑战可能会阻碍无人机群的运动规划。调查显示,针对不同的挑战,所有研究都采用了不同的方法。如任务规划架构提供了一个完整的操作性强、稳健、可扩展和灵活的框架。许多控制器,无论是线性控制器还是非线性控制器,都被证明易于应用、直观、稳健,并能提供最优性和全局稳定性。改进的模型预测控制器可确保对蜂群进行实时监控和跟踪。此外,它们还提高了跟踪的准确性、有效性和优越性。机器学习、5G 网络和其他技术缓解了以往研究的限制因素,提高了蜂群的效率和商业用途。在本章介绍的所有这些不断发展的技术中,蜂群智能技术被认为是可靠、高效地部署蜂群的合适解决方案。此外,它还能实现自我组织、重新配置、控制、有效共享信息、降低检测成本和提高自主性。
除了上文提到的蜂群和技术发展的诸多优势外,还存在许多重要而有趣的限制,可能会阻碍蜂群性能的发挥。其中,大规模蜂群的制造成本仍然很高。现有的负载体积庞大、价格昂贵,大多不适合追求高性能。因此,轻型、低成本的载荷和平台对蜂群的形成至关重要。电池容量对完成空中任务意义重大。持久耐用的电池对于连续执行任务至关重要。然而,电池容量可以通过增加无人机重量来提高。而重量的增加也会要求能量消耗的增加。为了提供合适的电池解决方案,必须有这样的系统,它能方便、快速地用补充电池替换耗尽的电池,并能为其他电池充电。另一个限制因素是隐私保护协议。这对于在敏感地点安全部署蜂群至关重要。否则,可能会导致国家安全问题。
介绍了无人机蜂群技术的最新发展,显示了其在不同用途,特别是军事领域的应用前景。本章概述了蜂群智能,解释了其各个方面、层次、机制、遵循的原则和意义。然后,讨论了蜂群面临的挑战和不同研究人员给出的方法。此外,为了分析蜂群的运动规划,我们研究并汇编了多种研究。所有这些研究论文都提供了不同的方法来应对无人机群所面临的挑战。其中许多方法都基于蜂群智能等趋势技术,并优于传统策略。所有研究结果都表明了使用蜂群而非单个无人机的重要性。最后,我们讨论了本文的主要发现和一些局限性,并对未来工作提出了一些建议。
尽管蜂群智能正处于新兴阶段,但预计在未来几年,这项基于人工智能的技术将取得更大进展。未来的研究可以为蜂群设计更智能的控制器、最佳路径规划算法、稳健的架构、监控、目标搜索策略、高效的通信结构和安全的飞行协议。大规模蜂群的飞行问题和编队维护仍需要未来的探索。在建模过程中,必须考虑无人机的大小和负载,以提高蜂群控制的鲁棒性。在未来的整体系统中,将为综合任务场景提供解决方案。无人机群在曲线上的路径规划需要更高效的算法。此外,能够在任何复杂环境中快速给出优化路径的算法也是未来的工作重点。有必要开发低成本传感器,以解决集体监测和目标跟踪问题,同时还能提供高精度和抗噪声能力。还需要开展更多研究,通过升级频段、合作对抗和信号失真监测,实现无人机群之间通信网络的标准化。为了提高在威胁环境中的反应速度,重点将放在设计动态传感和强大的安全飞行协议上。对于能满足下一代网络的情报辅助计划来说,各种考虑因素至关重要。例如,第六代(6G)网络应被用于蜂群的无线通信服务。这将极大地提高编队、任务协调、人机互动等方面的重要性。在此基础上,应改进系统,使其能够理解和适应环境,并对用户反馈做出快速反应。这可以进一步提高系统的灵活性以及网络的可靠性和性能。