当今的威胁形势瞬息万变,能否在充分了解情况的基础上做出以数据为导向的决策,关系到任务的成败。然而,传统的分析方法往往无法应对现代国防和情报行动所面临的大量复杂数据。

这正是知识图谱驱动的先进人工智能(AI)提供变革性解决方案的地方。通过利用大型语言模型和知识图谱的协同作用,军事领导人和分析人员可以获得基于背景的洞察力,从而领先于新出现的威胁,并自信地做出关键决策。

任务成功的背景要求

国防领域的有效决策需要对行动背景有细致入微的了解,即形成现实世界场景的实体、关系和特定领域知识的错综复杂的网络。在人命关天、容错率极低的情况下,这种背景意识至关重要。

独立的人工智能模型虽然功能强大,但缺乏可靠支持关键任务应用所需的上下文基础。这些模型通常是在广泛的互联网数据基础上训练出来的,容易产生幻觉、与事实不符,而且对国防部队面临的复杂作战现实缺乏敏感性。

知识图谱为人工智能提供了一个专为国防领域量身定制的丰富、结构化的知识库,从而弥补了这一关键差距。这些图对现实世界的概念、实体(人员、组织、地点等)及其相互关联的关系进行建模,捕捉可靠的决策支持所需的深层背景。

知识图谱与大型语言模型的协同作用

通过将大型语言模型(LLM)与知识图谱相结合,我们可以释放出强大的协同效应,将 LLM 的生成能力与图谱中编码的结构化上下文知识相结合。这种混合方法通常被称为 "情景(上下文)人工智能",它允许 LLM 生成不仅流畅连贯,而且基于相关的、经过验证的事实和特定领域知识的响应。

例如,负责分析潜在威胁场景的情境人工智能系统可以利用知识图谱来了解相关行为体、其动机、历史模式和地缘政治背景。有了这些丰富的背景知识,LLM 就能生成细致入微的评估、可行的建议和应急计划,以应对错综复杂的局势。

在国防和情报领域的应用

情境人工智能在国防和情报领域的应用意义深远:

  • 威胁评估与分析: 情境人工智能可以从多个来源(情报报告、开源信息、传感器数据等)摄取和合成大量数据,以提供深入的威胁评估、识别潜在风险并提出缓解策略。
  • 任务规划与执行: 通过对作战环境、资源和目标进行建模,情境人工智能可以生成优化的行动方案、识别潜在风险并在执行过程中提供实时决策支持,从而为任务规划提供支持。
  • 情报分析: 情境式人工智能可以在情报领域的大背景下,通过连接不同的信息碎片,发现隐藏的模式、浮现关键的洞察力并提出假设。
  • 训练和模拟:知识图谱可以捕捉和编码经验丰富人员的深层机构知识和最佳实践,从而使情境人工智能能够生成逼真的培训场景,并支持用于任务演练的沉浸式模拟。

确保信任和问责

虽然情景人工智能潜力巨大,但将其部署到关键任务防御应用中需要一个强大的信任和问责框架。知识图谱通过编码事实性的、可验证的知识并实现透明的推理过程,为此奠定了重要的基础。

此外,人工智能的道德原则,如公平性、可解释性和人类监督,必须嵌入到这些系统的开发和部署中。这将确保情境人工智能能够增强人类决策者的能力,同时遵守最高的问责和负责任使用标准。

迎接国防创新的未来

随着威胁的演变和现代战争复杂性的加剧,知识图谱和情景人工智能的整合成为国防部门和特种作战部队的战略要务。通过利用这一变革性技术的力量,可以获得决定性的优势,在日益动荡的世界中保持任务准备状态并保障国家安全。

注:任务准备(战备):指军队、组织或个人为完成任务所做的准备工作,包括物资、装备、人员、训练等方面的准备。

成为VIP会员查看完整内容
16

5月24日,由阿里研究院牵头,阿里巴巴集团、数字中国研究院(福建)、阿里云智能集团联合编写的《大模型训练数据白皮书》在第七届数字中国峰会期间发布。

自《中共中央国务院关于构建数据基础制度更好发挥数据要素作用的意见》发布以来,我国数据要素建设不断深入,在国家数据局等17部门联合印发的《“数据要素×”三年行动计划(2024—2026年)》进一步明确“建设高质量语料库和基础科学数据集,支持开展人工智能大模型开发和训练”。通过数据要素建设推动人工智能大模型发展,可以有效解决我国人工智能,特别是大模型研发所面临的数据瓶颈,进一步发挥大模型对于世界知识数据的汇集和处理能力,创造更大的生产力,助力我国从数据经济走向智能经济新发展模式。

大模型是数据要素价值释放的最短路径,通过理解其训练所使用的数据类型,可以更好理解大模型发挥价值的内在机制。而促进高质量训练数据的建设,需要综合利用政府、企业、社会等各方资源推动数据的开放共享和开发利用;需要构建共享、共创、共赢的合作生态和更开放的环境,不囿于版权等制度所存在的争议;需要给技术的发展预留空间,并相信随着技术的日益成熟,相应的商业模式和制度设计也都会逐步完善。作为支撑大模型发展的三大基石之一,我们希望中国的大模型发展,可以在数据方向上有所突破,助力我国在国际竞争中取得优势地位。

本白皮书首先分析了大模型训练所需的数据类型,并从产业实践出发破解了对训练数据的常见迷思和误解。在上述基础上,本书进而对训练数据的质量和规模进行讨论,发现高质量数据应在实践中检验效果,而难以用前置的客观标准衡量。同时,本书探讨了合成数据作为解决高质量训练数据供给不足的新方案,及其在大模型训练中的潜力。在训练数据合规方面,针对模型训练的特点,本书提出顺应模型发展的数据治理思路。最后,本书论述构建政府和社会力量协同的数据生态对满足大模型训练数据需求的重要性,并以阿里巴巴的实践为案例做说明和阐述。

以下为白皮书内容目录与精彩节选:

01 训练数据对大模型发展的重要性 算法、算力与数据,是支撑大模型发展的三大基石。更高质量、更丰富的数据是以GPT为例的生成式人工智能大模型成功的驱动力。

成为VIP会员查看完整内容
18

微调大规模预训练模型本质上是一项资源密集型任务。虽然它可以增强模型的能力,但也会产生大量的计算成本,给下游任务的实际应用带来挑战。现有的参数高效微调(PEFT)方法,如低秩适应(LoRA),依赖于一种旁路框架,这种框架忽略了不同权重矩阵对参数预算的差异性要求,这可能导致次优的微调结果。为了解决这个问题,我们引入了动态低秩适应(DoRA)方法。

DoRA将高秩的LoRA层分解为结构化的单秩组件,从而允许在训练过程中根据特定任务的重要性动态修剪参数预算,充分利用有限的参数预算。实验结果表明,与LoRA和全模型微调相比,DoRA可以实现竞争性的性能,并在相同的存储参数预算下优于多种强基线方法。 我们的代码可在以下网址获取: https://github.com/Yulongmao1/DoRA/ https://www.zhuanzhi.ai/paper/41de7e12e74f70868fe0259fe6c47cf8

成为VIP会员查看完整内容
11

微调大规模预训练模型本质上是一项资源密集型任务。虽然它可以增强模型的能力,但也会产生大量的计算成本,给下游任务的实际应用带来挑战。现有的参数高效微调(PEFT)方法,如低秩适应(LoRA),依赖于一种旁路框架,这种框架忽略了不同权重矩阵对参数预算的差异性要求,这可能导致次优的微调结果。为了解决这个问题,我们引入了动态低秩适应(DoRA)方法。

DoRA将高秩的LoRA层分解为结构化的单秩组件,从而允许在训练过程中根据特定任务的重要性动态修剪参数预算,充分利用有限的参数预算。实验结果表明,与LoRA和全模型微调相比,DoRA可以实现竞争性的性能,并在相同的存储参数预算下优于多种强基线方法。 我们的代码可在以下网址获取: https://github.com/Yulongmao1/DoRA/ https://www.zhuanzhi.ai/paper/41de7e12e74f70868fe0259fe6c47cf8

成为VIP会员查看完整内容
3

人类通过多种感官,如视觉、嗅觉、听觉和触觉来感知世界。同样,多模态大型语言模型(MLLMs)通过整合和处理包括文本、视觉、音频、视频和3D环境在内的多种模态数据,增强了传统大型语言模型的能力。数据在这些模型的发展和优化中起到了关键作用。在这篇综述中,我们从数据中心视角全面回顾了MLLMs的相关文献。具体而言,我们探讨了在MLLMs预训练和适应阶段准备多模态数据的方法。此外,我们还分析了数据集的评估方法,并回顾了评估MLLMs的基准测试。我们的综述还概述了未来潜在的研究方向。本研究旨在为研究人员提供关于MLLMs数据驱动方面的详细理解,促进该领域的进一步探索和创新。

近年来,我们见证了大型语言模型(LLMs)和多模态大型语言模型(MLLMs)的快速发展[280, 324]。诸如GPT-4 [208]、Flamingo [4]、BLIP2 [151]和X-InstructBLIP [212]等MLLMs整合了多模态信息,展示了令人印象深刻的理解和生成能力。这些模型在传统的多模态任务中取得了竞争性表现,如视觉识别[320]、视频理解[258, 289]、语音识别[200]和3D理解[89, 100]。此外,它们卓越的语言理解能力使其在文本丰富的任务中表现出色,如问答[104]、多轮对话和逻辑推理[156, 296]。

大多数现有的MLLMs主要关注修改模型架构以探索多模态信息的使用[121, 178, 246, 286, 287, 304]。尽管模型的有效性至关重要,数据也显著影响了MLLMs的成功。例如,Hoffmann等人[99]展示了为了扩展模型,有必要增加训练数据的规模。除了数据数量外,数据质量同样重要。先前的研究[251]表明,精心策划的数据集可以使较小的模型达到与较大模型相当的性能。然而,关于MLLMs数据策划和利用的综合研究仍然缺乏。因此,本研究旨在从数据中心视角提供对MLLMs的全面理解。

与优先考虑架构增强而依赖固定数据集的模型中心方法相比,数据中心视角强调对数据集的迭代改进以提高性能。在数据中心MLLMs的范围内,我们关注利用数据模态的异质性、增强数据结构、增加数据数量和提高数据质量以改进MLLMs [316]。我们的讨论从不同阶段的MLLMs数据中心视角回答了三个关键问题:

  • Q1:如何收集、选择和管理MLLMs的数据?大量的数据需求和多模态数据的异质性在收集、选择和有效管理模型训练数据方面带来了挑战。MLLMs的不同训练阶段也导致了不同的数据类型需求。

  • Q2:数据如何影响MLLMs的性能?理解数据特性与MLLMs性能之间的关系对于优化数据集和增强模型能力至关重要。

  • Q3:如何评估MLLMs的数据?有必要开发全面的评估基准,以评估MLLMs在各种任务中的性能和鲁棒性。 本综述与现有综述的区别。在模型中心视角下,已有若干综述聚焦于LLMs [93, 203, 324]和MLLMs [280, 318],但缺乏对数据中心方面的深入分析。最近,一些综述开始关注LLMs的数据准备,如数据管理方法[274]、数据选择方法[5]和LLM数据集的综合综述[174]。然而,这些综述主要集中于仅文本LLMs的数据管理和选择方法,没有对MLLMs的数据处理管道进行彻底分析。尽管Zhang等人[318]总结了MLLMs的数据集,但未能提供对这些数据集的全面分析。与我们最相关的工作是数据中心人工智能(DCAI)[109, 111, 220, 279, 316],它也关注AI研究的数据中心视角,但未具体分析LLMs和MLLMs。

随着MLLMs的快速增长以及数据在这个大型模型时代越来越重要的角色,我们认为提供一个全面的MLLMs数据中心方法综述是至关重要的。本综述旨在从数据中心视角全面回顾MLLMs的进展文献,并讨论该领域的开放问题或未来方向。

贡献。在这篇综述中,我们从数据中心视角回顾了MLLMs的进展文献。我们为研究人员和开发者提供了对MLLMs数据方面最新发展的总体和全面的理解。本综述的主要贡献总结如下:

  • 新的数据中心视角。我们从数据中心视角提供了对MLLMs的全面综述,考虑了文本、图像、视频和音频等模态。
  • 数据准备和管理管道。我们总结了在预训练和适应阶段MLLMs的数据准备和管理管道。
  • 数据评估基准。我们概述了常用的从数据中心视角出发的评估基准。
  • 开放问题和未来方向。我们讨论了当前数据中心LLMs研究中的开放问题,并提出了若干未来研究方向。

本文的其余部分安排如下:第2节介绍LLMs和MLLMs的预备知识,并讨论从数据中心视角分析它们的动机。第3至第5节总结了MLLMs训练数据的收集、处理和选择的主要阶段。第6节总结了MLLMs的评估方法和现有的评估数据集。第7节讨论了开放问题并强调了该领域的若干未来研究方向。最后,我们在第8节对本综述进行了总结。我们的Github仓库可以在https://github.com/beccabai/Data-centric_multimodal_LLM找到。

成为VIP会员查看完整内容
13

2025 年及以后新出现的威胁环境对战区前沿作战阵地构成挑战。可生存的远程精确武器在空中、太空和网络领域的出现,使战区空中作战中心(AOC)等以往偏远、单一的指挥与控制(C2)场所面临风险。多域指挥与控制(MDC2)概念中的多域作战中心(MDOC)提供了可提高复原力的结构变化,但计划要到 2035 年才实施。新兴的商用虚拟现实(VR)系统可以将许多 AOC 功能分散,并加快向 MDOC 结构的过渡,从而提高抵御 2025 年威胁的能力。分布式协作虚拟现实技术、利用新兴商业能力以及支持性技术被确定下来,并针对每种产品类型进行了讨论。本文指出了支持战术 C2 的附带技术,但未涉及。本文强调了培训和采购方面的注意事项。建议包括在 AOC 框架中进行技术演示,将分布式 VR 纳入 MDC2 试验活动,并继续与游戏开发行业互动。

通过虚拟现实技术加速向多域作战中心(MDOC)过渡

  • 目前的限制

如前所述,MDC2 的作战概念有三个限制。首先,当前的态势感知能力无法同时提供对多个领域的了解。其次,当前的规划工具不支持在多个作战领域进行有效协作。最后,当前的指挥与控制概念不支持敏捷性,因为它们无法同步在空中、太空和网络空间中或通过空中、太空和网络空间产生影响。如 AFFOC 所述,MDOC 是将这些功能纳入未来指挥与控制中心结构的一种尝试。在 MDOC 的开发过程中,虚拟现实技术可用于缓解这些限制,并使 AOC 的能力更接近 MDOC 所需的能力。

  • 建立多域理解

第一个限制是无法提供多域理解,这可以看作是一个可视化问题。要了解空中、太空和网络空间的活动,必须能够以有意义的可视化方式获取并关联这些领域的相关信息。可视化有几种分类方法。有些更适合抽象关系的科学可视化。另一些则更适合更具体的关系,如空间、物理或连接关系。有意义的可视化将取决于观察信息的人所扮演的角色。有几种技术可以显示多领域数据,并将数据与上下文联系起来。地理信息系统(GIS)可以显示明显的自然地理信息,并叠加有关犯罪、数据流、基础设施、天气和其他各种信息。地理信息系统的背景显然是空间;所有数据都是在这一背景下组织的。数据的其他特征由数据点本身的特征来表示。特征包括数据点的颜色、形状、大小、闪烁/稳定、强度、相关声音和突出显示。Google EarthVR 就是 VR GIS 的一个例子。网络背景也可能有用。在网络可视化中,物理对象和虚拟对象是基于它们之间的互动而连接在一起的,而不一定是它们之间的物理距离。在这样的空间中,距离可能取决于互动的强度。这种方法可能有助于确定网络空间活动的方向,以最大限度地提高在空间或空中领域的效果。或者,根据空间领域威胁的预计最近接近点来确定空间领域威胁的优先次序,这种方法也可能很有用。在虚拟现实中,第三空间维度的加入允许定向声音提示、基于范围的声音提示、信息亭效果(随着数据对象代表图标的旋转,呈现的信息也会发生变化)、方面信息以及考虑其他视角的能力。在虚拟空间中理解这些关系可以为规划者或操作者提供更多信息。使用通用的融合数据库,可以在多个用户定义的环境中查看通用的多领域运行画面。使用共享的虚拟现实环境,可以让多个观察者从不同的视角欣赏同一战场环境。

合适的环境是什么样的?这取决于操作员在 C2 架构中的角色。战略部的设计团队需要看到空中、太空和网络空间领域的战略特征,以及它们之间的关系。这幅图必须为确定空中、太空和网络空间的战略节点和依赖关系提供背景,以便战役规划人员能够确定这些领域的决定点,并设计行动路线(LOO),通过最合适的领域与这些决定点交战。同样,重心(COG)分析也应包含多领域信息。作战计划处在考虑如何实施 SRD 提出的作战概念时,可以使用相同类型的可视化方法,但保真度更高。作战行动司需要从二维空中图像过渡到显示影响当前行动的空中、太空和网络空间活动的环境。

这将包括友方和敌方的空中、太空和网络空间行动,并以有意义的方式呈现。画面必须尽可能接近实时,以便灵活分配任务,动态控制各地域和全球作战司令部的所有可用资产。情报、监视和侦察司需要同时了解网络空间、太空、空中和其他领域的友军和敌军行动。在情报、监视和侦察司内部,可能同时存在多个环境,当特定重点领域发生的事件影响到另一个分析人员的重点领域时,分析人员会相互提示。例如,某个节点的网络使用量增加可能与卫星轨道的变化相对应,而卫星轨道的变化也可能与已知反卫星设施的活动相关。这可能不会在基于物理位置的上下文中被标记出来,但会在基于网络活动的上下文中显示出来。每个上下文都将包含来自所有三个领域的数据,但在一个上下文中,这种关系的重要性可能比在另一个上下文中更明显。

实现多域作战空间感知的一种可能性是建立虚拟融合单元。这将包括地理 AOC 与空间和网络全球作战中心之间的分布式协作。每个实体都将向融合小组提供自己的作战画面。虚拟参与者将能够检查所有三张图片,并合作开发作战空间感知。如图 5 所示。每个地点都有一个 CAVE,作为连接虚拟空间的物理点。来自 AOC 各部门的指定成员可以看到多域画面,并相互协作提示跨域威胁和机遇。虽然这还不是真正融合的多域作战画面,但它将为未来的这种能力架起一座桥梁。移动式和便携式 CAVE 可通过商业途径获得,因此这种能力也可用于通过分散 AOC 的行动来增强现有 AOC 的复原力。

  • 实现多域协作规划

需要解决的第二个限制因素是,当前的规划工具在多域规划协作方面存在不足。MDC2 运行概念中的长期解决方案是由多领域图片和决策支持自动化来支持多学科团队。在 AOC 中,这可通过各师内的团队、全球指挥与控制系统 (GCCS) 上的特定任务应用程序、共同行动画面以及通过各种联络功能提供的回传支持来实现。考虑到前面关于多域作战空间感知桥梁的讨论,也许可以利用现有的一些虚拟协作环境,朝着多域协作规划的方向发展。

有许多协作式虚拟环境可供使用。图 6 显示了一个典型商业产品的内部视图。在 Bigscreen 这个特定的环境中,每个人的个人屏幕上都会显示其所在物理位置显示器上的内容。在这个空间内,他们可以查看彼此的屏幕,将一个屏幕作为大显示屏推送到公共空间,进行交谈,并共享音频和视频馈送。这种特殊应用的优势在于,它允许用户在自己的电脑上运行他们通常会运行的任何功能。在联合规划场景中,每个人可能会运行不同的 GCCS 应用程序,以支持他们在团队中的特定角色。空间中的其他人可以观察、评论和批判产品,也可以像在 AOC 中一样通过自己的物理计算机访问产品。通过头部和手部追踪,一些社交线索(如指向和聚焦)会增加临场感。其他环境或多或少都具有沉浸感和互动性。BasementVR是一个共享环境,允许交互式创作二维和三维艺术作品,可用作三维协作白板。AltSpace 是一个协作世界,化身可在用户创建的空间中进行互动。当访问大型工作空间比互动存在更重要时,Envelop 允许用户将其桌面扩展为 360 度虚拟空间。它还允许用户将现实世界带入虚拟空间,这样用户就可以看到自己的键盘或物理桌面等。聊天和语音聊天应用程序可以提供任何所需的通信互动。图 7 显示了该环境的一个快照。随着虚拟现实系统的不断普及,更新、更好的应用也将应运而生。

规划虽然不能达到最佳水平,但足以实现多领域操作。再看图 5。正如用于保持领域感知的互不关联的系统可以被带入一个共同的虚拟空间,以产生对作战空间的多领域理解,我们同样可以创建一个虚拟联合规划单元,将所有必要的领域应用和专家汇集在一个协作环境中。在虚拟现实硬件的支持下,他们可以从任何地方进入虚拟空间,无论是 CAVE、HMD 还是变色龙单元。与实体 AOC 中的联络人员不同,回传组织的实际工作成员可以参与到多学科团队中,从而缩短询问-响应-计划周期的延迟。参考图 2 及其长长的主题专家(SME)名单,我们可以在不显著增加战区人力的情况下,大大提高 SME 支持的及时性。

  • 实现灵活性和同步性

第三个限制因素是,当前的指挥控制结构没有提供足够的灵活性,无法在空中、太空和网络中实现同步效应。目前的 TACS 结构主要是为空域行动设计的。该系统以分级结构为基础,由 JFACC 作为空中行动的支援指挥官。太空和网络为空中行动提供效果支持,但其指挥控制由另外两个行动中心负责。敏捷性要求能够从支持空中行动的网络和太空行动转向其他支持和辅助行动组合,这就形成了一个不断变化的权力结构。这些权力转移需要密切协调,以确保在最佳领域内、从最佳领域出发并通过最佳领域应对新出现的机会和威胁。这是一个结构性问题,需要改变条令来解决。在过渡时期,可以建立一个由受影响指挥官(或适当参谋人员)组成的虚拟执行小组,以近乎实时的方式完成指挥关系的协调。虚拟现实技术可用于虚拟执行小组。一个两面或三面墙的 CAVE 将允许访问共同行动画面,并为控制权力交换的参谋团队提供一个共享的工作空间。在虚拟空间中进行演练,将为制定不同的权力过渡办法和练习业务灵活性提供机会。与其他过渡计划一样,这种方法也不是最佳的,但能更快地提高复原力。

  • 其他弹性考虑因素

上文讨论的计划有助于通过使企业朝着 MDC2 运行概念中规定的方向发展来提高应变能力,但这些计划并不能直接解决 AOC 和 TACS 前沿要素的近期应变能力问题。事实上,这些问题被确定为 10 多年的目标。对于在该地理区域需要多少实体存在存在着不同的看法,但有一种估计认为,目前存在的 90% 可以驻扎在美国本土。允许地域和全球行动中心之间进行虚拟协作的相同技术也可用于虚拟化现有 C2 架构的各个组成部分,从而减少战区的人力足迹。这在一定程度上是通过 LNOs 和 reachback 实现的,但这种做法可通过 VR 技术应用加以扩展。如前所述,美国本土的中小型企业可以被整合到虚拟工作空间,而不是实体工作空间。此外,AOC 人员可以分散到战区或 CONUS 的其他地点,但仍能保持对区域环境的感知。对于 TACS 的前沿人员来说,HMD VR 系统已经发展到可以通过高端笔记本电脑运行的地步。这样就可以在任何有适当通信条件的地方分散或重组行动。在某些情况下,基于平板电脑或智能手机技术的变色龙系统可能更为合适。这样做的净效果是成倍增加和分散战区内的目标,减少网络领域的特征,并将大部分资源转移到相对安全的美国本土,同时相应提高复原力和能力。表 5 概述了拟议的解决方案。

表 5. 拟议解决方案和虚拟现实应用汇总

成为VIP会员查看完整内容
13

语言基础模型的进步主要推动了最近人工智能的迅猛发展。相比之下,非文本模态的生成学习,特别是视频,显著落后于语言建模。本论文记录了我们在多任务模型构建方面的努力,旨在在多种条件下生成视频和其他模态,以及在理解和压缩应用中的探索。

我们首先介绍了用于独立多任务和多模态设置的两个像素空间原型。尽管这些模型有效,但它们受到特定任务模块和预定义标签空间的限制,这凸显了需要更具普遍适用性的设计。

鉴于视觉数据的高维度性,我们追求简洁且准确的潜在表示。我们的视频原生时空标记器保留了高保真度。我们揭示了一种在视觉观察和可解释词汇术语之间双向映射的新方法。此外,我们可扩展的视觉标记表示在生成、压缩和理解任务中都证明了其优势。这一成就标志着语言模型首次在视觉合成方面超越了扩散模型,而视频标记器也超过了行业标准的编解码器。

在这些多模态潜在空间内,我们研究了多任务生成模型的设计。我们的掩码多任务Transformer在视频生成的质量、效率和灵活性方面表现出色。我们使一个仅在文本上训练的冻结语言模型能够生成视觉内容。最后,我们从零开始构建了一个可扩展的生成多模态Transformer,使其能够在多种条件下生成包含高保真运动及相应音频的视频。

在整个过程中,我们展示了整合多任务、构建高保真潜在表示以及生成多模态内容的有效性。这项工作为未来在生成非文本数据和实现各种媒体形式的实时互动体验方面的探索提出了令人兴奋的可能性。

自近七十年前诞生以来,人工智能(AI)[139]领域经历了显著的演进发展,标志着一系列关键里程碑的出现。这段历程见证了从基于规则的专家系统[28]到由机器学习[173]引领的数据驱动范式的转变,随后超越到深度学习的领域,重点从特征工程[135]转向直接从原始数据中获取表示[117]。基础模型[17]的出现进一步体现了这一进化轨迹,促进了跨任务知识的共享,从而不再需要特定任务的模型。在这一连续体中,BERT[49]作为基础模型的典范,通过自监督训练大量数据,并在众多下游任务中展现出色的适应能力。这篇论文深入探讨了方法创新核心的多任务通用性,追踪了从层次结构化的监督模块到一致的、普遍适用的自监督框架的演变过程。

大型语言模型(LLMs)[7, 25, 191]作为基础模型的代表,具有生成目标,从各种输入中生成文本输出。值得注意的是,某些LLMs的改编版本[133, 145]扩展了其输入能力,涵盖了图像,尽管其输出仅限于文本。这种以文本为中心的输出体现了人类构想的低带宽抽象,导致对高质量文本数据即将短缺的预测[202]。相比之下,存在大量的原始信号数据生成,尤其是视频,其数量往往超过了可用于其有效利用的计算资源。此外,这些非文本数据类型的自监督生成学习的进展显著落后于语言模型,从而限制了相关任务的潜力。本论文的核心在于探索旨在生成超越文本输出的生成学习,包括视频、图像和音频,从而采用更全面的多模态方法。 最初为解释文本标记而设计的Transformer架构[201],是各个领域可扩展模型的基石。然而,当处理视频等原始信号时,由于其本质上具有更高的维度特性,包含高时空分辨率和多个通道,我们面临一个更为复杂的范式。虽然对于预测标签的判别模型来说,简单的降尺度技术[52]可能已经足够,但对于在这些高维空间中生成内容的生成模型来说,特别是在高分辨率图像或长时间视频生成的情况下,这些技术却提出了巨大的挑战。为了解决这个问题,我们开始在高度压缩的空间中构建学习的潜在表示,并随后制定生成模型,旨在这些受限维度内运行。

成为VIP会员查看完整内容
9

本文报告了在使用基于遗传学的机器学习过程和战斗模拟发现新型战斗机机动系统方面的经验。实际上,这一应用中的遗传学习系统正在取代测试平台,从经验中发现复杂的动作。这项工作的目标与许多其他研究不同,因为创新和发现新颖性本身就是有价值的。这使得目标和技术的细节与其他基于遗传学的机器学习研究有所不同。

本文讨论了应用的细节、动机以及所采用技术的细节。介绍了一个玩家适应固定策略对手的系统和两个玩家共同适应的系统的结果。论文还讨论了这项工作在其他自适应行为应用中的普遍意义。

成为VIP会员查看完整内容
8

高级任务工程:杀伤网用例

  • 机遇与挑战:
    • 在战场上,有多种途径可将分布式系统与 C2 连接起来
      • 发现、固定、跟踪、瞄准、交战、评估(F2T2EA)杀伤链由分布在空间和时间上互锁的系统完成,这些系统作为一个系统的系统发挥作用
      • 分布式系统为多个任务连接在一起,形成杀伤路径、杀伤网和杀伤网
      • 并非所有系统都能相互通信
    • 如何评估和分析这种嵌套杀伤链的巨大设计空间(如 10 万种组合),并在动态任务执行过程中自适应地选择最有前途的杀伤路径?

杀伤网分析和评估

成为VIP会员查看完整内容
23

图:一名指挥与总参谋学院的学生使用 ChatGPT 完成学校作业。

2022 年 11 月,OpenAI 的 Chat Generative Pre-Trained Transformer(ChatGPT)公开发布。这款人工智能聊天机器人具有革命性意义。ChatGPT 可根据用户提示生成详细、无缝的文本。它可以写作文和诗歌,可以调试和编写计算机代码。以往任何技术都无法如此快速有效地完成这些任务。而 ChatGPT 的发布只是近期生成式人工智能(AI)众多进展中的一个高度公开的时刻。2023 年,微软发布了由人工智能驱动的新版必应搜索引擎,OpenAI 也发布了新的 GPT-4 模型。

自 ChatGPT 发布以来,生成式人工智能一直占据着头条新闻,尤其是在学术界。一些知名刊物刊登了这样的论点:"大学论文已死",没有人为学术界的变革做好准备,ChatGPT 是 "对高等教育的威胁",高等教育必须 "不变革就死亡"。聊天机器人甚至被比作 "瘟疫",让人联想到 COVID-19 对教育的毁灭性影响。一些学校的回应是立即禁止在其网络上访问 ChatGPT。其他学校则利用人工智能内容检测软件来识别和惩罚使用生成式人工智能完成家庭作业的学生。

美国陆军也未能幸免。陆军职业要求军官在整个职业生涯中参加专业军事教育 (PME)。PME 教育工作者与民间学术机构的同行们一样,正在努力与生成式人工智能进行谈判。部分挑战源于当前关于生成式人工智能的争论。这些争论往往是极端的--对高等教育的死亡或生产力的革命性提高持两极化的看法,而且是抽象的--以技术本身而非其在学习中的具体使用案例为论点。概念层面的争论固然重要,但对于必须决定如何在课堂上立即做出反应的教师来说,这些争论并不总是有帮助的。

指挥与总参谋学院(CGSC)最近通过了认证,成为向即将毕业的学生颁发硕士学位的机构,该学院制定了一项政策,允许各门课程自行决定是否可以使用生成式人工智能。然而,在实践中,CGSC 向学生传达的压倒性信息是,他们应该完全避免使用该技术,否则就有可能失去他们的 PME 学分。禁止性政策的实施表明,陆军 PME 对生成式人工智能的风险高度敏感。采用人工智能确实存在风险,尤其是在不考虑潜在成本的情况下盲目采用。但普遍回避该技术也存在风险。正如国防部的数据战略所明确指出的,陆军领导人必须是数据通。因此,CGSC 和其他 PME 所面临的挑战是,既要支持和鼓励使用人工智能来提高学生的学习能力,又要减少使用人工智能来阻碍学生批判性思维能力的发展。

本文在陆军 PME 的背景下对生成式人工智能提出了两种截然相反的观点:一方面是对生成式人工智能的公然抵制,另一方面是对人工智能的毫无疑问的接受。PME教育者应从务实和审慎的角度出发,避免这些极端观点,并以PME的目的为导向。教育工作者可以同时承认人工智能的重要益处,同时认识到有必要为其使用设置警戒线,因为不加限制地采用人工智能可能会破坏我们的教育使命。从这一角度出发,放弃极端的选择,就会产生本文概述的几项实用建议。

避免极端

对生成式人工智能的一种可能反应是直接拒绝将其用于 PME。CGSC 的教师可能会向学生传达这种观点,认为 ChatGPT 只会导致剽窃案件和可能的开除。持这种观点的 PME 领导者可能出于各种原因对人工智能技术保持警惕。意识到 ChatGPT 可以写出完整的论文,他们可能会否认任何有效的用途,这可能会促使他们禁止学生以任何身份使用人工智能。更糟糕的是,他们可能会坚持使用最能激励使用生成式人工智能的作业,即使他们取缔了这种使用。他们可能会假定未经授权使用生成式人工智能的现象比实际情况更加猖獗。他们可能不会关注这项技术的重要和长期影响,甚至不会了解它的基本功能。

普遍的否定过于轻视对专业教育和国家安全的潜在益处,而这两个领域正是每一位即将毕业的战地军官的职责所在。不利用人工智能工具将意味着我们的学生、机构和国防丧失竞争优势。粗暴地全面禁止人工智能工具将以维护我们使命的名义破坏我们的使命。在教学大纲和旨在培养批判性思维能力的作业政策中对人工智能的使用做出具体禁止规定是有益的,但教师应避免对该技术的普遍敌意和对使用该技术的学生的敌视。

对于 ChatGPT 的出现,另一种极端的反应是不加批判地接受生成式人工智能,将其视为最新的计算器或文字处理器。在这种观点中,生成式人工智能只是一种最新技术,只要教职员工加入进来,就能改善高等教育。非批判性支持者希望在整个教育领域毫无疑问地采用生成式人工智能。

聊天机器人的确与早期的颠覆性技术有几分相似。相似之处之一是一些教育工作者最初的抵制反应,这与上世纪八十年代反对采用计算器的争论(甚至小规模抗议)以及九十年代对课堂使用计算机的担忧如出一辙。

另一个相似之处是,聊天机器人与早期的技术一样,可以代替完成任务和遵守规则(ChatGPT 可以检查拼写、写出完整的句子等),从而提高学生的学习效率,释放学生的精力进行创造性思考。主张在高等教育中使用生成式人工智能的人指出了该技术在改善学生学习方面的潜力,他们的看法是正确的。生成式人工智能可以帮助学生为论文中有趣的主题集思广益,充当一般学习的对话导师,或为更高级的主题提供背景知识。人工智能工具还能根据用户的简单书面指令生成功能性编程脚本,例如用于清理和分析数据的脚本--一些观察家将这种能力称为英语的下一个大型编程语言。在诸如此类的应用中,生成式人工智能可以在不影响学习过程的前提下,通过加快工作速度和提高生产率来支持学生的学习。

然而,普遍采用的问题在于,生成式人工智能可以做得更多。ChatGPT 可以综合证据,生成论点陈述,并提出连贯而全面的论据来支持论点陈述,同时还能平衡相互矛盾的信息。在 CGSC 中,学生可以上传条令文件,并要求 ChatGPT 对所选节选内容进行总结。在这些方面,ChatGPT 显然比最新的打字机更胜一筹。当我们关注具体的使用案例,并提醒自己知识不仅是一种产品,也是一个过程时,它们之间的差异就显而易见了。有时,ChatGPT 可以通过提供信息和提高效率来补充批判性思维。但在其他时候,这项技术可以取代批判性思维。

怀疑论者基于 ChatGPT 众所周知的局限性,如 "自信地 "误传信息、"幻觉 "事实或不引用资料来源等倾向,过快地否定了这一点。然而,这场争论的关键点并不在于生成式人工智能是否能比人类更好地完成所有书面任务,也不在于聊天机器人是否真的具有智能,而在于它是否能始终如一地完成合格的作品,这就为学生缩短发现和深入思考的过程提供了动力。

图:平衡教育工作者的极端反应

那些采取 "不加批判地接受 "观点的人过于轻视权衡利弊。在课程的方方面面都采用这种技术的 PME 肯定会教给学生有用的技能,比如如何与人工智能进行有效互动,但往往会牺牲培养学生高阶思维能力的机会。培养这些能力的重要性明确体现在 CGSC 的愿景中,即培养能够在不确定和复杂的世界背景下进行批判性和创造性思考,并以灵活、敏捷和创新的方式做出反应的外勤级军官。这些目标是我们的支柱。生成式人工智能的某些应用将直接违背这一使命。不加批判的拥护者一味追求普遍采用,并将推理的替代品与效率的提高混为一谈,从而忽视了学生所付出的实际代价,更不用说在其他重要辩论中发现的潜在代价,如错误信息和两极分化的加剧或对科学知识信心的破坏。

给教育工作者的建议

关于生成式人工智能的这两种截然相反的观点很可能会扭曲教育工作者在课堂上的反应。将辩论组织成这种相互矛盾的立场之间的对垒,会给希望在掌握既定任务的同时驾驭这种新的复杂性的教育工作者带来困惑。

教育工作者既要承认人工智能的重要益处,也要认识到在使用人工智能时需要有警戒线,通过关注 PME 教育工作者的使命和生成式人工智能的具体应用,明确这两项当务之急,从而从中获益。从这个角度出发,以下一系列实用建议将有助于指导教育工作者在使用人工智能时,既能提高生产力,又能支持他们培养批判性思维者的目标。

  • 建议: 抓住机遇,重新评估和改革教学法与评估,让学生参与其中

新环境为重新评估教学法和评估提供了机会。教育工作者不应努力 "抓住 "学生使用人工智能的机会,而应努力重新思考教学和作业,以激发创造力,激活对课程材料的热情,并激励学生参与学习过程。关键是要从促进学生参与学习和作业的角度来思考问题,这样学生就不会把所有作业都推给聊天机器人,而不是从揭示聊天机器人的贡献的角度来思考问题。

教育工作者应该重新认真评估书面作业。那些人工智能可以 "毫不费力 "地完成而无需人工参与的作业应予以修改或取消。例如,学生很少参与的聊天机器人可以完成一项要求总结著名历史事件的作业。与此同时,如果作业要求学生选择一个对其家庭或自身从军经历非常重要的历史事件,并用课程概念对其进行解释,聊天机器人是可以完成的,但会打击学生做出选择的积极性。在这种情况下,学生的自然反应是逃避("不使用人工智能是我学生的责任")。现在,学生可能比以往任何时候都更需要找到拥有自己学习体验的动力。但是,教育者仍然可以通过设定苛刻的期望、挑战学生的成长和克服不适应来发挥作用。尽管要求很高,但对教师来说,一个有用的起点假设可能是,现有的每项作业都可以变得不那么公式化,而更有针对性,以激活学生的核心动机,从而抑制对人工智能的适得其反的使用,激励个人对知识的追求。

在教学法方面,教育工作者也应采取类似的方法。是否有办法通过课堂教学来鼓励学生善用生成式人工智能?例如,在课堂上进行更深入的批判性分析之前,能否将生成式人工智能用作头脑风暴功能?引入生成式人工智能为教育工作者和学生都带来了机遇。了解该技术正反两面的教育工作者可以改革课程和教学方式,鼓励学生更多参与。

  • 建议:要求所有课程大纲以细致入微的方式处理生成式人工智能的适当使用问题

所有课程的开发者都有责任在课程大纲中加入生成式人工智能条款,为其在作业和课堂上的使用设立警戒线。这些规定必须经过深思熟虑。教学大纲中的规定不应仅仅侧重于限制 ChatGPT 的使用(或指定允许检测的规则),还应侧重于构建规则,以积极促进学习和深思熟虑地使用人工智能。

处理这些规定的一种方法是确定在哪些具体情况下可以使用人工智能,在哪些情况下不可以。任何一套规定都要囊括所有好处或降低所有风险,这是不现实的,尤其是在技术不断进步的情况下;然而,选择不设置任何警戒线的教官会给学生的学习成果带来大得多的风险,从而给 PME 和整个陆军带来更大的风险。

禁止人工智能某些用途的声明可能是这样的 "使用生成式人工智能很可能会破坏研究和写作过程,从而阻碍课程目标的实现,而研究和写作过程对于培养学生的高阶思维能力至关重要。因此,在 F100 部队管理论文的研究和写作过程中,禁止在任何时候使用 ChatGPT 或其他生成式人工智能工具"。

促进生成式人工智能特定用途的声明可能是这样的: "可以接受并鼓励使用 ChatGPT 和其他生成式人工智能工具来为本课程的创意写作作业集思广益,作为本课程核心概念的对话导师,以及作为进行定量分析的编码辅助工具。引用生成式人工智能工具的任何贡献。请记住,这些工具可能会提供误导性和不正确的回答,并确保您避免过度依赖人工智能输出"。

  • 建议:避免使用人工智能内容检测工具进行过度测试。优先考虑教师的专家直觉

即使教育工作者决定在特定情况下禁止使用人工智能,他们也必须注意避免过度优先检测人工智能生成的内容。关注可能的学术违规行为固然重要,但过分强调检测会导致惩罚性和交易性思维,这与教育者的核心使命不符。此外,对提交的作业中使用人工智能的情况进行随机或全盘检测,会导致教育工作者严重高估班级中使用人工智能的普遍程度,以及在任何特定学生作业中使用人工智能的可能性(见第 6 页边栏)。

  • 建议:设计、实施并持续开展针对教师的生成式人工智能教育与培训

要回答人工智能的使用如何影响批判性思维能力的发展,以及教师在某些情况下是否应该禁止或推广人工智能等问题,教育工作者必须了解这项技术本身--它是什么、它能做什么、它不能做什么,以及它可能如何发展。

所有教师都应接受生成式人工智能方面的教育和培训,以积累这方面的知识。这里的 "培训 "一词很关键。人工智能培训不同于只是抽象地讨论技术的研讨会式的教师讲习班。培训要求对技术的工作原理和作用进行有准备的指导。例如,西点军校在 2023 年 1 月举办了关于大型语言模型及其能力和限制的培训,以帮助教师确定何时适合在课堂上使用 ChatGPT。

西点军校的这些工作值得称赞,但如果不能持续下去,这些努力将是不完整的。从长远来看,所有 PME 都应考虑就 ChatGPT 和其他人工智能的发展开展定期培训和对话。机构的反应不能是短期的狂热和长期的沉默。正如生成式人工智能模型在训练数据中遇到新的 "现实 "时会发生变化一样,教师也应定期更新他们对人工智能工具的理解。

  • 建议: 加强各级学术领导层对 ChatGPT 时代核心使命的机构宣传

PME 的所有教师都肩负着在课堂和作业中使用生成式人工智能的重任。在这一领域,自下而上的解决方案至关重要。然而,教师们可能并不完全了解这项技术或其成本与收益,而且在面对其他极端人士的强烈批评时,他们甚至可能难以倡导有理有据的建议。

PME 领导人在书面政策或口头交流中发出的一致信息,将为试图驾驭巨变的教师提供支持。无论任何新技术(或大流行病或世界危机)如何,陆军 PME 的目的始终不变--培养敏捷、适应性强的领导者,让他们在复杂环境中实现认知超配,从而赢得胜利。围绕人工智能的讨论应不断提出问题,探讨这一技术的具体应用将如何促进军官学习和发展高阶思维技能。生成式人工智能将有益于教育,但并非在任何情况下都是如此,教员们在确定专业军事教育的目的时,将能更好地识别这些特定情况。

未来对当前方法的启示

事物发展日新月异。去年,谷歌宣布首次发布 "实验性对话式人工智能服务 "Bard,即现在的 "双子座",并指出 "最大的人工智能计算规模每六个月翻一番,远远超过摩尔定律"。史蒂夫-沃兹尼亚克(Steve Wozniak)、埃隆-马斯克(Elon Musk)和其他科技领袖呼吁暂停人工智能发展中的 "失控竞赛"。

鉴于如此高的变化率,即使是最周到、最个性化、最复杂或最及时的任务,聊天机器人在不远的将来也能完成。对未来的憧憬以及由此引发的争论,让我们很想举手投降。然而,随着美国国防部的数据战略鼓励进一步整合人工智能,PME 的教育工作者应该抓住机遇,在这一领域发挥领导作用。如果教育工作者只是为了阻止人工智能的使用而无休止地布置更加复杂的作业,那么他们的命运将是西西弗斯式的。另一方面,不加批判地接受人工智能是所有情况下的 "金手指",也会适得其反。PME教育工作者既不要害怕也不要对这项技术一无所知,他们应该努力找出有价值的使用案例,改革教学方法,保持与学生之间的信任,并对培养陆军领导者批判性思维能力的使命充满信心。

成为VIP会员查看完整内容
9
登陆后查看更多精品内容
VIP会员
本周荟萃主题
区块链
区块链(Blockchain)是由节点参与的分布式数据库系统,它的特点是不可更改,不可伪造,也可以将其理解为账簿系统(ledger)。它是比特币的一个重要概念,完整比特币区块链的副本,记录了其代币(token)的每一笔交易。通过这些信息,我们可以找到每一个地址,在历史上任何一点所拥有的价值。
深度学习
机器学习的一个分支,它基于试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的一系列算法。
机器学习
“机器学习是近20多年兴起的一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。机器学习理论主要是设计和分析一些让 可以自动“ 学习”的算法。机器学习算法是一类从数据中自动分析获得规律,并利用规律对未知数据进行预测的算法。因为学习算法中涉及了大量的统计学理论,机器学习与统计推断学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。很多 推论问题属于 无程序可循难度,所以部分的机器学习研究是开发容易处理的近似算法。”

——中文维基百科
强化学习
强化学习(RL)是机器学习的一个领域,与软件代理应如何在环境中采取行动以最大化累积奖励的概念有关。除了监督学习和非监督学习外,强化学习是三种基本的机器学习范式之一。 强化学习与监督学习的不同之处在于,不需要呈现带标签的输入/输出对,也不需要显式纠正次优动作。相反,重点是在探索(未知领域)和利用(当前知识)之间找到平衡。 该环境通常以马尔可夫决策过程(MDP)的形式陈述,因为针对这种情况的许多强化学习算法都使用动态编程技术。经典动态规划方法和强化学习算法之间的主要区别在于,后者不假设MDP的确切数学模型,并且针对无法采用精确方法的大型MDP。
推荐系统
推荐系统,是指根据用户的习惯、偏好或兴趣,从不断到来的大规模信息中识别满足用户兴趣的信息的过程。推荐推荐任务中的信息往往称为物品(Item)。根据具体应用背景的不同,这些物品可以是新闻、电影、音乐、广告、商品等各种对象。推荐系统利用电子商务网站向客户提供商品信息和建议,帮助用户决定应该购买什么产品,模拟销售人员帮助客户完成购买过程。个性化推荐是根据用户的兴趣特点和购买行为,向用户推荐用户感兴趣的信息和商品。随着电子商务规模的不断扩大,商品个数和种类快速增长,顾客需要花费大量的时间才能找到自己想买的商品。这种浏览大量无关的信息和产品过程无疑会使淹没在信息过载问题中的消费者不断流失。为了解决这些问题,个性化推荐系统应运而生。个性化推荐系统是建立在海量数据挖掘基础上的一种高级商务智能平台,以帮助电子商务网站为其顾客购物提供完全个性化的决策支持和信息服务。
卷积神经网络
在深度学习中,卷积神经网络(CNN或ConvNet)是一类深度神经网络,最常用于分析视觉图像。基于它们的共享权重架构和平移不变性特征,它们也被称为位移不变或空间不变的人工神经网络(SIANN)。它们在图像和视频识别,推荐系统,图像分类,医学图像分析,自然语言处理,和财务时间序列中都有应用。
计算机网络
计算机网络( Computer Networks )指将地理位置不同的多台计算机及其外部设备,通过通信线路连接起来,在网络操作系统及网络通信协议的管理和协调下,实现资源共享和信息传递的计算机系统。
命名实体识别
命名实体识别(NER)(也称为实体标识,实体组块和实体提取)是信息抽取的子任务,旨在将非结构化文本中提到的命名实体定位和分类为预定义类别,例如人员姓名、地名、机构名、专有名词等。
机器翻译
机器翻译,又称为自动翻译,是利用计算机将一种自然语言(源语言)转换为另一种自然语言(目标语言)的过程。它是计算语言学的一个分支,是人工智能的终极目标之一,具有重要的科学研究价值。
计算机视觉
计算机视觉是一门研究如何使机器“看”的科学,更进一步的说,就是是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉,并进一步做图形处理,使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科,计算机视觉研究相关的理论和技术,试图建立能够从图像或者多维数据中获取‘信息’的人工智能系统。
微信扫码咨询专知VIP会员