书籍
【干货书】概率论与数理统计,259页pdf
专知会员服务
19+阅读 · 12月3日
【2022新书】数字孪生技术:基础与应用,273页pdf
专知会员服务
60+阅读 · 12月2日

本书对不确定条件下的决策算法作了广泛的介绍。我们涵盖了与决策有关的各种主题,介绍了基本的数学问题公式和解决这些问题的算法。书中提供了数字、例子和练习,以传达各种方法。

本书适用于高年级本科生和研究生,以及专业人士。它需要掌握一些数学上的知识,并事先接触过多元微积分、线性代数和概率概念。在附录中提供了一些复习材料。本书特别有用的学科包括数学、统计学、计算机科学、航空航天、电气工程和运筹学。

这本教科书的基础是算法,这些算法都是用Julia编程语言实现的。在算法实现的设计中,优先考虑的是可解释性,而不是效率。例如,工业应用可能受益于其他的实现方式。允许免费使用与本书有关的代码片段,但必须注明代码的来源。

引言

许多重要的问题涉及到不确定性下的决策,包括飞机防撞、野火管理和灾难应对。在设计自动决策系统或决策支持系统时,重要的是要考虑到各种不确定性的来源,同时仔细平衡多个目标。我们将从计算的角度讨论这些挑战,旨在提供决策模型和计算方法背后的理论。本章介绍了不确定性下的决策问题,提供了一些应用的例子,并概述了计算方法的空间。然后,它总结了各学科如何促进我们对智能决策的理解,并强调了潜在的社会影响领域。最后,我们对本书的其余部分进行了概述。

1.1 决策

智能体是一个根据对其环境的观察而行动的实体。智能体可能是物理实体,如人类或机器人,也可能是非物理实体,如完全用软件实现的决策支持系统。如图1.1所示,智能体与环境之间的互动遵循观察-行动的周期或循环。

智能体在时间t收到对环境的观察,表示为ot。例如,观察可以通过生物感觉过程进行,如人类,或通过传感器系统,如空中交通控制系统中的雷达。观察通常是不完整的或有噪音的;人类可能没有看到接近的飞机,或者雷达系统可能由于电磁干扰而错过了探测。然后智能体通过一些决策过程选择一个行动at。这种行动,如发出警报,可能对环境产生非决定性的影响。

图 1.1 智能体与其环境之间的交互。

我们的关注重点是在一段时间内智能互动以实现其目标的智能体。考虑到过去的观察序列,o1, ...... ot,以及对环境的了解,智能体必须选择一个行动at,在存在各种不确定性来源的情况下最好地实现其目标,包括以下内容:

  • 结果的不确定性,即我们的行动效果是不确定的。

  • 模型的不确定性,即我们对问题的模型是不确定的。

  • 状态的不确定性,即环境的真实状态是不确定的。

  • 相互作用的不确定性,即在环境中相互作用的其他智能体的行为是不确定的。

本书是围绕这四种不确定性的来源组织的。如第1.4节所述,在不确定的情况下做出决策是人工智能领域的核心,也是许多其他领域的核心。我们将讨论各种算法,或对计算过程的描述,以做出对不确定性具有稳定性的决策。

1.2 应用

上一节介绍的决策框架可以应用于各种领域。本节讨论了一些具有现实世界应用的概念性例子。附录F概述了其他的概念性问题,这些问题在本文中被用来演示我们讨论的算法。

1.2.1 飞机避撞

为了帮助防止飞机之间的空中碰撞,我们想设计一个系统,可以提醒飞行员注意潜在的威胁,并指导他们如何操纵以避免这些威胁。该系统与其他飞机的应答器进行通信,以便在一定程度上准确地识别其位置。决定向飞行员提供什么指导是具有挑战性的。飞行员将如何快速反应以及他们将如何积极地遵守指导,都存在不确定性。此外,其他飞机的行为也存在不确定性。我们希望我们的系统能足够早地发出警报,为飞行员提供足够的时间来操纵他们的飞机以避免碰撞,但我们不希望我们的系统过早地发出警报,这将导致许多不必要的操纵。由于该系统将在全球范围内持续使用,我们需要该系统提供一个特殊的安全水平。

1.2.2 自动驾驶

我们想建造一辆能够在城市环境中安全行驶的自主车辆。该车必须依靠一套传感器来感知其环境,以做出安全的决定。一种类型的传感器是激光雷达,它涉及测量环境中的激光反射,以确定与障碍物的距离。另一种类型的传感器是摄像头,通过计算机视觉算法,它可以检测到行人和其他车辆。这两种类型的传感器都是不完美的,容易受到噪音和遮挡的影响。例如,一辆停在路边的卡车可能会遮挡住正在试图穿过人行横道的行人。我们的系统必须从其他车辆、行人和其他道路使用者的可观察行为中预测他们的意图和未来路径,以便安全地导航到我们的目的地。

1.2.3 乳腺癌筛查

在世界范围内,乳腺癌是妇女中最常见的癌症。早期发现乳腺癌可以帮助挽救生命,而乳房X光检查是目前最有效的筛查工具。然而,乳房X线照相术也有潜在的风险,包括假阳性,这可能导致不必要的侵入性诊断后续行动。多年来的研究已经产生了基于年龄的各种人群筛查计划,以平衡测试的好处和风险。开发一个能根据个人风险特征和筛查历史提出建议的系统,有可能带来更好的健康结果。这种系统的成功可以在总的预期质量调整寿命年数、乳房X光检查的次数、假阳性的发生率以及未被发现的侵入性癌症的风险等方面与全民筛查计划进行比较。

1.2.4 金融消费与投资组合配置

假设我们想建立一个系统,建议一个人的财富当年应该消费多少,投资多少。投资组合可能包括具有不同风险和预期收益水平的股票和债券。由于赚取和投资收入的不确定性,财富的演变是随机的,通常在投资者接近退休时才会增加,然后稳定地减少。在一年中消费一个单位的财富所带来的享受通常会随着消费数量的减少而减少,从而导致人们希望在个人的一生中平滑消费。

1.2.5 分布式野火监测

在扑灭野火时,对形势的认识是一个重大挑战。火灾的状态随着时间的推移而演变,受到风和环境中的燃料分布等因素的影响。许多野火跨越了大的地理区域。监测野火的一个概念是使用一队配备有传感器的无人机在野火上方飞行。单个无人机的感应范围是有限的,但团队的信息可以被融合,以提供一个统一的情况快照,从而推动资源分配决策。我们希望团队成员能够自主地决定如何相互协作,以提供最佳的火场覆盖。有效的监测需要决定如何机动地覆盖新的传感器信息可能有用的区域;在我们确定火是否在燃烧的区域花费时间将是浪费的。识别要探索的重要区域需要对火灾的随机演变进行推理,因为对其当前状态的了解并不完善。

1.2.6 火星科学探索

探测器在火星上有了重要的发现,并增加了我们对火星的了解。然而,科学探索的一个主要瓶颈是火星车和地球上的操作团队之间的通信联系。传感器信息从火星传到地球,以及命令从地球传到火星,可能需要半小时之久。此外,对漫游车的指导需要提前计划,因为由于作为行星之间信息中继站的轨道器的位置,与火星的上传和下载窗口有限。最近的研究表明,通过引入更高水平的自主性,科学探索任务的效率可以提高五倍。人类操作员仍将提供关于任务目标的高级指导,但漫游者将有灵活性,利用最新的信息选择自己的科学目标。此外,漫游车最好能在没有人类干预的情况下对各种危险和系统故障作出适当的反应。

1.3 方法

有许多设计决策智能体的方法。根据不同的应用,有些可能比其他的更合适。它们在设计者的责任和留给自动化的任务方面有所不同。本节简要地概述了这些方法的集合。本书将主要关注规划和强化学习,但其中一些技术将涉及监督学习和优化的元素。

1.3.1 显式编程

设计决策智能体的最直接的方法是预测智能体可能发现自己所处的所有场景,并明确编程智能体应该对每个场景做出什么反应。明确的编程方法对于简单的问题可能很有效,但它给设计者带来了很大的负担,要提供一个完整的策略。各种智能体编程语言和框架已被提出,以使智能体编程更容易。

1.3.2 监督学习

对于一些问题,向智能体展示该怎么做,而不是写一个程序让智能体遵循,可能会更容易。设计者提供了一组训练实例,而自动学习算法必须从这些实例中进行概括。这种方法被称为监督学习,并被广泛地应用于分类问题。当应用于学习从观察到行动的映射时,这种技术有时被称为行为克隆。当专家设计者实际上知道在一系列有代表性的情况下的最佳行动方案时,行为克隆的效果很好。尽管存在各种不同的学习算法,但在新的情况下,它们通常不能比人类设计师表现得更好。

1.3.3 优化

另一种方法是由设计者指定可能的决策策略空间和需要最大化的性能指标。评估一个决策策略的性能通常需要运行一批模拟。然后,优化算法在这个空间中进行搜索,寻找最佳策略。如果空间相对较小,并且性能指标没有很多局部最优,那么各种局部或全局搜索方法可能是合适的。虽然通常假设动态模型的知识是用来运行模拟的,但它并不是用来指导搜索的,这对复杂的问题可能很重要。

1.3.4 规划

规划是一种优化形式,它使用问题的动态模型来帮助指导搜索。有大量的文献探讨了各种规划问题,其中大部分集中在确定性问题上。对于某些问题,用一个确定的模型来近似动态可能是可以接受的。假设一个确定的模型使我们能够使用更容易扩展到高维问题的方法。对于其他问题,对未来不确定性的考虑是至关重要的。本书完全集中在对不确定性的考虑很重要的问题上。

1.3.5 强化学习

强化学习放宽了规划中的假设,即一个模型是提前知道的。相反,决策策略是在智能体与环境互动时学习的。设计者只需提供一个性能指标;由学习算法来优化智能体的行为。强化学习中出现的一个有趣的复杂性是,行动的选择不仅影响到智能体在实现其目标方面的直接成功,而且还影响到智能体对环境的学习能力和确定它可以利用的问题的特征。

1.4 历史发展

决策过程自动化的理论起源于早期哲学家、科学家、数学家和作家的梦想。早在公元前800年,古希腊人就开始将自动化纳入神话和故事中。自动机这个词最早出现在荷马的《伊利亚特》中,其中提到了自动机的概念,包括用于招待晚宴客人的机械三脚架。在十七世纪,哲学家们提出使用逻辑规则来自动解决分歧。他们的想法为机械化推理打下了基础。

从十八世纪末开始,发明家们开始创造自动机器来完成劳动。特别是,纺织业的一系列创新导致了自动织机的发展,这反过来又为第一批工厂机器人奠定了基础。十九世纪初,使用智能机器来实现劳动自动化,开始进入科幻小说。机器人一词起源于捷克作家卡雷尔-恰佩克的剧本《R.U.R.》,即《罗苏姆的万能机器人》的简称,讲述了机器可以完成人类不愿做的工作。这部剧启发了其他科幻作家将机器人纳入他们的写作中。二十世纪中期,著名作家和教授艾萨克-阿西莫夫在其著名的《机器人》系列中阐述了他对机器人的看法。

在自动化决策的实际实施中,一个主要的挑战是对不确定性的考虑。即使在二十世纪末,因开发单线算法而最著名的乔治-丹齐格(George Dantzig)也在1991年表示:回过头来看,有趣的是,开始我研究的最初问题仍然很突出--即随着时间的推移动态地计划或安排的问题,特别是在不确定性下动态地计划。如果这样的问题能够被成功解决,它可以(最终通过更好的规划)为世界的福祉和稳定作出贡献。

虽然不确定性下的决策仍然是一个活跃的研究领域,但在过去的几个世纪中,研究人员和工程师已经更接近于使这些早期梦想家提出的概念成为可能。目前最先进的决策算法依赖于多个学科的概念的融合,包括经济学、心理学、神经科学、计算机科学、工程学、数学和运筹学。本节重点介绍这些学科的一些主要贡献。学科之间的交叉渗透导致了许多最近的进步,并可能在未来继续支持增长。

1.5 社会意义

决策算法方法已经改变了社会,并可能在未来继续改变。本节简要地强调了决策算法可以为社会做出贡献的几种方式,并介绍了在试图确保广泛受益时仍然存在的挑战。

算法方法对环境的可持续性做出了贡献。例如,在能源管理方面,贝叶斯优化已经被应用于自动家庭能源管理系统。来自多智能体系统领域的算法被用来预测智能电网的运行,设计能源交易市场,以及预测屋顶太阳能发电的采用。算法也被开发出来以保护生物多样性。例如,神经网络被用于野生动物普查的自动化,博弈论方法被用于打击森林偷猎,优化技术被用于分配栖息地管理的资源。

几十年来,决策算法已经在医学领域取得了成功。这种算法已经被用于将居民与医院以及器官捐赠者与需要的病人相匹配。贝叶斯网络的一个早期应用是疾病诊断,我们将在本书的第一部分介绍。从那时起,贝叶斯网络就被广泛用于医学中的疾病诊断和预后。医学图像处理领域已经被深度学习所改变,算法思想最近在理解疾病的传播方面发挥了重要作用。

算法使我们能够了解城市地区的发展并促进其设计。数据驱动的算法已被广泛用于改善公共基础设施。例如,随机过程被用来预测输水管道的故障,深度学习改善了交通管理,马尔科夫决策过程和蒙特卡洛方法被用来改善应急反应。来自分散的多智能体系统的想法优化了旅行路线,路径规划技术被用来优化货物的交付。决策算法已被用于自动驾驶汽车和改善飞机安全。

优化决策算法可以放大其用户的影响,无论其意图如何。例如,如果这些算法的使用者的目标是在政治选举期间传播错误信息,那么优化过程可以帮助促进这一目标。然而,类似的算法也可以用来监测和抵制虚假信息的传播。有时,这些决策算法的实施会导致其用户无意中的下游后果。

尽管算法有可能带来巨大的好处,但在社会中实施这些算法也存在着挑战。由于数据收集的方式,数据驱动的算法往往存在着固有的偏见和盲点。随着算法成为我们生活的一部分,重要的是了解如何减少偏见的风险,以及如何以公平和公正的方式分配算法进步的好处。算法也可能容易受到对手的操纵,关键是我们要设计出对这种攻击具有鲁棒性的算法。同样重要的是,要扩展道德和法律框架,以防止意外后果和分配责任。

1.6 本书概述

本书分为五个部分。第一部分讨论了在单一时间点的简单决策中对不确定性和目标进行推理的问题。第二部分将决策扩展到顺序问题,在这个问题上,我们必须根据我们行动的结果的信息做出一连串的决定,随着我们的行动进行。第三种是针对模型的不确定性,即我们不是从一个已知的模型开始,必须通过与环境的互动来学习如何行动。第四部分讨论了状态的不确定性,不完善的感知信息使我们无法了解完整的环境状态。最后一部分讨论了涉及多个智能体的决策环境。

1.6.1 概率推理

理性的决策需要对我们的不确定性和目标进行推理。本书的这一部分首先讨论了如何将不确定性表示为一种概率分布。现实世界的问题需要对许多变量的分布进行推理。我们将讨论如何构建这些模型,如何利用它们进行推理,以及如何从数据中学习它们的参数和结构。然后,我们将介绍效用理论的基础,并说明它如何通过最大期望效用原则构成不确定情况下的理性决策的基础。然后我们讨论如何将效用理论的概念纳入本章前面介绍的概率图形模型中,形成所谓的决策网络。

1.6.2 序列问题

许多重要的问题需要我们做出一系列的决定。最大期望效用的原则仍然适用,但在顺序背景下的最佳决策需要对未来的行动和观察顺序进行推理。本书的这一部分将讨论随机环境下的顺序决策问题,在这种环境下,我们行动的结果是不确定的。我们将重点讨论在模型已知和环境完全可观察的假设下的顺序决策问题的一般表述。我们将在本书的后面放宽这两个假设。我们的讨论将从介绍马尔科夫决策过程(MDP)开始,这是顺序决策问题的标准数学模型。我们将讨论为这些类型的问题寻找精确解决方案的几种方法。由于大型问题有时不允许有效地找到精确解,我们将讨论一系列离线和在线的近似解法,以及一种涉及直接搜索参数化决策策略空间的方法。最后,我们将讨论验证我们的决策策略在现实世界中部署时将发挥预期作用的方法。

1.6.3 模型不确定性

在我们对顺序决策问题的讨论中,到目前为止,我们已经假定过渡和奖励模型是已知的。然而,在许多问题中,动态和奖励并不完全知道,智能体必须通过经验学习行动。通过观察其行动的结果,以状态转换和奖励的形式,智能体要选择使其长期积累的奖励最大化的行动。解决这种存在模型不确定性的问题是强化学习领域的主题,也是本书这一部分的重点。我们将讨论解决模型不确定性的几个挑战。首先,智能体必须仔细平衡对环境的探索和对通过经验获得的知识的利用。第二,奖励可能在重要的决定作出后很久才收到,所以必须将后来的奖励的功劳分配给早期的决定。第三,智能体必须从有限的经验中进行概括。我们将回顾解决这些挑战的理论和一些关键算法。

1.6.4 状态不确定性

在这一部分,我们将不确定性扩展到包括状态。我们不是准确地观察状态,而是接收与状态只有概率关系的观察。这样的问题可以被建模为部分可观察的马尔科夫决策过程(POMDP)。解决POMDP的常见方法是推断出当前时间步长的基础状态的信念分布,然后应用一个将信念映射到行动的策略。这一部分首先讨论了如何更新我们的信念分布,给定一个过去的观察和行动序列。然后,它讨论了解决POMDP的各种精确和近似方法。

1.6.5 多智能体系统

到目前为止,只有一个智能体在环境中做决定。本部分将前四部分扩展到多个智能体,讨论互动的不确定性所带来的挑战。我们首先讨论了简单的游戏,即一组智能体同时各自选择一个行动。其结果是基于联合行动的每个智能体的个体奖励。马尔科夫博弈(MG)代表了简单博弈对多状态和MDP对多智能体的概括。因此,智能体选择的行动可以随机地改变共享环境的状态。由于其他智能体的策略的不确定性,MG的算法依赖于强化学习。部分可观察马尔科夫博弈(POMG)引入了状态的不确定性,进一步概括了MGs和POMDPs,因为智能体现在只收到了有噪声的局部观察。分布式的部分可观察马尔可夫决策过程(Dec-POMDP)将POMG集中在一个合作的、多智能体的团队上,在这个团队中,智能体之间有一个共同的奖励。本书的这一部分介绍了这四类问题,并讨论了解决它们的精确和近似算法。

成为VIP会员查看完整内容
119

来源:清华大学新闻与传播学院元宇宙文化实验室   近日,清华大学新闻与传播学院元宇宙文化实验室发布《元宇宙发展研究报告3.0版》。《报告3.0版》直击元宇宙概念及产业发展正呈现出新的特征与趋势,在前两版报告基础上,按照回顾篇、学理篇、产业篇、社会篇、舆论篇、治理篇、科幻篇七个模块,对元宇宙作出挖掘与探究。 重点介绍

  第一部分对元宇宙概念重新进行梳理,对其属性特征与产研前沿进行总结。   第二部分从文学、艺术学、电影学、传播学、经济学等多学科视角解读元宇宙,提出“十理框架”“意境论”“情感温室”等概念,总结元宇宙和真实世界的三类关系。   第三部分从软硬件及平台发展分析元宇宙发展现状,提出“人-货-场-器-境-艺”概念,比较中西元宇宙企业差异,总结行业发展动态,并进行分析预测。以元宇宙理论去指导元宇宙实践发展,虚实共生,数实融合,促进未来产业良性发展。   第四部分从元宇宙与社会关系出发,探讨元宇宙在虚实融合过程中对社会群体与社会结构等方面产生的影响。   第五部分围绕元宇宙三性进行舆情分析。元宇宙的时空体验和人机智能等议题热度较高。各地市发布元宇宙行动计划和重大产品的公布,也为元宇宙发展带来新浪潮。   第六部分围绕元宇宙与治理的两种研究路径,分别探讨元宇宙作为治理对象时,其治理目标、治理逻辑、治理内容、治理手段、治理的重难点。当元宇宙作为治理手段,又如何为中国现代化治理方案助力。最后提出元宇宙发展方向与政策建议。   第七部分聚焦元宇宙虚实共生世界的科幻前景,由智械外衣到心灵奇旅,从奇点宇宙到瞬息全宇宙,形态交织、生命演替、离地亿万光年、异星超体传输,想象勾勒未来世界图景。 元宇宙的定义:“三个三”

  元宇宙是高度沉浸且永续发展的三维时空互联网,是人机融生三元化的多感官通感的体验互联网,是能够实现经济增值的三权化的价值互联网。   三维化:

  元宇宙首先是一个三维化的时空。手机和电脑的体验是二维化的,从二维升级到三维是必然的趋势。   三元化:

  人类主要的交互对象将是虚拟人,虚拟人入场后也将会有实体化机器人的需求。自然生命、虚拟生命和机器生命三元一体,多感官交互、时空跳转、数据互联。   三权化:

  web1.0、web2.0、web3.0,可写可读可拥有的三种权利。   三步性能:虚实兼备反哺实体

三步

  数字孪生:复刻真实世界至元宇宙,搭建元宇宙时空场景、创建人物虚拟化身,关联构建、异质空间的IP映射等。   虚拟原生:虚拟世界中的事物彼此交互,形成原生生态体系。例如虚拟世界中自我的多个虚拟人分身能进行多任务分工协作和对话,虚拟人和虚拟环境之间可进行信息传递。   虚实融生:在虚实世界中,自然人、虚拟人、机器人共相交互,共同前行,共同进化。虚实场景也相互作用。 * 三性

  时空扩展性:是元宇宙世界基本属性,即元宇宙将基于扩展现实技术和数字孪生技术在时间和空间两个维度上进行重构和延伸。   人机融生性:在元宇宙社会中,自然真身、虚拟分身、机械假身融合形成“三身合一“的融生社会形态。在与整个元宇宙(普适计算)的融生中,自然人的感知能力、决策能力和行动能力等将会获得多重增强,虚拟人、机器人将获得智能进化。   经济增值性:元宇宙的数字资本通过虚拟原生和虚实共生两条主线增值经济价值。 * 三能

  时空智能:通过虚拟引擎搭建的具有时间、空间拓展性质的沉浸式可交互虚拟空间,用户可以在任意高度智能化的虚拟时空中穿梭,时空维度和跳转速度可调节。   生命共生智能:自然人、虚拟人、机器人在虚实世界智能共生,依托强大的AI与算力支撑,以及现实和人脑镜像到虚拟世界中,数字灵魂至少可以低分辨率永生。   合约智能:元宇宙的信用基础即是区块链技术,创作者掌握自己内容全部的数字拥有权。依托其数据无法篡改和可溯源的特性,形成元宇宙中独特的信任机制。 十理框架创建思路

  1.数理:元宇宙运行和演替的绝对规则   2.物理:元宇宙中的力学规则、时空作用逻辑   3.地理:元宇宙中可体验的时空场景   4.生理:宇宙具身交互的身体感官系统   5.心理:新型人机关系与人机传播环境塑造人的认知与认同   6.事理:虚拟人、机器人、自然人的群体的事件发生演化的机制   7.伦理:元宇宙行动主体伦理道德的共识约束   8.法理:严肃的具有强执行性的国家规制   9.治理:基于元宇宙中新问题、新矛盾构建治理生态体系   10.哲理——元宇宙为哲学带来的理论批判与经验材料 元宇宙产业:竞争高地 众声喧哗

  人货场器境艺:基本模块 热潮渐起

  人:指虚拟数字人和人形机器人。   货:指数字资产、数字藏品和NFT等。   场:指元空间,也即多元的元宇宙场景。   境:指现实空间的元宇宙化,该板块的市场潜力较大,也是元宇宙“虚实融合“的部分。   艺:指文化数字化、技能数字化、艺术数字化,是元宇宙平台中的新技能。   虚拟人生态:链条趋整 蓝图待竣

  2021年,虚拟数字人核心产业规模约为336亿元,年均增长率31%,由此预估,2025年产业规模为988亿元。   资本不断涌入虚拟数字人赛道,国内核心虚拟数字人企业融资金额可观,截止2022年10月,虚拟数字人领域融资数量近百起,金额约120亿元。   根据对B站播放量和微博、小红书点赞量的统计,当前虚拟IP面临不同程度的热度减退、用户新鲜感丧失等难题。从品牌角度,制作高品质虚拟IP成本较高,而后继运营乏力,无高水准交互能力支撑,则IP价值呈现回落态势。   生产有价值的虚拟数字人应当夯造拟人化、故事化的虚拟IP,探索多元化的营销方式。   数字藏品:资产确权 异质单元

  “数字藏品的元宇宙本质,是具有资产属性流通的元宇宙异质化的最小单元”。数字藏品的意义在于,为元宇宙数字资产创建、流动、转换提供了技术底层。   理论上,大部分数字内容和实体资产均可确权为数字藏品。加密艺术和收藏品是海外最主流的数字藏品形式,二者市场累计份额超过80%。音乐、域名、游戏、身份标识等领域的数字藏品亟待开发。   从系统哲学的视角来看,在“人—社会—自然”的系统中,商品价值体现在它给人带来的自由度,数字藏品给人带来求美、求新、求异等自由。   国内数字藏品的定位是数字资产保护,内容风格符合主流价值观念。但也需高度警惕投资风险,防范以数字藏品交易为噱头实施的新型金融诈骗。   时空智能:元化万物 融合发展

  纵向来看,时空智能仍是一个理论先于实践的名词,当前全球时空智能业务布局主要包括虚拟空间、智能地图和沉浸体验等领域。   相较海外产业,国内相关产业尚处于起步阶段,在资本活跃度、产业健全度和技术发展度层面存在较大发展空间,且时空智能产品成熟度有待提升,但国内时空智能市场前景广阔,应用场景趋向多元化。   时空智能产业布局两大方向:将时空智能作为公司主要业务、将时空智能融入公司各类业务体系。   VR产业链:逐年迭代 性能优化

  MordorIntelligence 分析预测,2023-2025,全球VR应用场景将集中于视频、直播、游戏、教育和社交这五大领域,这些应用场景推动VR需求向C端迁移。   VR头显已经形成了Google 安卓系统+高通芯片的底层模式。苹果推出产品后,VR头显将再次形成“类手机”的竞争格局,即Android和IOS的系统之争。   内容上,国外以游戏+视频为主,国内将形成直播+视频+游戏为主的生态内容,并逐步向社交和办公蔓延,微软、Adobe、Autodesk、埃森哲等厂商将逐步启动VR应用。长远看,VR将和游戏主机展开激烈竞争,该板块全球设备存量超过3-4亿台,市场空间巨大。   2022年上半年,全球AR眼镜出货量约为16.8万台,受全球形势影响,预计下半年出货量将有所增加,全年总出货量达到40万台。   AR软件因产品渗透率不足,其数量和种类都弱于VR。各大厂商建立起自己的AR开发标准和开发平台,形成不同的软件生态。 舆论场关键词:外延膨胀 概念争议

  元宇宙产业:声量高涨 竞逐风口

  元宇宙概念企业布局主要集中在北京、广东和浙江。在北京注册的企业占总样本的24%,成为元宇宙产业的主要阵地。   超过60家创业板上市企业入局元宇宙,互联网原生产业成为元宇宙生态主力军。   超越美国先发优势,中国成为元宇宙舆论热地,热点高度较2022年1月统计数据增加近7成。   虚拟人账号:写实成势 技术驱动

  由于社交媒体内容呈现惯习差异,虚拟人在以图片为主的微博平台更新频率明显高于以视频为主的抖音平台。   另一方面,由于超写实虚拟人开发成本较高,其短视频更新频率明显低于写实和二次元虚拟人。   虚拟人使用:持续率低 文创为主

  相较于二次元、写实和超写实虚拟人IP将近100%的持续活跃比例,以明星、艺人为原型的真身复刻虚拟人则倾向于只出现在有限次数的活动中,有70%的虚拟人在短期活动结束后就被放弃使用。其余持续活跃的真身复刻虚拟人主要集中在新闻播报和AI助手领域。   目前,样本库中数字藏品平台更倾向于和文创机构合作,此类平台有101个,其次为平台合作创作者和知名艺术家;用户自创的UGC铸造方式在国内市场还较为少见。可见,当前国内数藏产业与文创产业具有高度关联性,对机构化参与主体更加有利。  ** 数字藏品:规模暴涨 存续不稳**

  行业规模扩大后,多个平台的藏品价格持续阴跌,黑猫投诉平台以“数字藏品+NFT”为关键词的相关投诉共1850起,大部分内容涉及藏品不发货、出售后钱未到账以及虚假宣传升值等问题,从2022年1月截至目前,样本中超过两成平台不同程度被封、“被黑”或主动离场,平台经营的稳定性关系到藏品价值的续存,可持续的数字经济生态需要规范化的行业监管。   样本中,八成以上的国内数字藏品平台主要内容模式为PGC,值得注意的是有16%的平台已开始尝试UGC的内容生产模式,通过平台的技术支持,进一步增强了数字藏品创作的开放度,让技术为想象力赋权。 元宇宙治理的两大逻辑

  元宇宙作为治理的对象:针对元宇宙发展中存在的问题、风险进行治理,搭建元宇宙治理生态体系。   治理目标:基础、应用、价值

  基础层:元宇宙中基本运行规则、管理规则、治理规则的建立,保障元宇宙中各个子系统的健康运行与有序管理。   应用层:通过虚拟世界对现实世界的反哺,共同构筑起元宇宙的内外双循环的生态化共治体系,助推国家治理现代化和人类命运共同体建设,以“共建共治共享”为目标推进其持续健康发展。   价值层:元宇宙将成为传播社会主流价值观的重要平台,引导、培育用户的正确价值观;启迪个体实现个人自由与群体秩序的统一;努力实现公共利益最大化,增强社会福祉。   元宇宙作为治理的手段:将元宇宙视为国家治理的辅助角色,推动国家治理体系与治理能力现代化。   为推动国家现代化治理提供方案

  治理资源:虚拟人、人型机器人解放了传统治理中所需要的人力资源,可提高治理过程中的生产力和治理效率。   治理程序:公开透明——基于智能合约与信任秩序,优化治理流程。公共监督——避免治理过程中的程序不公、暗箱操作等。寓服务于治理——实现科学、文明、进步的现代化治理。   治理结果:在治理过程中,元宇宙的人机协同治理、分布式群体共治等方式,或能避免因人为因素、权力因素造成的非理性与非公正决断。 元宇宙虚实共生世界的科幻前景

  大智境:由表及里 人因工程

  太空:在天穹有Star Link等卫星互联网,个体随时随地都可以接入网络中。   天空:在低空有无人机等智能飞行设备,飞机眼镜也能接入元宇宙。   在地:无人驾驶汽车,代替人为驾驶,还有机器狗等智能辅助。   居家:人形机器人、XR等元宇宙产品开始进入家庭,对人类的体力负荷、认知负荷进行换置,数字货币开始广泛使用。   个体:人体内嵌生物传感芯片、基因改造技术,脑机接口,智能化个体。   大梦界:观照心灵 幸福机器

  元宇宙是可以随时接入的梦,个体使用VR设备容易进入梦境。   一般情况,梦可以看做是无输入无输出的单机版的元宇宙。   人类在梦中重建了三维时空,并与具有模糊的虚拟人形象交互,这是三元化的一部分。同时,人基本能知道什么是我的,什么是他人的,这是三权化的体现。   类似诺奇克所谈的幸福机器,人类在梦中追求幸福,可以随意体验爱、快乐、财富等一切美好之物。元宇宙将增强这样一种体验,并促成虚实满足。   大神医:全息医学 显见易治

  医生视觉扩能。通过影像的整合,可以从解剖空间的多个角度,“看清”神经、血管的结构。   医学生已借助全息等技术进行血块清除或骨骼植入等手术。   数字全息人与模拟诊疗。数字全息技术比传统显微技术在图像处理和成像上具有更高效率,可以模拟真实人体器官,对手术进行模拟并提供准确判断的依据。   大智械:钢铁战衣 模态进化

  由虚拟人模拟战争结果后,可控制机器人及人工智能作战。通过算力模拟武器、部署方案,在自然人指令下,获胜率或有大幅度提升。   大遮蔽:图层叠加 超距控制

  信息遮蔽:人工智能代替人类选择信息,信息茧房形成。   器官遮蔽:人类和外部信息环境之间存在多设备的叠加层。   交互遮蔽:随着AI和机器人发展,人和权力/资本/平台打交道,越来越多是跟非人智能交互,这种交互遮蔽能够实现资本控制/平台控制最大化。   大迁业:解放人力 进化文明

  超人类的计算能力、超人类的体能、超人类的操作精度等能力使得机器人的进场会让很多职业出现“去自然人化”。   在AI技术加持下,真实世界中的脑力计算劳动大部分可能都会被替代。   虚拟人在虚拟世界中发挥体力和脑力劳动优势。   机器人服务-后人类文明的升级。核心逻辑是机器人承担繁重的生产工作后,人类社会的生产力将得到真正的、极大的解放。   大融合:多多益善 超能进化

  人类进入多星球的生态格局。   人类观察内外世界多尺度化。   人类进入多元态的生存形式。   大重启:人类永续 机器长生

  在技术终极进化下,机器人将拥有长生机制。   若未来地球资源枯竭,机器人大概率能承担起人类大重启任务。   大进阶:起承转合 天人归一

  元宇宙六大递进类型:伪准元宇宙、雏形元宇宙、标准元宇宙、完备元宇宙、高超元宇宙、极致元宇宙。   当前处于粗糙元宇宙向标准元宇宙迈进的阶段,当前阶段的目标是形成三元三权标准元宇宙。   标准元宇宙形成后,满足六识(眼、耳、鼻、舌、身、意)六觉(视觉、听觉、嗅觉、味觉、触觉、知觉)即为完备元宇宙。   在极致元宇宙中,每个人都有无数分身、无数空间、无数生态位。每个元宇宙物品都可多尺度交互。   极致元宇宙需要四大支撑:核聚变作为能源、量子计算作为算力、AI觉醒作为算法、脑机接口和长生技术作为自然人的进化。   大范式:科学开悟 自在自为

  工具解放:整合目前一切ICT工具,为重新认知、探索、观察、推演社会问题/科学问题,提供新的研究工具与方法论。   范式革新:元宇宙是大设计和大实验的载体,现在所面临的超级大转型,是人类历史上从未有过的集合思想、科技和财富的系统工程。   知沟消弭:交叉学科的逻辑就是要把不同学科的认知差填平,并在数理和物理的基础上,大幅度对人类的认知世界开疆拓土。   关键问题:核聚变 /量子计算 /强人工智能 /长生慢老。   大算力:无形之手 造化万物

  算力是实现时空互联网、体验互联网、价值互联网的必备,是构筑虚实世界的基石。   基于量子计算的算力突破是实现从粗糙元宇宙迈向极致元宇宙的路径。   大探险:星际穿越 梦翔九霄

  通过“扫描元化打包-时空隧道传输-由虚返实解码-智能建构重塑”四步,以低成本和高效率把人传送到光年之外。把物体关键信号元宇宙化,通过时空通道传递意识包裹,实现肉身在地,而意识和特征跨越时空。   星际层面,对人的界定,在极简情况下只需要对应DNA和大脑微观神经网络。科幻点说,需要考虑灵魂是否能够脱离物质存在,大脑意识能否被拷贝和上传云端。   大演化:瞬息全宇 破碎虚空

  真宇宙:按时间发展依次是奇点宇宙、物质宇宙、生命宇宙和人宇宙。   元宇宙:元宇宙从一元宇宙,到多个元宇宙应用,再到跨元宇宙,最后是超元宇宙。   多元宇宙是多个平行真宇宙和元宇宙的集合。   高维宇宙:更高、更多维度的宇宙。   瞬息全宇宙:主体在一瞬、一息之间快速转换。在不同的宇宙中穿梭,意识、活动具象化。 具体内容如下

成为VIP会员查看完整内容
91

现代安全威胁的特点是随机的、动态的、部分可观察的和模糊的作战环境。这项研究解决了在这种复杂安全威胁的作战规划、分析和评估中的不确定性决策问题。首先,对不确定性建模、决策和不确定性下的优化的文献进行了回顾,重点是模糊性建模和优化实践方面的最新进展。这一回顾为后续的方法论和应用研究提供了一个框架,并对文献中不确定性下的决策和优化的当代应用进行了全面回顾。接下来,对军事评估的不确定性模型的调查涉及定性和混合方法,以补充文献回顾中讨论的定量模型。这项调查为实践者提供了一个基于研究的指南,以便将定性但严格的不确定性模型应用于实际评估问题。

在对现有文献和实践的回顾之后,本研究开发了一种在推理环境下的不确定性决策的新方法。稳健的序贯推理方法解决了一类普遍的队列问题,其中内部排队系统是不可观察的,出发和到达时间是随机的和部分可观察的。这项工作提高了决策者在不确定环境中分析队列的能力,使用的原则性方法可证明收敛于真实参数值,并具有强大的经验性能。

接下来,这项研究从推理过渡到序贯决策,采用了一种原始的表述和解决方法,用于在动态、部分可观察和模糊的环境中进行稳健的信息收集。该解决方法具有理想的理论凸性和收敛特性。一个计算实验表明,与现有方法相比,文献中的一组经典问题的性能得到了改善。此外,对一个网络安全检测问题的详细应用说明了新的表述和解决方法的功效。

最后,针对动态的、随机的和部分可观察的多Agent环境,提出了解决大规模的、具有不完美信息的广义形式游戏的最佳和近似技术的新应用。这项工作为多领域网络和防空问题的最优和近似公式提供了明确的细节,产生了接近最优的策略,描述了近似解决方案的最优性差距,并分析了结果对关键问题参数的敏感性。此外,对稳健对手利用的扩展包含了有界理性和模型模糊性。稳健的表述同时解决了问题的网络物理性质和对手的不确定性。经验证据表明,当对手以有界理性进行游戏时,稳健方法是有效的。

总的来说,这些当代调查、方法上的进步和新的应用提供了一套数学工具和计算算法,用于解决挑战性环境下不确定性的复杂决策问题。这项研究通过把握技术和实践的现状,以及将现有的算法扩展到模糊和部分可观察的环境,提高了决策和优化的能力。

引言

美国空军未来作战概念(2015a)设想了2035年的挑战性安全环境。敌方可能有能力以达到不成比例的破坏性效果的方式进行完全一体化的多领域行动。考虑到不仅要威慑和应对弹道导弹攻击,而且要威慑和应对综合信息活动和网络渗透的难度增加。这种联合作战的演变所产生的协同效应使得作战艺术和作战科学都必须得到改进。

正如2018年国防战略(Mattis,2018年)所强调的那样,多领域攻击小品中引入的关切延伸到更广泛的安全界。安全环境正经历着快速的技术革新,并变得越来越复杂和不确定。复杂的环境和适应性强的对手对预测未来结果的能力造成了根本的限制,尤其是在战略层面。然而,在许多规划和评估问题中,行动环境是复杂的,但还没有复杂到完全缺乏决策信息的程度。环境也很少被清楚地定义和理解,以至于不确定性可以忽略不计。决策者面对的是一个动态的环境,其特点是有思想的对手和不同程度的不确定性、模糊性和部分可观察性。决策者应该如何应对这样一个具有挑战性的环境?

在快速的技术变革带来安全挑战的同时,它也带来了新的机遇。不断提高的计算能力补充了统计、模拟和优化算法的基础性改进,提高了决策问题的定量方法的能力。运筹学方法和来自应用数学、统计学、计算机科学、机器学习和人工智能的密切相关技术现在可以在实际规模上解决不确定性下的复杂决策问题。虽然一些最重要和最困难的安全问题仍然不在定量算法的范围内,但利用新兴的解决技术来扩大现代运筹学方法可解决的问题类别,是一种战略上的需要。

这些方法的最新进展集中在利用各种复杂环境中的部分知识。很少有操作环境是完全已知或完全未知的情况。相反,由于部分可观察的状态和奖励、模糊的过渡动态和智能对手,决策者会遇到不确定性。利用有关作战环境的部分信息使决策者能够通过接受不确定性和开发对快速发展的环境和对手具有鲁棒性的解决方案来改进决策。这篇论文的重点是解决以静态、动态和多Agent环境中的随机、部分可观察和模糊环境为特征的决策问题。

本学位论文的结构是一系列独立的学术文章,讨论作战规划、分析和评估中不确定性下的决策这一主题。

  • 第二章回顾了不确定性下的决策和优化的文献,重点是模糊性模型和优化实践的最新进展。

  • 第三章对第二章中定量文献的理论回顾进行了补充,对定性的不确定性和军事评估实践的应用进行了调查。第四章、第五章和第六章在第二章和第三章的基础文献的基础上,分别探讨了静态、动态和多Agent环境下的不确定性决策。

  • 第四章开发了一种新的方法,用于对部分可观察的、随机的到达和离开时间进行稳健的队列推理。这个一般的方法适用于任意的队列,但具体的动机是网络安全和恐怖主义的应用。

  • 第五章开发了一种在动态的、部分可观察的和模糊的环境中进行稳健信息收集的新方法,并扩展应用于网络安全检测问题。

  • 第六章介绍了一个新的应用,即利用最优和近似技术解决具有不完善信息的广义形式游戏的多域网络和防空问题。

1.1 总结

特别是第二章,为后面几章的方法论和应用研究提供了理论基础的回顾。决策方面的最新进展是将风险和模糊性纳入决策模型和优化方法中。这些方法实现了各种来自概率论和非概率论基础的不确定性表示,包括传统的概率论、不确定性集、模糊性集、可能性理论、证据理论、模糊度量和不精确概率。不确定性表示法的选择影响了决策模型的可表达性和可操作性。本章调查了最近在决策和优化中表示不确定性的方法,以澄清替代表示法之间的权衡。对稳健和分布稳健的优化进行了调查,并特别关注标准形式的模糊性集合。不确定性和决策模型的应用也被回顾,重点是最近的优化应用。

第三章补充了第二章的定量工作,重点调查了军事评估中的不确定性模型。评估理论为军事行动评估的实践提供了一个严格的基础。政府和工业界的评估人员已经利用评估理论在广泛的领域内提高了评估的有效性。本章重点讨论评价理论与军事评估之间的关系。本章简要地调查了主要的评估方法,重点是将理论模型与实际的、与安全有关的应用联系起来。这些评估方法包括专家导向、方案导向、决策导向和参与导向模式。在这些方法的总体框架内,详细考虑了替代的监测和评估设计,包括描述性设计(如案例研究、横断面、时间序列)、准实验性设计(如中断的时间序列、比较组、案例研究)和实验性设计(如仅后测、前测)。然后,本章讨论了用于分析和报告每种设计方案的不确定性的定量和定性方法,重点是混合方法。在整个章节中,应用实例明确了评价理论和运行评估实践之间的关系。

第四章开发了一种新的稳健队列推断方法。在一些军事和竞争性商业应用中,队列的内部结构和参数是完全不可观察的。此外,到达和离开的时间可能是可观察的,但由于在对抗环境中的测量误差,会有很大的不确定性。本分析使用基于订单的方法估计内部不可观察的、先到先得的G/G/c队列中的服务器数量。这种新方法提供了一个下限,并在概率上收敛到了正确的值。与标准的方差最小化方法相比,基于秩序的方法对小样本的性能有所提高。基于订单的算法对到达和离开时间测量中的噪声具有鲁棒性,而方差最小化方法在有噪声的数据中表现出较差的性能。我们还考虑了对 "后到先得 "的G/G/C队列的扩展。基于顺序的后到先得的方法也提供了一个下限,该下限在概率上收敛到正确的服务器数量。

第五章为部分可观察的马尔科夫决策过程(POMDPs)的稳健解决方案开发了一种新的表述和方法,该过程具有模糊的过渡和信仰奖励。本章介绍了稳健的信念奖励部分可观察马尔可夫决策过程,作为马尔可夫决策过程的一个概括,它允许状态的不确定性、模型的不确定性和依赖信念的奖励。在许多实际应用中,POMDP的过渡和观测参数很难估计。这项研究表明,传统的POMDP求解技术对模型的错误指定非常敏感,特别是在信仰-奖励的设置中。为了应对这一挑战,我们开发了一种稳健的信念奖励算法,它扩展了基于点的价值迭代,同时保留了理想的灵活性和收敛特性。除了基础理论属性外,一项实证调查显示,稳健的求解技术在几个不同的问题类别中提供了对模型错误指定的保护。为了说明解决模型错误指定对信息获取问题的重要性,本章还介绍了稳健的信念-回报POMDP公式在网络安全问题上的应用,它显示了在最坏情况下的性能改进。

第六章介绍了最优和近似广义形式求解技术在信息不完善的综合网络和防空问题上的新应用。新兴的多领域威胁需要一个综合防御战略。本章开发了多领域安全游戏,以解决对国家人口中心的网络-物理综合威胁。这项研究使用零和、广义形式的博弈来模拟物理和网络空间中的攻击者和防御者,借鉴网络安全和弹道导弹防御的文献来告知博弈结构。为了确定最佳的防御者策略,我们开发了一个多领域的安全博弈,并对问题进行了重新表述,以使用一个有效的序列形式的线性程序找到纳什均衡。本章还开发了一个近似的反事实遗憾最小化算法在这个问题上的应用,并描述了最优性差距。此外,这项研究还量化了网络领域中改进的态势感知的价值,并提出了对强大的对手利用的扩展。

1.2 贡献

这部著作中的文献综述、方法论进展和应用,对整个运筹学领域,特别是对军事和安全运筹学实践做出了贡献。关于不确定性下的决策和优化的文献综述(第二章)将关于理论不确定性模型、决策模型和优化模型的不同文献组织成一个连贯的结构,并确定了这三个研究领域之间的关系。此外,对军事评估中的不确定性模型的调查(第三章)为实践者提供了一个基于研究的指南,以便将定性但严格的不确定性模型应用于评估问题,从而对军事行动研究实践做出了贡献。

在这些现有文献的基础上,一种新的稳健队列推断方法通过提高决策者在不确定环境中分析队列的能力,对该领域做出了贡献(第四章)。这种服务器估计方法对一大类一般队列有效,对队列结构的了解有限,到达和离开的样本小而嘈杂。这项研究证明,该方法产生的估计值具有理论上的收敛性和下限保证。它还提出了在广泛的参数设置中与现有方法相比性能提高的经验证据。

延伸序贯决策,一个原始的稳健的信念-回报POMDP公式和一个新开发的解决算法为该领域提供了工具,以解决模型模糊下的一类新的信息收集问题(第五章)。这项研究证明了该求解技术具有理论上的凸性和收敛性,使其与成熟的近似技术系列兼容。它还提出了经验证据,证明与现有方法相比,文献中的一组经典问题和模糊环境下的实际网络安全检测问题的性能有所提高。

最后,在一个多领域的网络和防空问题上,反事实遗憾最小化的应用通过用快速、接近最优的技术解决一个当代的操作问题,为文献做出了贡献(第六章)。这个新的应用提供了该问题的最优和近似公式的明确细节,并描述了多域安全环境下的最优性差距和对关键问题参数的敏感性,这与最近的其他应用有很大不同。它还提出了一个原创的稳健公式,解决了问题的网络物理性质和对抗性的不确定性。经验证据表明,当对手以有界理性进行游戏时,稳健方法是有效的。

除了通过发表调查、方法、应用和结果对文献做出贡献外,本论文还为所有方法提供了开源软件实现,并公布了所有结果的原始数据。这些代码和数据产品都可以在https://github.com/ajkeith,并提供测试、基准测试和文档。

成为VIP会员查看完整内容
88

深度强化学习(Deep Reinforcement Learning, Deep RL)结合了深度学习和强化学习,人工智能体通过学习来解决顺序决策问题。在过去的十年中,深度RL在一系列问题上取得了显著的成果,从单人和多人游戏(如围棋、Atari游戏和DotA 2)到机器人。

《深度强化学习基础》是对深度学习的介绍,独特地结合了理论和实现。它从直觉开始,然后仔细地解释了深度RL算法的理论,讨论了其伴生软件库SLM Lab中的实现,最后介绍了使深度RL工作的实际细节。 本指南对于熟悉基本机器学习概念并对Python有实际理解的计算机科学学生和软件工程师都是理想的。

理解深度RL问题的每个关键方面 * 探索基于策略和价值的算法,包括REINFORCE、SARSA、DQN、Double DQN和优先体验重放(PER) * 深入研究组合算法,包括actor - critical和近端策略优化(PPO) * 理解如何同步和异步并行算法 * 在SLM Lab中运行算法,学习深入RL工作的实际实现细节 * 探索调优超参数的算法基准测试结果 * 理解深度RL环境是如何设计的

成为VIP会员查看完整内容
82

机器学习的目标是让计算机使用示例数据或过去的经验来解决给定的问题。机器学习是自动驾驶汽车、语音识别和翻译应用等令人兴奋的新技术的基础。这是一个全面的,广泛使用的机器学习教科书的实质性修订第四版,提供了在理论和实践领域的最新进展的新覆盖面,包括深度学习和神经网络的发展。这本书涵盖了广泛的主题,通常不包括在介绍性机器学习文本,包括监督学习,贝叶斯决策理论,参数方法,半参数方法,非参数方法,多元分析,隐马尔可夫模型,强化学习,核机器,图形模型,贝叶斯估计,统计检验。第四版提供了一个关于深度学习的新章节,讨论了训练、正则化和构造深度神经网络,如卷积和生成对抗网络;强化学习一章的新材料,涵盖了深度网络的使用,策略梯度方法和深度强化学习;关于自动编码器和word2vec网络的多层感知器一章的新材料;讨论了一种流行的降维方法t-SNE。新的附录提供了线性代数和优化的背景材料。章末练习帮助读者运用所学的概念。机器学习导论可用于高级本科生和研究生的课程,也可作为专业人员的参考。https://mitpress.mit.edu/9780262043793/introduction-to-machine-learning/

成为VIP会员查看完整内容
78

深度神经网络(DNNs)以其密集而复杂的算法为人工通用智能(AGI)提供了真正的可能性。使用DNNs的元学习使AGI更加接近:人工代理解决人类可以完成的智能任务,甚至超越人类的能力。元学习:理论、算法和应用展示了元学习如何与DNNs结合向AGI发展。

https://creatingconversations.indielite.org/book/9780323899314

这本书通过回答这些问题来解释元学习的基本原理:什么是元学习?为什么我们需要元学习?自我改进的元学习机制如何走向AGI ?我们如何在具体的场景中使用元学习?本书介绍了七种主流范式的背景:元学习、少样本学习、深度学习、迁移学习、机器学习、概率建模和贝叶斯推理。然后解释了重要的最先进的机制及其元学习的变体,包括记忆增强神经网络、元网络、卷积暹罗神经网络、匹配网络、原型网络、关系网络、LSTM元学习、模型不确定元学习和爬虫算法。这本书深入研究了来自顶级会议的近200种最先进的元学习算法(例如NeurIPS、ICML、CVPR、ACL、ICLR、KDD)。它系统地研究了来自11个真实世界应用领域的39类任务:计算机视觉、自然语言处理、元强化学习、医疗保健、金融和经济、建筑材料、图形神经网络、程序合成、智慧城市、推荐系统和气候科学。每个应用程序字段通过展望未来趋势或提供可用资源的摘要来结束。《元学习:理论、算法和应用》是了解元学习原理和学习最先进的元学习算法的重要资源,使学生、研究人员和行业专业人员能够将元学习应用于各种新颖的应用。

  • -综合概述与深度神经网络相关的最先进的元学习技术和方法,以及广泛的应用领域
  • -覆盖近200种最先进的元学习算法,这些算法由全球首屈一指的人工智能会议和期刊推广,以及300至450项关键研究。
  • -系统详细地探索最关键的最先进的元学习算法机制:基于模型、基于度量和基于优化。
  • -解决了使用深度学习和/或机器学习方法的局限性,特别是在小样本量和未标记数据的情况下
  • -理解元学习如何在11个现实世界应用领域的39类任务中作为人工通用智能的垫脚石。

成为VIP会员查看完整内容
71

计算是人类文明发展的重要动力。近年来,我们见证了智能计算的出现,一种新的计算范式正在重塑传统计算,以新的计算理论、架构、方法、系统和应用在大数据、人工智能和物联网时代推动着数字革命。智能计算极大地拓宽了计算的范围,从传统的数据计算扩展到日益多样化的计算范式,如感知智能、认知智能、自主智能和人机融合智能。长期以来,智能和计算经历了不同的演变和发展路径,但近年来却日益交织在一起:智能计算不仅是智能导向的,而且是智能驱动的。这种交叉融合促进了智能计算的出现和快速发展。智能计算仍处于初级阶段,智能计算在理论、系统和应用方面的大量创新有望很快出现。我们提出了第一个关于智能计算的文献综合调查,涵盖了其理论基础,智能和计算的技术融合,重要的应用,挑战,和未来的展望。我们相信这项调查是非常及时的,它将为学术和工业研究人员和从业者提供全面的参考和有价值的见解。

1. 引言

人类社会正从信息社会进入智能社会,计算已成为构建和推动社会发展的关键因素。在万物互联的数字文明新时代,传统的数据计算已经远远不能满足人类日益增长的对更高水平智能的追求。人们对智能计算的兴趣日益浓厚,加上计算科学的发展,对物理世界的智能感知,以及对人类意识认知机制的理解,共同提升了计算的智能水平,加速了知识的发现和创造。

近年来,计算和信息技术飞速发展,其中,由于深度学习的空前普及和成功,人工智能(AI)已被确立为人类探索机器智能的前沿。在此基础上,产生了一系列突破性的研究成果,包括Yann LeCun提出的卷积神经网络(convolutional neural network, CNN)和Yoshua Bengio在深度学习因果推理领域的贡献[1,2]。人工智能的先驱之一Geoffrey Hinton在2006年[3]提出了深度信念网络模型和反向传播优化算法。另一位重要的人工智能研究者J¨urgen Schmidhuber提出了应用最广泛的循环神经网络(RNN),即长短期记忆(LSTM)[4]。它已成功地应用于许多领域,以处理完整的数据序列,如语音、视频和时间序列数据。2016年3月,DeepMind推出的人工智能围棋程序AlphaGo与世界顶级人类围棋大师李世石对决,引起了前所未有的全球关注。这场划时代的人机大战以人工智能的压倒性胜利而告终,并成为将人工智能浪潮推向全新水平的催化剂。

人工智能的另一个重要推动者是大型预训练模型的出现,这些模型已经开始广泛应用于自然语言和图像处理,在迁移学习的帮助下处理各种各样的应用。例如GPT-3已经证明,一个具有高度结构复杂性和大量参数的大模型可以提高深度学习的性能。在GPT-3的启发下,出现了一系列大规模深度学习模型[5-7]。 计算能力是支撑智能计算的重要元素之一。考虑到当今信息社会海量的数据源、异构的硬件配置以及不断变化的计算需求,智能计算主要通过垂直和水平架构来满足智能任务的计算能力需求。垂直架构的特点是计算基础设施同质化,主要是通过智能方法提高计算能力,提高资源利用效率。相比之下,横向架构对异构和广域计算资源进行协调和调度,使协同计算的效率最大化。例如,2020年4月,为了响应全球新冠肺炎研究的计算需求,Folding@home在3周内联合40万计算志愿者,实现了2.5 Exaflops的计算能力,超过世界上任何一台超级计算机[8]。这是一个成功的横向计算协作,以实现如此巨大的计算能力。

尽管在智能和计算方面已经取得了巨大的成功,但我们在以下两个各自的领域仍然面临着一些主要的挑战:

**智能的挑战。**使用深度学习的人工智能目前在可解释性、通用性、可进化性和自主性方面面临重大挑战。与人类智能相比,目前大多数人工智能技术的作用都很弱,而且只在特定领域或任务中发挥作用。实现强大和通用的人工智能还有很长的路要走。最后,从基于数据的智能升级到更多样化的智能形式也存在重大的理论和技术挑战,包括感知智能、认知智能、自主智能和人机融合智能,等等。

**计算的挑战。**数字化浪潮带来了前所未有的应用程序、连接、终端和用户的增长,以及生成的数据量,所有这些都需要巨大的计算能力。例如,人工智能所需的计算能力每100天翻一番,预计在未来5年将增加100多万倍。随着摩尔定律的变慢,要满足如此快速增长的计算能力需求变得具有挑战性。此外,智能社会中的巨大任务依赖于各种特定计算资源的有效组合。传统的硬件模式不能很好地适应智能算法,制约了软件的发展。

到目前为止,智能计算还没有被普遍接受的定义。有研究者认为智能计算是人工智能与计算技术的结合[9-11]。根据人工智能的发展,它标志着智能计算系统的三个不同里程碑。这种视角限制了人工智能领域内智能计算的定义,同时忽略了人工智能的固有局限性以及人、机器和物之间三元交互的重要作用。另一个学派认为智能计算是计算智能。该领域模仿人类或生物智能,实现解决特定问题的最优算法[12],并将智能计算主要视为一种算法创新。然而,它没有考虑到计算架构和物联网(IoT)在智能计算中扮演的重要角色。我们从解决复杂科学和社会问题的角度出发,考虑到世界的三个基本空间,即人类社会空间、物理空间和信息空间日益紧密的融合,提出了智能计算的新定义。

定义1(智能计算) 智能计算是指在支持全球互联互通的数字文明时代,包含新的计算理论方法、体系结构体系和技术能力的领域。智能计算根据具体的实际需求,以最小的代价来针对计算任务,匹配足够的计算能力,调用最优的算法,得到最优的结果。

智能计算的新定义是为了响应人类社会、物理世界和信息空间三重融合的快速增长的计算需求而提出的。智能计算以人为本,追求高计算能力、节能、智能、安全。其目标是提供通用、高效、安全、自主、可靠和透明的计算服务,以支持大规模和复杂的计算任务。图1显示了智能计算的总体理论框架,它体现了各种各样的计算范式,支持人-物理-信息集成。

首先,智能计算既不是对现有超级计算、云计算、边缘计算以及神经形态计算、光电计算、量子计算等计算技术的替代,也不是简单的集成。而是根据任务要求,系统地、整体地优化现有计算方法和资源,解决实际问题的一种计算形式。相比之下,现有的主要计算学科,如超级计算、云计算和边缘计算,属于不同的领域。超级计算追求高计算能力[13],云计算强调跨平台/设备便捷性[14],边缘计算追求服务质量和传输效率。智能计算可以动态协调边缘计算、云计算和超级计算等领域的数据存储、通信和计算。构建多种跨域智能计算系统,支持端到端云协作、云间协作、超级计算互联。智能计算既要利用好现有的计算技术,更要促进新的智能计算理论、架构、算法和系统的形成。

其次,提出智能计算,以解决未来人-物理-信息空间融合发展中存在的问题。随着大数据时代信息技术应用的发展,物理空间、数字空间和人类社会的界限越来越模糊。人类世界已经进化成一个人、机器、物紧密融合的新空间。我们的社会系统、信息系统和物理环境构成了一个巨大的动态耦合系统,人、机、物以高度复杂的方式融合在一起并相互作用,这促进了未来新的计算技术和应用场景的发展和创新。 我们提出了智能计算文献中的第一个全面调查,涵盖了其理论基础,智能和计算的技术融合,重要的应用,挑战,和未来的展望。据我们所知,这是第一篇正式提出智能计算定义及其统一理论框架的综述文章。我们希望这篇综述能够为学术界和工业界的研究人员和实践者提供全面的参考和有价值的见解。

本文的其余部分组织如下。第2节介绍智能计算的基础。第3节总结了各种智能方面赋予的提高计算性能的计算方法。第4节介绍了大型计算系统、新兴的计算架构和满足智能模型对计算能力的迫切需求的模式。第5节展示了智能计算在科学和社会领域的几个重要应用。第6节介绍了对智能计算未来发展的展望。最后,第七部分对全文进行了总结。图2显示了论文的主要结构。

2. 智能计算基础

智能计算是数字文明时代支持万物互联的新计算理论方法、架构系统和技术能力的总称。它探索了许多经典和前沿研究领域的创新,以解决复杂的科学和社会问题。智能计算的基本要素包括人类智能、机器能力和由所有事物组成的物理世界。在本节中,我们将介绍智能计算所期望的智能能力和计算能力。我们还描述了智能计算的特点以及在人-物理-信息世界中如何将智能和计算结合起来。

在该理论框架中,人是智能计算的核心,是智慧的源泉,代表着原始的、固有的智能——元智能。元智能包括理解、表达、抽象、推理、创造、反思等人类高级能力,其中包含了人类积累的知识[15-21]。所有的智能系统都是由人类设计和建造的。因此,在智能计算的理论体系中,人的智慧是智能的源泉,而计算机是由人的智能赋予的。我们称计算机的智能为通用智能。通用智能是指计算机解决复杂问题的能力,具有广泛的外延,包括自然语言处理[22]、图像识别[23]、语音识别[24]、目标检测与跟踪[25]等。元智能和一般智能之间的关系如图3所示,并在以下部分详细说明。

智能计算面临大场景、大数据、大问题、无所不在需求的挑战。算法模型变得越来越复杂,需要超级计算能力来支持越来越大的模型训练。目前,计算资源已成为提高计算机智能研究水平的障碍。随着智能算法的发展,计算资源丰富的机构可能会形成系统的技术垄断。经典的超级计算机不适合人工智能对计算能力的需求。虽然算法优化可以在一定程度上减少对计算能力的需求,但并不能从根本上解决这个问题。需要从体系结构、加速模块、集成模式、软件栈等多个维度进行全面优化。

在本小节中,我们首先介绍智能计算发展的主要特征,然后揭示获得这些关键特征的创新路径。

3**. 计算智能基础**

提高计算的通用性是智能计算的关键。现实场景中的问题,如模拟、图形等,需要各种各样的计算。智能计算的另一个关键点是如何提高计算的智能水平。从经验上讲,我们都需要向自然界的智能生物学习,计算也不例外,比如三种经典的智能方法:人工神经网络、模糊系统和进化计算。智能计算理论包括但不限于上述类型的计算,以达到高水平的普遍性和智能化。

4. 面向智能的计算

深度学习的2012年的开创性模型相比,2020年公布的最大模型需要600万倍的计算能力。在强调了这一趋势并试图量化2018年的增长速度后,OpenAI的研究人员得出结论,这种快速增长不可能永远保持下去。事实上,隐现的经济放缓可能已经开始。从历史上看,人工智能的快速变化一直是由新想法或革命性理论推动的。通常,最新的最先进的模型只依赖于更大的神经网络和更强大的处理系统,而不是以前用来实现相同目标的那些。OpenAI的研究人员在2018年进行了一项基于计算能力跟踪最大模型增长的研究[159]。在人工智能研究的历史中,他们使用必要的计算量来训练一些最著名的人工智能模型,他们发现随着计算资源的快速增长有两个趋势。他们的研究表明,开发一个突破性模型所需的计算能力的增长速度与摩尔定律(Moore’s law)几乎相同。摩尔定律是一个长期存在的观察,即在2012年之前,单个微芯片的计算能力往往每两年翻一番。

5. 智能计算应用

5.1面向科学的智能计算

5.2智能计算促进经济和治理

成为VIP会员查看完整内容
84

2005年首次出版时,《矩阵数学》迅速成为工程、科学和应用数学的所有分支中矩阵用户的必备参考书。在这个完全更新和扩展的版本中,作者汇集了矩阵理论的最新结果,使这成为矩阵上最完整的,当前的和易于使用的书。

每一章都描述了相关的背景理论,然后是专门的结果。数以百计的恒等式、不等式和矩阵事实通过交叉引用、文献引用和启发性评论清楚而严格地陈述。从集合、函数和关系的初步开始,矩阵数学涵盖了矩阵理论中的所有主要主题,包括矩阵变换;多项式矩阵;矩阵分解;广义逆;Kronecker和Schur代数;半正定矩阵;向量和矩阵范数;矩阵指数与稳定性理论;线性系统和控制理论。还包括符号的详细列表,符号和惯例的摘要,广泛的参考书目和作者索引与页面引用,以及详尽的主题索引。这个显著扩展版的矩阵数学的特点在图上的新材料,标量恒等式和不等式,可选偏序,矩阵铅笔,有限组,多变量传递函数的零,多项式的根,凸函数,和矩阵规范。

涵盖了数以百计的矩阵理论的重要和有用的结果,许多以前从未在任何书中可用 提供符号列表和约定摘要,以方便使用 包括标量恒等式和不等式的广泛集合 功能一个详细的参考书目和作者索引与页面引用 包括一个详尽的主题索引与交叉引用

成为VIP会员查看完整内容
77

这本书清楚地解释了数字孪生技术的基本原理及其应用和各种工业现实例子。数字孪生基本上是指任何物体或产品以数字形式复制的模型。数字孪生有许多优点,因为它可以保持与正在复制的原始对象或产品的连接,并接收实时数据。因此,在产品或对象中可能遇到的障碍和问题在实际发生之前就可以知道,这有助于防止可能发生的错误和重大损失。数字孪生技术的各种功能使其成为一个强大的工具,可以有效地促进医疗保健、汽车和建筑行业等各个部门的发展。虽然这项技术已经进入各个部门,但还没有得到必要的宣传,以提高这些行业对其潜力的认识。因此,对数字孪生技术的更好理解是至关重要的,以促进增长,并将其应用于各个行业,从而迎来转型。因此,这本书的设计是一个有用的资源,为那些想成为熟悉数字孪生技术。

数字孪生技术的各种功能使其成为一个强大的工具,可以有效地促进医疗保健、汽车和建筑行业等不同部门的发展。虽然这项技术已经进入了各个领域,但不幸的是,它还没有得到必要的曝光,以提高人们对其在这些行业中的潜力的认识。因此,需要更好地理解数字孪生技术,促进其在不同行业的应用,以帮助其发展。如果在诸如医疗保健、汽车等工业部门适当地实施,它不仅会给这些部门带来巨大的好处,而且会给它们带来巨大的积极转变。因此,这本书的设计是一个有用的资源,为那些想成为熟悉数字孪生技术。简要地说,它解释了数字孪生的基本原理,以及它的应用和各种其他方面。下面是对每一章所涵盖的信息的简要描述。

成为VIP会员查看完整内容
60

本书全面讨论了最新的数学建模技术及其在模糊建模、信号处理、神经网络、机器学习、图像处理及其数值分析等各个领域的应用。进一步介绍了图像处理技术,如用于人脸检测的Viola-Jones方法和用于行人视频情感的模糊方法。它将作为机械工程、电子、通信工程、计算机工程和数学领域的研究生和学术研究人员的理想参考文本。

  • 讨论神经网络、机器学习、图像处理和数学建模的应用
  • 提供机器学习和基于图像处理问题的模拟技术
  • 强调疾病检测中的人工智能和机器学习技术
  • 介绍数学建模技术,如小波变换,微分方程建模,多维数据的数值技术
  • 包括现实生活中的问题,以便更好地理解

这本书提出了数学建模技术,如小波变换,微分方程,和多维数据的数值技术。它将作为一个理想的参考文本研究生和学术研究人员在不同的工程领域,如机械,电子和通信,和计算机工程。

成为VIP会员查看完整内容
62

虽然许多人工智能入门指南都是微积分书的伪装,但这本书大多回避了数学。相反,作者Jeff proise帮助工程师和软件开发人员建立对AI的直观理解,以解决商业问题。需要创建一个系统来检测雨林中非法砍伐的声音,分析文本的情感,或预测旋转机械的早期故障?这本实用的书教你把人工智能和机器学习在你的公司工作的必要技能。

Applied Machine Learning and AI for Engineers提供了来自Prosise在世界各地的公司和研究机构教授的AI和ML课程的示例和说明。没有繁琐的程序,也没有可怕的方程式——只是为工程师和软件开发人员提供了一个快速的入门,并配有实际操作的例子。

https://www.oreilly.com/library/view/applied-machine-learning/9781492098041/

这本书可以帮助你: * 了解什么是机器学习和深度学习,以及它们可以实现什么 * 了解流行的学习算法是如何工作的以及何时应用它们 * 使用Scikit-Learn用Python建立机器学习模型,使用Keras和TensorFlow建立神经网络 * 训练和评分回归模型和二元和多级分类模型 * 建立人脸识别模型和物体检测模型 * 构建响应自然语言查询并将文本翻译为其他语言的语言模型 * 使用认知服务将人工智能注入到你编写的应用程序中

成为VIP会员查看完整内容
62

低成本、小型机器人平台的广泛使用,催生了机器人群。在机器人群中,大量的小型机器人平台共同运作,协作完成一项复杂的任务。在所有有用的应用中,机器人群技术也可能对安全关键领域构成威胁。在机场、军事基地、政府设施等安全关键区域周围出现敌对的机器人群,意图收集关键信息,或对该区域进行物理破坏,可能会造成灾难性的后果。在这篇论文中,我们考虑了一个多智能体的区域防御游戏,它由以下部分组成:1)一队或一群自主的、敌对的机器人平台(称为攻击者),旨在到达一个安全关键区域,2)一队自主的机器人平台(称为防御者),旨在阻止攻击者到达安全关键区域,从而防止攻击者可能造成的任何损害。我们考虑两种类型的攻击者:i)风险规避型,即关心自己生存的攻击者;ii)风险承担型,即不一定关心自己的生存,试图到达安全关键区域的攻击者。我们为防御者团队提供协作任务分配和运动规划算法,这样他们就可以防止因安全关键区域附近存在规避风险和承担风险的攻击者而可能造成的损害。

首先,我们开发了一种叫做 "StringNet Herding"的放牧算法,让防卫者将规避风险的攻击者赶到一个预先指定的安全区域,在一个障碍物密集的环境中远离安全关键区域。我们假设规避风险的攻击者通过远离防御者和环境中的其他静态和动态智能体来避免对自己的伤害。在 "StringNet Herding "方法中,"规避风险的攻击者 "被围在由防御者形成的封闭的障碍物队列中,称为 "StringNet",这样,攻击者的运动被限制在 "StringNet "的内部,攻击者可以被安全地赶到安全区域。开发了一个开环时间最优和状态反馈有限时间控制法的组合,为防御者在障碍物密集的环境中成功进行 "StringNet Herding"提供了一个策略。StringNet Herding通过模拟以及使用内部制造的四旋翼飞行器的实验演示得到了证明。然后,"StringNet Herding "方法被扩展到对抗性蜂群可能分裂成多个小蜂群的情况。对于多群的情况,使用基于密度的空间聚类算法(DBSCAN)来识别空间上呆在一起的攻击者群(或集群)。然后,提供一个混合整数二次约束规划(MIQCP)和一个基于几何学的启发式方法,将防御者分成较小的团队,并将这些团队分配到攻击者群中去。StringNet Herding方法也被扩展到三维环境。

第二,为防御者开发了一种防御者之间的碰撞感知拦截策略(IDCAIS),以尽可能快地拦截尽可能多的冒险攻击者,同时确保防御者之间不发生碰撞。特别是,防卫者被分配到使用混合整数二次规划(MIQP)拦截攻击者,该规划:1)在时间最优控制下,最小化防御者捕获攻击者的时间总和;2)有助于消除或推迟防御者之间在最优轨迹上可能发生的碰撞。为了防止在最优轨迹上不可避免的碰撞,或由于攻击者的时间次优行为而产生的碰撞,为每个防御者提供了一个使用指数控制障碍函数(ECBF)的最小增强控制。

最后,我们为防御者提供了一个综合战略,以防御安全关键区域的风险规避者和冒险攻击者的各种行为。我们通过在一个协作框架内将针对规避风险的攻击者的 "StringNet Herding "策略和针对承担风险的攻击者的碰撞感知拦截策略IDCAIS结合起来,来制定这一策略。使用混合整数规划(MIPs)和几何启发式方法开发了几种算法,以分组和分配防御者团队或单个防御者,来驱赶规避风险的攻击者群,或拦截冒险的攻击者,以应对攻击者的行为,如分裂成更小的群来躲避防御者,或由一些冒险的攻击者进行高速机动以最大化对保护区域的破坏。我们提供了这些MIPs和几何启发式启发法的计算成本的理论和数值比较。

研究动机

由于最近的技术进步,自主系统(地面、海洋或空中)正变得无处不在。例如,根据美联邦航空管理局的网站,截至2021年,美利坚合众国(USA)有超过86万架无人机注册[1]。低成本技术已经催生了机器人(或机器人)群[2,3]。在机器人群中,大量的机器人车辆被一起使用,利用彼此间的局部互动,协作完成复杂的任务。这种协作可以提供:1)对系统部件故障的鲁棒性,2)适应性,以及3)可扩展性。特别是,地面、海洋或空中机器人群正在被部署以完成:搜索和救援任务[4],[5];灾害管理[6-8];农业[9,10]和海洋[11]环境中的监测和测绘;空中包裹投递[12];以及合作运输[13-15]等。机器人群的大量应用清单可以在评论文章[16]中找到。

图1.1 集群机器人的应用

这类应用需要集群中各个智能体之间的合作,因此需要开发协作性任务分配、运动规划和控制算法,以实现手头的应用目标。一些智能体因故障而不合作,或因外部实体而不合作,对上述目标构成了进一步的挑战。

然而,在机场、政府和军事设施等安全关键基础设施附近出现成群的对抗性智能体(攻击者),旨在造成物理破坏或收集关键信息,可能导致灾难性的后果。例如,媒体上有关于蜂群攻击军事基地的新闻[19-21]。在本论文中,我们考虑两种类型的对抗性智能体(攻击者):1)规避风险的(自利的)攻击者,或2)承担风险的攻击者。规避风险的攻击者是指那些不一定想为手头的任务冒生命危险的攻击者。因此,我们假设规避风险的攻击者更可能试图避免与其他静态或动态智能体的碰撞,以避免对自己造成任何损害。我们还假设,规避风险的攻击者可能更有兴趣通过在安全关键区域(保护区)周围闲逛来收集关键信息,而不是打算对保护区进行物理破坏。另一方面,承担风险的攻击者被认为与他们的任务相比,他们对自己的生存有较低的优先权。这样的攻击者可能对物理上破坏保护区感兴趣。攻击者的风险规避程度可能有所不同。此外,攻击者可能1)相互合作,作为一个蜂群集合在一起,或者2)相互之间不合作。攻击者的各种可能的行为以及它们的后果,要求仔细设计防御团队的协作任务分配、运动规划和控制算法,以保护安全关键的基础设施免受攻击团队的影响。

保护安全关键区域不受冒险攻击者影响的一个可能机制是拦截或捕获这些攻击者(见图1.2a的一个例子)。研究表明,防卫者(防卫者)有各种拦截或捕获策略来抵御冒险攻击者。例如,在多智能体到达-规避游戏中使用的HamiltonJacobi-Isaacs方法[22, 23],拦截多个流氓智能体的Voronoibased分区方法[24],拦截或捕获攻击者的最优控制技术[25-32]。然而,在这些方法中,防御者之间的合作并不考虑他们自己的安全,以试图拦截或捕获冒险的攻击者。此外,在城市环境中的低空,由于人类和其他脆弱实体或基础设施的存在,通过物理拦截或捕获的手段来对抗规避风险的攻击者群,如[23-32]中研究的那样,可能并不可取。在这种情况下,受动物放牧的启发(见图1.2b),可以作为一种间接的方式,将攻击者引导到一些安全区域。这样,攻击者将被安全地带离保护区,从而减少他们对保护区的威胁。一旦被带到安全区域,这些攻击者可以被摧毁,或者被重新配置,用于其他一些有用的任务。在文献中,有一些研究放牧问题的作品。例如,使用n-wavefront算法将鸟群赶出机场[33],通过利用牧群和牧民之间基于几何的互动,使用机器人牧民控制非合作的牧群[34],使用受海豚启发的包围技术限制一组智能体[35],使用势能函数通过笼子进行牧群[36]。然而,这些方法大多没有考虑到被自主智能体放牧的智能体对抗性[34-36],而有些方法没有考虑到要保护的环境中存在的安全关键区域。

图1.2 针对对手的防御机制

在这篇论文中,我们研究的问题是设计:1)一个协作决策框架,以形成防卫者的分队,并将其分配给攻击者;2)防卫者的协作运动规划算法,以应对攻击者(对手)的蜂群攻击,表现出规避风险和承担风险的行为。防御者的目标是防止对抗性攻击者的不同行为可能造成的损害。在这篇论文中,我们开发了两个任务分配和运动规划框架,以便防御者解决规避风险的攻击者(在第一个框架中)和承担风险的攻击者(在第二个框架中)。这两个框架解决了现有蜂群防御方法的一些主要缺点,如。1)简单的运动模型,如单积分器动力学;2)强烈依赖特定的势场数学形式来模拟攻击者的排斥运动;3)防御者之间缺乏合作,以避免它们之间的碰撞;4)缺乏对环境中障碍物的考虑。然后,这两个框架被结合在一起,为防御者团队提供一个系统的、协作的防御策略,以应对攻击者的各种行为。

贡献与提纲

在这篇论文中,研究了为防御者团队设计任务分配和运动规划算法的问题,以应对风险规避者和风险承担者的蜂群攻击。本论文的章节大纲和本论文对解决上述问题的具体贡献列举如下。

  • 在第2章中,开发了一种被称为 "StringNet Herding "的放牧方法,即在规避风险的攻击者群周围形成一个被称为 "StringNet "的封闭防御队形(见图1.5),使其运动被限制在StringNet的内部,然后将对抗者群放牧到一个安全区域,以保护障碍物密集环境中的一个保护区。与早期的文献相比,本章的贡献在于。i) 一种运动规划策略,该策略结合了近乎时间最优的运动规划和状态反馈,在阻尼双积分器动力学下运动的防御者的有限时间收敛、有界控制律,以完成对攻击者的驱赶,同时避开凸形多边形障碍物,该策略的实验证明,以及对设计的控制律的收敛时间的明确保证。ii)一组条件,在这些条件下,防御者能够在攻击者到达聚集地点之前,聚集在即将到来的攻击者通往保护区的最短路径上,然后将所有攻击者赶到安全区域。本章的结果是基于[99,100]中的工作。

图1.5:StringNet:攻击者群周围形成的封闭式障碍物B的队形(红色的圆圈表示攻击者,深绿色的圆圈表示防御者,连接这些防御者的白色虚线表示防御者之间的障碍物(字符串),蓝色的圆圈表示在防御者完全包围攻击者之前,防御者形成的开放性障碍物)

  • 在第3章中,第2章开发的 "StringNet Herding"方法被扩展到这样的场景:攻击者的蜂群可能会分裂成更小的蜂群,以应对防卫者的到来。特别是,使用混合整数规划(MIP)开发了集中和分散的合作算法,以分组和分配防御者将识别的不同攻击者群赶到最近的安全区域。还开发了一种受几何学启发的启发式算法,以获得对MIPs的次优但更快的分配方案。本章的结果是基于[101, 102]的工作。

  • 在第4章中,为一组防守者开发了一种防守者之间的碰撞感知拦截策略(IDCAIS),以尽快拦截尽可能多的冒险攻击者,同时确保防守者之间不发生碰撞。特别是,首先解决了防守者和攻击者之间的非零和博弈,以获得一个时间最优的防御策略,所有的防守者和攻击者对。然后开发一个混合整数二次规划(MIQP)来寻找碰撞感知的防御者-攻击者分配(CADAA),以便尽可能多地和尽可能快地捕获攻击者,同时防止或推迟防御者之间的碰撞。本章的结果目前正在审查中[103]。

  • 在第5章中,第2-3章开发的 "StringNet Herding"策略和第4章开发的碰撞感知拦截策略IDCAIS被结合在一起,以同时处理规避风险和冒险的攻击者。特别是,使用MIPs和基于几何学的启发式方法开发了几种算法,以分组和分配防御者团队或单个防御者来驱赶风险规避型攻击者群,或拦截风险规避型攻击者,以应对攻击者分裂成更小的群组来躲避防御者或一些风险规避型攻击者的高速机动以最大限度地破坏保护区域。本章的结果目前正在审查中[104]。

  • 在第6章中,"StringNet Herding"策略被扩展到三维环境中。特别是,为'StringNet Herding'策略的不同阶段设计了三种三维防御队形,对第2章中设计的控制法则进行了适当的修改以适应三维环境,然后提供了玩家初始状态的条件,在这些条件下,保证防御者在攻击者到达保护区前聚集在攻击者最短路径上的某个位置。本章的结果是基于我们在[105]的合作工作。

最后,在第7章中提供了论文的结论和未来的研究方向。

本论文中开发的任务分配和运动规划算法是考虑应用于蜂群防御问题的(如前面第1.2节开头所讨论的),然而,这些算法,无论是原样还是修改后的形式,也适用于其他场景。例如,第6章中开发的 "3D StringNet Herding "算法可用于解决[75]中研究的机器人放牧问题,该问题涉及将一群鸟从机场放牧到离机场足够远的安全区域,这样鸟群就不会再对经过机场的航班造成任何危险。

如果我们不考虑问题中的对抗性攻击者和保护区,那么这个问题可以被建模为一个协作载荷运输问题,即一队机器人围绕着最初位于已知位置的载荷(如快递包裹、紧急药品或救援任务中的人)形成所需的队形,然后将载荷运送到障碍物密集环境中的所需位置(安全区域)。在第二章介绍的 "StringNet Herding"方法中,只考虑聚集和放牧阶段,通过在聚集阶段结束时适当地改变所需的队形,就可以实现这种协作式的负载运输。

如果我们用动物代替对抗性攻击者,那么这个问题就可以被建模为使用自主机器人的动物放养问题。第2章中开发的 "StringNet Herding"算法可以用来控制防御者(自主机器人),以便将动物赶到障碍物密集环境中的一个特定区域。

如果我们把敌对的攻击者换成紧急情况下的人群(如火灾、自然灾害),那么这个问题可以被建模为使用自主机器人在紧急情况下的人群控制问题,自主机器人的任务是引导人类人群安全地到达一个没有任何危险的指定区域。第2章中开发的 "StringNet Herding"算法可用于控制自主机器人(防卫者),以便通过在 "StringNet Herding"方法的每个阶段适当地改变所需的队形,引导(放牧)人类人群到障碍物密集环境的指定区域。

成为VIP会员查看完整内容
65

这本手稿涵盖了强化学习的所有重要的基本方面。第二章采用马尔可夫决策过程对主体与环境之间的相互作用进行建模。第三章介绍了基于给定环境模型解决MDP问题的核心技术——动态规划。一般来说,解决MDP问题涉及到政策评估和政策改进的迭代。在第四章中,我们讨论了无模型方法:蒙特卡洛,TD学习,SARSA和q学习。第五章对强化学习中的值函数逼近进行了一般讨论。作为一个重要的例子,深度Q-learning将在第6章中详细介绍。第7章介绍了策略梯度方法,重点介绍了策略梯度定理、REINFORCE算法、Advantage Actor-Critic算法等基本概念。

成为VIP会员查看完整内容
60

多智能体系统(MAS)已经在不同的环境和框架中得到了利用,因此已经成功地应用于许多应用中,以实现不同的目标。事实证明,与建立一个具有任务可能需要的所有能力的单一智能体相比,多智能体系统更具有成本效益。此外,成本并不是采用MASs的唯一驱动因素,例如,安全是另一个重要方面。在恶劣或极端的环境中部署一组智能体,而不是一个人类团队,可以减少安全风险。此外,与单一智能体的解决方案相比,MAS提供了更多的灵活性和稳健性。灵活性来自于将资源分成不同的小组,而稳健性则来自于一个智能体的关键错误不一定会危及任务的成功这一事实。请注意,一个任务可能有许多不同的约束和方面,然而,最微不足道的情况是只有一个智能体和一个任务。

这些类型的任务可以由人类操作员计划,监督任务,而不需要自动计划器。另一方面,更复杂的任务,即利用大量的异质智能体和任务,以及约束条件(优先权、同步性等),对人类操作员来说并不是那么简单的计划。这些复杂的问题给制定一个可行的计划带来了巨大的挑战,更不用说是最好的计划了。此外,机器人系统中可用的计算平台的功率增加,允许利用并行任务执行。更具体地说,它允许在传感、计算、运动和操纵任务中可能的并行性。这反过来又有一个好处,即允许创建更复杂的机器人任务。然而,它的代价是增加了优化任务分配问题的复杂性。为了规避这些问题,需要一个自动规划器。这些类型的问题是出了名的难解决,而且可能需要太长时间才能找到一个最佳计划。因此,优化和产生计划所需的计算时间之间的平衡变得非常重要。

本论文涉及两个特殊的多机器人任务分配(MRTA)问题配置的正式定义,用于表示多智能体任务规划问题。更具体地说,本论文的贡献可以归纳为三类

首先,这项工作提出了一个模型,以结构化的方式表示不同的问题配置,也被称为任务。这个模型被称为TAMER,它还允许以更系统的方式增加新的维度,与以前提出的MRTA分类法相比,扩大了可以描述的问题的数量。

其次,本论文以混合整数线性问题的形式,定义并提供了两种不同的问题形式,即扩展的彩色旅行推销员问题(ECTSP)。这些模型在CPLEX优化工具中对选定的问题实例进行了实施和验证。此外,还设计了一个解决这些复杂问题的次优方法。提出的解决方案是基于遗传算法(GA)的方法,并与最先进的(和实践中的)求解器,即CPLEX获得的解决方案进行比较。与经典方法相比,使用GA进行规划的优势在于它具有更好的可扩展性,使其能够找到大规模问题的解决方案。尽管这些解决方案在大多数情况下是次优的,但它们比其他精确方法获得的速度要快得多。另一个优势体现在 "随时停止 "选项的形式上。在时间紧迫的操作中,重要的是可以选择停止规划过程,并在需要时使用次优的解决方案。

最后,这项工作涉及到MRTA问题的一个维度,这个维度在过去没有引起很多研究的关注。特别是,包括多任务(MT)机器人在内的问题配置被忽视了。为了克服上述问题,首先,对可能实现任务并行的情况进行了定义。此外,还介绍了物理和虚拟任务之间的区别以及它们在并行任务执行方面的相互关系。我们提出并比较了两个模型。第一个模型以ILP的形式表达,并在CPLEX优化工具中实现。另一个被定义为限制性规划(CP)模型并在CP优化工具中实现。两种求解器都在一系列的问题实例上进行了评估。

成为VIP会员查看完整内容
60

因果推理一直是科学的一部分,从牛顿定律到毁灭性的COVID-19大流行病,因果思想已经定义了基本科学。原因解释了 "为什么",而结果则描述了"什么"。这个领域本身包含了大量的学科,从统计学和计算机科学到经济学和哲学。最近机器学习和人工智能系统的进步,使人们对从大量可用的观察数据中识别和估计因果关系重新产生了兴趣。这导致了各种新的研究,旨在提供识别和估计因果推断的新方法。我们包括一个详细的因果推断框架、方法和评价的分类法。还提供了关于安全因果关系的概述。阐述了公开的挑战,并描述了评估因果推断方法的稳健性的措施。本报告旨在对此类因果关系的研究进行全面综述。我们对因果关系框架进行了深入审查,并描述了不同的方法。

1 引言

因果概念,也被称为因果关系,自科学本身诞生以来就定义了基础科学。因果关系仍然是任何科学发现的核心,其中原因解释了 "为什么",结果描述了 "什么"。因果关系经常被错误地与相关关系交替使用,尽管相关关系并不意味着因果关系。尽管相关关系对科学来说至关重要,但将相关关系错误地表述为因果关系会产生不利影响。例如,Covid-19和一些药物之间的相关性导致未经证实的关于可能治疗疾病的理论传播开来。相关性指的是两个具有特定趋势的变量之间的关系,而因果性是指因果关系,即因要对果负责,而果在一定程度上依赖于因。因此,因果学习是指从数据中产生因果关系的过程。因果关系在我们的日常生活中也发挥着重要的、无所不在的作用。我们做出的每一个决定都有一个因果变量,决定了我们的生活方式。因此,假设因果学习是任何人工智能(AI)或机器学习(ML)系统的关键组成部分,无论其在商业和军事应用中的用途如何,都是至关重要的。因果学习在过去20年内的研究活动有所增加,每年的出版物反映了因果研究的快速上升(图1)。

图 1 因果推理和因果关系的年度出版物(数据来自 Scopus)

过去十年中,人工智能/机器学习系统的最新进展使人工推理系统成为许多行业的前沿。随着AI/ML系统有望自主行动并显示出类似人类的智慧,仍然存在一些基本的挑战,如稳健性、可迁移性、可解释性和因果关系。虽然AI/ML系统在预测的准确性和精确性方面取得了巨大的成就,但它们本质上仍然是黑盒模型,因此缺乏对系统如何得出预测结果的解释。这给这类系统的使用带来了不必要的问题,有偏见的预测影响了人类的生活。这就产生了可解释人工智能(XAI),它被视为黑盒问题的解决方案,人工智能/ML系统能够向最终用户解释其决策过程。开发XAI系统的目标之一是,不仅要减轻来自模型本身的偏见,还要减轻来自用于预测的传入数据的偏见。算法/模型的偏差可以通过各种技术来识别和缓解,但数据本身的内在偏差则更难缓解。因此,因果关系对于识别和缓解人工智能系统的数据偏差至关重要。根据Judea Pearl博士的说法,因果关系可以让人工智能/ML系统 "编排其环境的解析和模块化表征,审问该表征,通过想象力的行为扭曲它,并最终回答'如果'类型的问题"。关于XAI的进一步阅读,我们建议读者回顾详细的调查,如Rawal等人、Gunning等人、Xu等人和Arrieta等人。

尽管有关于因果关系的相关调查和基础研究,如Judea Pearl、Morgan等人、Yao等人和Gianicolo等人的调查提供了很好的概述,但也需要一个最新的调查,不仅对因果关系,而且对其与AI/ML有关的目标和评价指标进行更全面的考察。本调查报告旨在通过提供一个全面的调查来填补文献的空白,该调查研究了因果关系从开发到评估的所有方面,并强调了最近在因果关系AI/ML系统方面取得的一些突破和进展。这项调查的主要贡献包括以下几点

  • 我们通过关注该领域从设计和开发到评估的所有方面,对因果关系进行了详细的概述

  • 我们总结了因果关系的设计/开发和评估的综合分类法(第17页)

  • 我们提供了因果关系学习方法的比较

  • 我们提供了对网络安全使用因果关系的见解,并强调了最近在因果安全方面的一些进展

  • 我们对该领域仍然存在的挑战进行了公开讨论,并对解决这些挑战的建议提出了看法

本报告的结构如下。第2节介绍了分类法和对因果推断水平的见解。第3节对利用因果推理和因果发现的设计和开发方法进行了简要调查。第4节描述了用于测量因果AI/ML系统有效性的技术。第5节简要介绍了网络安全的因果关系。第6节讨论了因果关系研究中的公开挑战和当前趋势。第7节为总结性意见。

成为VIP会员查看完整内容
59
登陆后查看更多精品内容
VIP会员
本周荟萃主题
区块链
区块链(Blockchain)是由节点参与的分布式数据库系统,它的特点是不可更改,不可伪造,也可以将其理解为账簿系统(ledger)。它是比特币的一个重要概念,完整比特币区块链的副本,记录了其代币(token)的每一笔交易。通过这些信息,我们可以找到每一个地址,在历史上任何一点所拥有的价值。
深度学习
机器学习的一个分支,它基于试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的一系列算法。
机器学习
“机器学习是近20多年兴起的一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。机器学习理论主要是设计和分析一些让 可以自动“ 学习”的算法。机器学习算法是一类从数据中自动分析获得规律,并利用规律对未知数据进行预测的算法。因为学习算法中涉及了大量的统计学理论,机器学习与统计推断学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。很多 推论问题属于 无程序可循难度,所以部分的机器学习研究是开发容易处理的近似算法。”

——中文维基百科
强化学习
强化学习(RL)是机器学习的一个领域,与软件代理应如何在环境中采取行动以最大化累积奖励的概念有关。除了监督学习和非监督学习外,强化学习是三种基本的机器学习范式之一。 强化学习与监督学习的不同之处在于,不需要呈现带标签的输入/输出对,也不需要显式纠正次优动作。相反,重点是在探索(未知领域)和利用(当前知识)之间找到平衡。 该环境通常以马尔可夫决策过程(MDP)的形式陈述,因为针对这种情况的许多强化学习算法都使用动态编程技术。经典动态规划方法和强化学习算法之间的主要区别在于,后者不假设MDP的确切数学模型,并且针对无法采用精确方法的大型MDP。
推荐系统
推荐系统,是指根据用户的习惯、偏好或兴趣,从不断到来的大规模信息中识别满足用户兴趣的信息的过程。推荐推荐任务中的信息往往称为物品(Item)。根据具体应用背景的不同,这些物品可以是新闻、电影、音乐、广告、商品等各种对象。推荐系统利用电子商务网站向客户提供商品信息和建议,帮助用户决定应该购买什么产品,模拟销售人员帮助客户完成购买过程。个性化推荐是根据用户的兴趣特点和购买行为,向用户推荐用户感兴趣的信息和商品。随着电子商务规模的不断扩大,商品个数和种类快速增长,顾客需要花费大量的时间才能找到自己想买的商品。这种浏览大量无关的信息和产品过程无疑会使淹没在信息过载问题中的消费者不断流失。为了解决这些问题,个性化推荐系统应运而生。个性化推荐系统是建立在海量数据挖掘基础上的一种高级商务智能平台,以帮助电子商务网站为其顾客购物提供完全个性化的决策支持和信息服务。
卷积神经网络
在深度学习中,卷积神经网络(CNN或ConvNet)是一类深度神经网络,最常用于分析视觉图像。基于它们的共享权重架构和平移不变性特征,它们也被称为位移不变或空间不变的人工神经网络(SIANN)。它们在图像和视频识别,推荐系统,图像分类,医学图像分析,自然语言处理,和财务时间序列中都有应用。
计算机网络
计算机网络( Computer Networks )指将地理位置不同的多台计算机及其外部设备,通过通信线路连接起来,在网络操作系统及网络通信协议的管理和协调下,实现资源共享和信息传递的计算机系统。
命名实体识别
命名实体识别(NER)(也称为实体标识,实体组块和实体提取)是信息抽取的子任务,旨在将非结构化文本中提到的命名实体定位和分类为预定义类别,例如人员姓名、地名、机构名、专有名词等。
机器翻译
机器翻译,又称为自动翻译,是利用计算机将一种自然语言(源语言)转换为另一种自然语言(目标语言)的过程。它是计算语言学的一个分支,是人工智能的终极目标之一,具有重要的科学研究价值。
计算机视觉
计算机视觉是一门研究如何使机器“看”的科学,更进一步的说,就是是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉,并进一步做图形处理,使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科,计算机视觉研究相关的理论和技术,试图建立能够从图像或者多维数据中获取‘信息’的人工智能系统。
微信扫码咨询专知VIP会员