来自 《控制与决策》**

本文引用信息罗俊仁, 张万鹏, 苏炯铭, 等. 计算机博弈中序贯不完美信息博弈求解研究进展[J]. 控制与决策, DOI: 10.13195/j.kzyjc.2022.0698.********

计算机博弈中序贯不完美信息博弈求解研究进展罗俊仁, 张万鹏, 苏炯铭, 魏婷婷, 陈璟

** 研究背景**

01

计算机博弈(Computer Games)也称机器博弈,英语直译为计算机游戏,覆盖类型十分广泛。传统的计算机博弈主要包括完美信息博弈(如跳棋、国际象棋、围棋等)和不完美信息博弈(如德州扑克、桥牌等)。早前,研究人员将国际象棋被视为“人工智能的果蝇(Drosophila)”,将扑克作为人工智能领域的“测试平台(Testbed)”。近年来,一些更加复杂的计算机博弈已然成为人工智能的新果蝇和通用测试基准,特别2019年以来,以Alphastar(星际争霸II AI)、Pluribus(德州扑克AI)等为代表的人工智能程序在多类典型人机对抗比赛中战胜人类职业高手,人工智能技术在不完美信息博弈领域取得了显著突破。当前以算法博弈论、深度强化学习和在线凸优化为基础的智能博弈对抗技术的发展,已经完全能够解决围棋等两人零和完全信息博弈,而星际争霸与德州扑克等不完美信息博弈所面临的难题正牵引着人工智能领域的前沿研究。不完美信息博弈常被用于描述多方序贯策略交互过程。博弈对抗过程中,局中人无法获得全部或准确的信息,博弈状态与下步动作通常是不可知的,掌握的信息往往也是不对称和不完美的。相关技术不仅可应用于量化投资、拍卖机制设计等社会经济生产领域,而且可广泛应用于冲突分析、国土安全防卫和智能指控等国防军事应用领域。特别是美国国防部高级研究计划局(DARPA)先后启动了“打破游戏规则”(Gamebreaker)人工智能探索项目,旨在开发开放世界视频游戏的国防战争模拟游戏的人工智能程序,用于作战人员的实战训练;“面向复杂军事决策的非完美信息博弈序贯交互”(SI3-CMD)项目,旨在探索自动化地利用呈指数增长的数据信息,将复杂系统的建模与推理相结合,从而辅助国防部快速认识、理解甚至是预测复杂国际和军事环境中的重要事件。 图1 计算机博弈、人工智能与博弈论发展历史自1943年McCulloch与Pitts提出“人工神经元”网络模型,1957年Rosenblat提出“感知机”模型,1989年Lecun提出总卷积神经网络,2006年Hinton提出深度学习,2014年Goodfellow提出GAN模型,2021年OpenAI发布GPT-3预训练模型,人工智能经历了“推理期”(定理证明、逻辑语言)、“知识期”(知识系统、专家系统兴起)与“学习期”(神经网络重新流行、统计机器学习兴起,深度学习兴起),期间经历两度寒冬三次复兴。如图1所示,作为博弈论研究的实验平台,伴随着人工智能近70年的发展,从最初的“图灵测试”到最新的“通用人工智能”挑战,计算机博弈的相关研究呈现出“知识与搜索”、“博弈与学习”、“模型与适变”三大范式。作为博弈论研究的实验平台,伴随着人工智能近70年的发展,从最初的“图灵测试”到最新的“通用人工智能”挑战,计算机博弈的相关研究呈现出“知识与搜索”、“博弈与学习”、“模型与适变”三大范式。

** 研究框架****

**

0****2

通过回顾标志性突破及新评估基准,基于梳理的典型研究范式,提出序贯不完美信息博弈求解研究框架。

图2 序贯不完美信息博弈求解研究框架****2.1博弈模型构建

一个博弈模型通常包含五要素:局中人(智能体)也称博弈方,即博弈中独自参与决策并承担结果的决策者;行动,即局中人在某个决策点的决策变量;信息,即局中人掌握的博弈知识,包括博弈环境、局中人的理性程度、行动和策略等;策略,即局中人相继决策的行动组织;收益,即根据特定的局中人策略组合(Strategy Profile)得出博弈结果后各局中人所获得的收益或支付。2.2子博弈与元博弈

完美信息博弈的子博弈(Subgame)是一棵子树,对于不完美信息博弈,子博弈的概念是建立在增强的信息集基础上的。 元博弈(Meta Game)即博弈的博弈,是研究经验博弈理论分析(Empirical Game Theoretic Analysis,EGTA)的模型基础,可用于辅助分析博弈策略的空间形态。2.3离线策略求解当前关于序贯非完美信息博弈离线策略求解的研究主要可分为“算法博弈论、优化理论和博弈学习”共三大类。表1 离线策略求解方法分类及示例 2.4在线策略求解当前关于在线策略的研究主要聚焦于重复博弈。与离线场景不同的是,由于在线对抗中仅能掌握己方策略,如何制定反制对手的策略是最符合现实场景的研究点。在线博弈对抗过程中,可以用两种方式生成己方策略,一种是从悲观视角出发的博弈最优(Game Theory Optimal, GTO),即采用离线蓝图策略进行对抗,二是是从乐观视角出发的剥削式对弈(Exploitative Play),即在线发掘对手可能的弱点,最大化己方收益的方式剥削对手。 表2 典型在线策略求解方法分类及示例

** 复杂性挑战与前沿展望**

03

3.1复杂性挑战

从国际象棋、围棋到德州扑克、星际争霸等,理论与技术的发展呈现交叉融合,面对“巨复杂、强对抗、高动态与多威胁”的现实应用场景、高度仿真模拟现实世界的新型计算机博弈研究环境(如博弈元宇宙)、多人博弈缺乏理论和原理支撑(如多人德州扑克)等为当前开展”环境认知”、“策略求解”和“智能体(对手)建模”等相关研究提出了新挑战。当前,智能体的能力主要依赖云原生平台、数字孪生环境和协同演化方法生成。环境、对手(机器或人类)及AI智能体是计算机博弈研究的主要对象,三者之间博弈对抗与交互学习是机器智能协同演化生成的重要途径。三者之间共有三对关系:智能体与环境的互生关系,即不同的环境需要不同的智能体策略去适配;智能体与人的共生关系,即人机对抗研究利用智能体打败人类对手,人机融合中研究智能体如何理解人类从而与人协作;智能体与对手之间的孪生关系,即在博弈策略空间中,智能体与对手策略之间的压制关系是孪生共存的。

图11“环境-对手-智能体”的多维复杂性描述****3.2前沿展望

博弈动力学与策略空间理论:博弈动力学一直是研究博弈对抗过程中策略收敛至均衡解,早前是演化博弈的主要研究内容,近年来实证博弈理论分析方法为研究博弈动力学与策略空间形态探索提供了有效工具。 多模态对抗博弈及序贯建模:如何为多人德州扑克、桥牌、斗地主、麻将、连续状态空间对抗(如格斗、乒乓球)等构建实用的博弈模型是当前面临的现实挑战。围绕对抗团队博弈的相关模型以及一类更为泛化的一般和博弈模型已然成为当前研究的焦点。 通用策略学习及离线预训练:博弈策略学习一直是学术研究的前沿课题,当前无领域知识的学习、多样性学习、自主课程学习、元学习、在线无悔学习、分布式策略学习框架、融合规划的学习等均已成为当前的研究前沿重点。 对手建模(剥削)与反剥削:对手建模是人工智能领域一个长期存在的研究课题。常用的对手建模方法根据模型表示分为显式建模与隐式建模。非平稳对手如何建模,剥削对手时如何确保己方策略的安全性、削减被对手设计与剥削,构建有限理性模型、防止被欺骗均十分重要。 临机组队与零样本协调:在组队协同方面,智能体需要利用同伴信息来提升己方决策。此外,在行为选择方面,智能体需要根据组队知识与队友行为,围绕最大团队回报的目标确定己方行动。在适应当前队友方面,智能体在交互过程中,可能接收到队友、环境、任务目标等新信息,需采用适变行动来提升协调性。

** 结束语**

04

本文从博弈论的视角梳理了近年来计算机博弈中不完美信息博弈求解相关研究进展。首先结合计算机博弈、人工智能与博弈论发展历史概述了具标志性突破的里程碑事件及新的评估基准,分析归纳了3大研究范式,提出了序贯不完美信息博弈求解研究框架,围绕序贯不完美信息博弈介绍了3种博弈模型构建方法,子博弈与元博弈、以及相关解概念与评估方法。其次,主体部分对当前离线策略求解与在线策略求解各3大类9小类方法进行了全面介绍和分析。最后,分析了当前面临的3类挑战,展望了5个方面的前沿研究重点。当前,算法博弈论、优化理论和博弈学习理论的相互融合发展,为智能博弈对抗策略求解的研究提供了土壤,博弈策略通用求解方法已然成为序贯非完美信息博弈研究的核心,可为当前开展计算机博弈智能AI设计及通用人工智能技术提供新技术、新思路与新途径。

作者介绍

罗俊仁,国防科技大学博士研究生,从事不完美信息博弈、多智能体学习等研究。张万鹏,国防科技大学研究员,博士,从事大数据智能、智能演进等研究。苏炯铭,国防科技大学副研究员,博士,从事智能博弈、可解释性学习等研究。魏婷婷,国防科技大学硕士研究生,从事深度学习、对手建模等研究。 陈璟,国防科技大学教授,博士,从事认知决策博弈、分布式智能等研究。

成为VIP会员查看完整内容
8

数据要素:数据要素市场由数据的采集、存储、加工、分析、交易、安全等环节构成,我国数据体量大,配合政府主导的交易机制,有望在全球数据交易领域取得先发优势。虽然数据交易需求明显,但因监管、基建尚未完善,目前仍以场外交易为主。   是什么:政府、企业、个人产生的数据,经资源化、产品化、资产化后,成为具备交易价值的数据资产,参与生产经营,形成生产要素的价格、体系。   为什么:我国数据交易需求旺盛、数据供给有优势。1)供给侧:根据IDC统计,2022年我国数据量占全球的25%,手握稀缺资源,数据要素发展已具备先发优势;2)需求侧:数据交易需求不断提高,以金融行业为例,根据上海数据交易所统计,2019-2021年数据采购项目数量CAGR达到40%,年交易量在百亿级别;3)有望参照土地交易模式,为财政增收:土地开发、数据资产化后交易,均为财政带来直接销售收入、增量税收收入。   难在哪:1)国内外数据交易市场均由场外交易主导:由于监管难识别、难介入、难核查,我国2022年场外交易金额占总交易金额比超过95%、海外2020-2021年仅Agartha一家场外交易市场35周的收入就达到了9160万美元;2)数字化基建尚未完善:根据IDC统计,我国数据量占全球比例约19%-25%,但2019年数据安全市场规模占全球比例仅为3%,数据安全建设有待提高;3)监管空白:行业发展初期,谁来管、怎么管尚未明确。   关键拐点:国家高度重视下,无法可依、无人监管现状得到改变。1)监管依据:2022年12月“数据二十条”发布,明确数据持有、使用、经营三权分置,解决数据交易确权问题;2)监管单位:2023年10月国家数据局正式挂牌成立,监管主体得到明确。   市场规模及构成:2021年我国数据要素市场整体规模815亿,我们预计2023-2025年数据交易将维持超过50%的CAGR,推动数据分析、生态保障环节以约30%增速增长,市场整体规模将在2025年超过2000亿。2026-2030年,数据交易、分析作为核心环节,预计仍有40%-45%的YoY。   数据交易:2022年仅20%的数据释放用于交易成为数据产品、5%数据产品选择在场内交易成为数据标的、35%的数据标的正常上市,长期来看数据交易规模仍有数十倍空间。在政府积极释放公共数据、场内交易机制不断完善、合规方法持续优化等切实催化下,场内交易规模、比例高速增长,我国政府主导的交易机制模式得到验证。我们认为交易规模空间将持续释放,2024、2025年场内交易金额仍有高速增长可能。   生态保障:数据交易规模高速增长将带动交易机制、数字化基建的需求。除交易所提供交易生态外,数据安全的重要性也不言而喻。但目前相比全球,我国数据安全市场规模与数据量比例失衡、数据安全意识有待提高。按照我国数据量、数据安全市场规模在全球占比分别为19%-25%、3%推算,相比2019年,数据安全市场仍有6-9倍空间。若考虑数据交易场景下新增的安全需求,数据安全市场或有十余倍空间。   数据要素运营:数据资产交易,是数据要素市场最具价值的环节。随着公共数据逐渐开放,数据分析市场预计2026-2030年CAGR将达到45%。   其他数据服务:数据采集、数据存储虽需求量大,但分别因产品已覆盖绝大部分企业、运维成本高的影响,增长空间有限;数据加工技术含量较低,将在上下游企业延伸自有能力的过程中逐渐被替代,如数据分析企业自身具备数据加工能力,无需第三方数据加工服务。   投资建议:产业链企业中,受益于场内交易规模的高速增长,交易所、生态基建、数据分析等相关企业利好将加速释放。   数据交易所:国资入股、政府指导,交易所建设是场内数据交易的根本。目前因数据服务商能力参差不齐,交易所仍提供数商服务,在交易规模扩大、增值服务未完全剥离的阶段收益明显。国资背景、持股大型交易所的企业有浙数文化、安恒信息、广电运通。   收入模式:目前交易所收入=佣金+会员费+增值服务费。参照上海数交所,佣金费率为2.5%、会员费约万元,增值服务费跨度大,2-20万不等。   所商分离:“数据二十条”明确提出所商分离的场内数据交易体系,即加工、分析等增值服务,不再由数据交易所提供,转由数据服务商提供。交易机制完善、交易所剥离增值服务后,服务商价值凸显。   数据服务商:目前业务内容较为分散,仅部分优质企业实现初步整合;长期来看,将逐渐整合成为复合型全能数商,价值在所商分离完成后充分释放。   数据采集、加工:因依赖人力,传统模式增长空间有限。   需求有待满足的细分行业:我国数据量大,2022年占全球比约25%,但数据安全市场规模小,仅占全球3%,远低于数据量占比。数据安全、存储等市场潜力均未完全释放。1)数据安全方面,伴随云计算、数据交易的发展,安全措施方案、安全意识均有所转变,重视研发、积极布局新技术的相关企业有格尔软件、安恒信息;2)数据存储方面,存储比例(存储量/生产量)不足9%,大量数据未得到储存。虽需求旺盛,但传统数据中心运维成本高、收入波动大,转型必不可免,积极转型并具备新技术能力的企业有易华录、星环科技等。   数据要素运营商:政府、金融、医疗行业相关数据分析共占总市场规模44%份额,我们预计市场占比高、拥有大量优质数据、重视研发、有数据分析能力的服务商,将在交易机制完善后加速增长,相关公司有国新健康、中科江南、久远银海、深桑达等。

成为VIP会员查看完整内容
9

近年来,事件提取由于其在许多应用中的潜力而受到了广泛关注。然而,近期研究发现一些评估挑战,表明报告的分数可能无法反映真实性能。在这项工作中,我们首先识别并讨论这些评估挑战,包括由于关于数据的不同假设或不同数据预处理步骤而导致的不公平比较,当前评估框架的不完整性导致的潜在数据集偏差或数据切分偏差,以及先前研究的低可复现性。为了应对这些挑战,我们提出了TEXTEE,一个标准化、公平且可复现的事件提取基准。TEXTEE包含了针对不同领域十多个数据集的标准化数据预处理脚本和切分。此外,我们汇总并重新实现了近年来发表的十多种事件提取方法,并进行了全面的重新评估。最后,我们探讨了大型语言模型在事件提取中的能力,并讨论了一些未来的挑战。我们期望TEXTEE将作为事件提取领域的一个可靠基准,促进该领域的未来研究。

成为VIP会员查看完整内容
4

转载于“计算机研究与发展”

近年来,大型语言模型的出现和发展对自然语言处理和人工智能领域产生了变革性影响. 随着不断增大模型参数量和训练数据量,语言模型的文本建模困惑度以可预测的形式降低,在各类自然语言处理任务上的表现也持续提升. 因此,增加语言模型的参数和数据规模成为提升系统智能水平的富有前景的途径.

本文首先回顾了大型语言模型的基本定义,从模型表现和算力需求的角度给出了“大型”语言模型的界定标准. 其次,从数据、算法、模型三个维度梳理了大型语言模型的发展历程及规律,展示了不同阶段各个维度的规模化如何推动语言模型的发展. 接着,考察了大型语言模型所表现出的涌现能力,介绍了思维链、情景学习和指令遵循等关键涌现能力的相关研究和应用现状. 最后,展望了大型语言模型的未来发展和技术挑战.

内容简介

1.回顾了大型语言模型的基本定义,从模型表现和算力需求的角度给出了“大型”语言模型的界定标准. 2.从数据、算法、模型三个维度梳理了大型语言模型的发展历程及规律,展示了不同阶段各个维度的规模化如何推动语言模型的发展. 3.考察了大型语言模型所表现出的涌现能力,介绍了思维链、情景学习和指令遵循等关键涌现能力的相关研究和应用现状. 4.展望了大型语言模型的未来发展和技术挑战.

亮点图文 自GPT-3问世以来,国内外多家机构加大对大型语言模型的研发投入,近三年来涌现了一批具有竞争力的大型语言模型. 目前已有的大型语言模型总体上呈现出以工业界投入为主、以英文为主、以闭源为主等特点. 下面的表格1中列举了当前常见大型语言模型的基本信息.

如下图展示了语言模型的主要发展路径:2008年,Collobert等人发现将语言模型作为辅助任务预先训练可以显著提升各个下游任务上的性能,初步展示了语言模型的通用性;2013年,Mikolov等人在更大语料上进行语言模型预训练得到一组词向量,接着通过迁移学习的手段,以预训练得到的词向量作为初始化,使用下游任务来训练任务特定模型;2018年,Google的Devlin等人将预训练参数从词向量扩增到整个模型,同时采用Transformer架构作为骨干模型,显著增大了模型容量,在诸多自然语言处理任务上仅需少量微调即可取得很好的效果;随后,研究人员继续扩增模型参数规模和训练数据量,同时采取一系列对齐算法使得语言模型具备更高的易用性、忠诚性、无害性,在许多场景下展现出极强的通用能力,OpenAI于2022年底发布的ChatGPT以及2023年发布的GPT-4是其中的代表. 纵观近十余年来语言模型的发展历程,不难发现两个规律:

  1. 以语言模型及其变体为训练任务,从多个维度实现规模化. 从2008年到今天,语言模型的训练任务变化很小,而其训练数据逐渐从6亿单词增长到今天的超万亿单词,算法从传统的多任务学习范式发展到更适合大规模预训练的迁移学习范式,模型从容量较小的CNN/RNN模型发展为包含超过千亿参数的Transformer模型.
  2. 将更多模型参数和训练任务从下游转移到上游. 从模型参数的角度,2013年以前的大多数模型要从头训练(training from scratch)所有参数;2013年到2018年主要基于预训练的词向量训练参数随机初始化的任务特定模型;2018年到2020年逐渐转向“预训练+微调”范式,即使用预训练模型作为下游任务初始化,仅需添加少量任务特定参数,例如在预训练模型上添加一个随机初始化的线性分类器;2020年左右,基于提示(prompt)的方法得到了很大发展,通常直接使用包括语言模型分类头(language modeling head)在内的整个预训练语言模型,通过调整其输入内容来得到任务特定输出. 从训练任务的角度,语言模型从与其他下游任务联合多任务训练逐渐发展成为独立的上游任务,通过数据、模型、算法等多个维度的规模化逐渐降低对下游任务训练的需求,近年来的大型语言模型通常在已有的上千个指令化自然语言处理任务(例如FLAN)上训练,从而可以在未经下游任务训练的情况下很好地泛化到未见任务上. 如下图给出了当前常见的大型语言模型的参数量和训练计算量,不难发现,较近的语言模型(如Chinchilla和LLaMA)通常采用相对较大的训练数据和相对较小的参数规模,这在下游微调和推理部署时具有显著的效率优势.

到目前为止,规模定律仍然是一个非常重要且值得探索的方向,特别是中文语言模型的规模定律尚未有公开研究. 此外,已有的对规模定律的研究主要为通过大量实验得出的经验性规律,而缺乏对其理论机理的解释. 未来发展与挑战**

** 以ChatGPT、GPT-4为代表的大型语言模型已经在社会各界引起了很大反响,其中GPT-4已经初步具备通用人工智能的雏形. 一方面,大型语言模型的强大能力向人们展现了广阔的研究和应用空间;而另一方面,这类模型的快速发展也带来了许多挑战和应用风险.

未来发展

1)高效大型语言模型.当前大型语言模型主要采用Transformer架构,能够充分利用GPU的并行计算能力并取得不俗的性能表现. 但由于其计算和存储复杂度与输入文本长度呈平方关系,因此存在推理效率慢、难以处理长文本输入等缺陷. 2)插件增强的语言模型.集成功能插件已经成为大型语言模型快速获得新能力的重要手段3)实时交互学习.语言模型能够在与用户交互过程中完成实时学习,特别是能够根据用户输入的自然语言指令更新自身知识是迈向通用人工智能的重要步骤.4)语言模型驱动的具身智能.通过多模态深度融合、强化逻辑推理与计划能力等手段,打造具备强大认知智能的具身系统正在成为大型语言模型和机器人领域的研究热点.

** 挑战**1)检测.大型语言模型生成的文本高度复杂甚至相当精致,在很多场景下难以与人类创作的文本区分开. 因而,语言模型生成文本的检测和监管成为亟待解决的问题,2)安全性.大型语言模型的训练数据大量来自互联网上未经标注的文本,因而不可避免地引入了有害、不实或歧视性内容. 如何构造适合中文环境的安全性评估标准及其相应训练数据仍然是中文语言模型大规模落地应用的重要挑战.3)幻觉.目前ChatGPT和GPT-4等高性能语言模型仍然存在较严重的幻觉问题,即经常生成包含事实性错误、似是而非的文本,这严重影响了其在部分专业领域应用的可靠性.有效识别模型的内部知识和能力边界仍旧是极具挑战性的未解之题. 总之,大型语言模型给自然语言处理乃至人工智能领域带来了巨大的范式变革,将原来按不同任务进行横向划分的领域设定转变为按流程阶段进行纵向划分的新型研究分工,并构建了以大型语言模型为中心的人工智能新生态.

引用格式

舒文韬, 李睿潇 , 孙天祥, 黄萱菁, 邱锡鹏. 大型语言模型:原理、实现与发展[J]. 计算机研究与发展. doi: 10.7544/issn1000-1239.202330303 Shu Wentao, Li Ruixiao, Sun Tianxiang, Huang Xuanjing, Qiu Xipeng. Large Language Models: Theories, Methods, and Progress[J]. Journal of Computer Research and Development. doi: 10.7544/issn1000-1239.202330303

成为VIP会员查看完整内容
11

在这篇论文中,我展示了从训练初期开始,典型的计算机视觉神经网络就包含了能够单独训练以达到与原始未剪枝网络相同准确度的子网络。这些子网络——我通过在训练后剪枝并将权重回溯到训练早期的值来追溯地找到——与训练后最先进剪枝技术产生的子网络大小相同。它们依赖于结构和初始化的组合:如果修改了其中任何一个(通过重新初始化网络或改变每层剪枝的权重),准确度会下降。 在小规模设置中,我展示了这些子网络从初始化时就存在;在大规模设置中,我展示了它们在训练早期(< 训练进程的5%)就存在。一般而言,我发现这些子网络在优化它们的结果变得对用于训练它们的随机梯度下降(SGD)噪声的样本稳健时出现;也就是说,当它们不管数据顺序如何都训练到损失景观的相同凸区域时。这在小规模设置中在初始化时发生,在大规模设置中在训练早期发生。 这些发现的含义是,可能可以在训练早期对神经网络进行剪枝,这将创造一个从那时起大幅减少训练成本的机会。为了实现这一目标,我建立了一个框架,说明解决这个问题的成功会是什么样子,并调查了在初始化和训练早期剪枝神经网络的现有技术。我发现,在初始化时的幅度剪枝与该任务的最先进性能相匹配。此外,现有技术提取的唯一信息是剪枝网络的每层比例;在幅度剪枝的情况下,这意味着实现最先进结果所需的唯一信号是方差缩放初始化技术所使用的每层宽度。

成为VIP会员查看完整内容
2

大型语言模型(LLMs)是在大量文本上训练的深度学习算法,学习了数十亿个单词之间的数学关系(也称为“参数”)。它们已经为我们大多数人所熟知,作为像OpenAI的ChatGPT和用于Google的Bard这样的聊天机器人的算法基础。如今的最大模型拥有数千亿个参数,训练成本也达到数十亿美元。 尽管大规模的通用模型如ChatGPT可以帮助用户处理从电子邮件到诗歌的各种任务,但专注于特定知识领域可以使模型更小且更易访问。例如,经过精心训练的高质量医学知识的LLMs可能有助于民主化获取循证信息,以帮助指导临床决策。

已经有许多努力试图利用和改进LLMs在医学知识和推理能力方面,但迄今为止,产生的AI要么是闭源的(例如MedPaLM和GPT-4),要么在规模上受限,约为130亿参数,这限制了它们的访问或能力。 为了改善访问和表现,洛桑联邦理工学院计算机与通信科学学院的研究人员开发了MEDITRON 7B和70B,一对分别具有7亿和70亿参数的开源LLM,适应于医学领域,并在他们的预印本MEDITRON-70B: Scaling Medical Pretraining for Large Language Models中进行了描述。

MEDITRON是在Meta发布的开源Llama-2模型的基础上,持续融入临床医生和生物学家的输入而训练的。MEDITRON使用了精心策划的高质量医学数据源进行训练,包括来自像PubMed这样的开放获取仓库的同行评审医学文献,以及覆盖多个国家、地区、医院和国际组织的独特的临床实践指南集。

大型语言模型(LLMs)可能有助于实现医学知识的民主化。虽然已经做出了许多努力来利用和提高LLMs在医学知识和推理能力方面的表现,但结果模型要么是封闭源代码的(例如,PaLM、GPT-4),要么在规模上有限(≤ 13B参数),这限制了它们的能力。在这项工作中,我们通过发布MEDITRON来改善对大规模医学LLMs的访问:一套适应医学领域的开源LLMs,拥有7B和70B参数。MEDITRON基于Llama-2构建(通过我们对Nvidia的Megatron-LM分布式训练器的调整),并在综合策划的医学语料库上扩展预训练,包括精选的PubMed文章、摘要和国际认可的医学指南。使用四个主要医学基准进行的评估显示,在任务特定微调前后均取得了显著的性能提升,超过了几个最先进的基线。总体而言,MEDITRON在其参数类别中的最佳公开基线上实现了6%的绝对性能提升,以及在我们从Llama-2微调的最强基线上实现了3%的提升与封闭源代码LLMs相比,MEDITRON-70B超过了GPT-3.5和Med-PaLM,并且与GPT-4相差5%,与Med-PaLM-2相差10%。我们发布了策划医学预训练语料库和MEDITRON模型权重的代码,以推动更有能力的医学LLMs的开源开发。 https://www.zhuanzhi.ai/paper/3a80007a9ee77b1b5c116259d8506624

医学深深植根于知识中,回顾证据是指导临床决策标准的关键。然而,虽然“循证医学”(EBM)现在已成为质量护理的同义词,但它需要的专业知识并不是普遍可得的。因此,确保公平获得标准化医学知识是医学所有领域持续的优先事项。最近在大型语言模型(LLMs)(Brown et al., 2020; Touvron et al., 2023a; Almazrouei et al., 2023; Touvron et al., 2023b; OpenAI, 2023b; Chowdhery et al., 2022)方面的进展有可能彻底改变获取医学证据的方式。如今,最大的LLMs拥有数十亿或数千亿参数(Bommasani et al., 2021; Hoffmann et al., 2022; Kaplan et al., 2020),并且在庞大的预训练语料库上进行训练(Raffel et al., 2019; Gao et al., 2020; Together AI, 2023; Soldaini et al., 2023)。这种前所未有的规模使LLMs具备了人类决策的核心特征:逐步思维推理、连贯沟通和情境解读(Bubeck et al., 2023; Wei et al., 2023; Wang et al., 2023)。

直到最近,LLMs主要针对通用任务进行开发和评估,主要使用从不同互联网来源收集的数据,这些数据在领域特定证据方面的质量各不相同(Rozière et al., 2023)。这种方法虽然通常非常强大,但会阻碍特定任务的性能,包括医学领域。一些新的特定任务模型,经过更精心策划的数据集训练,已经多次超越了通用模型(Wu et al., 2023b; Yue et al., 2023; Rozière et al., 2023; Azerbayev et al., 2023),揭示了在预训练数据方面平衡质量和数量的潜力。实现这种平衡的一个有希望的方法是使用通用LLMs,然后继续在更精选的领域特定数据上训练。这些系统获得了自然语言和领域特定语言理解及生成技能的结合(Gururangan et al., 2020)。在医学领域,这种方法仅在13B参数以下的模型中有报告(Lee et al., 2020; Gu et al., 2021; Peng et al., 2023; Wu et al., 2023a)。在更大规模(即≥70B参数)上,之前的研究仅探讨了指令调整(M42-Health)或参数高效微调(Toma et al., 2023)的范围。 在这项工作中,我们介绍了MEDITRON-7B和70B,这是一对用于医学推理的生成LLMs,由Llama-2(Touvron et al., 2023b)改编,通过在精心策划的高质量医学数据源上继续预训练:PubMed Central(PMC)和PubMed开放获取研究论文(通过S2ORC语料库收集,Lo et al., 2020),S2ORC中的PubMed摘要(来自非开放获取论文),以及从互联网收集的多种医学指南,涵盖多个国家、地区、医院和国际组织。为了支持训练,我们扩展了Nvidia的Megatron-LM分布式训练库,以支持Llama-2架构。 我们使用四个医学推理基准对MEDITRON进行评估,包括在上下文学习中(在提示期间提供示例,即在上下文窗口内)和特定任务的微调。基准包括两个医学考试题库,MedQA(来自美国医学执照考试,Jin et al., 2020)和MedMCQA(医学领域的多主题多选题数据集,Pal et al., 2022),PubMedQA(基于PubMed摘要的生物医学问答,Jin et al., 2019)和MMLU-Medical(来自大规模多任务语言理解的医学主题评估集,Hendrycks et al., 2021a)。在没有微调的情况下使用上下文学习,MEDITRON-7B超过了几个最先进的基线,显示出比PMC-Llama-7B(一种类似的LLM,由Llama改编,通过在PubMed Central论文上继续预训练,Touvron et al., 2023a)平均10%的性能提升,以及比Llama-2-7B模型平均5%的性能提升。在特定任务训练数据上微调后,MEDITRON的性能也在同等规模的其他微调基线上有所提升,达到了5%(7B)和2%(70B)的平均性能提升。最后,将MEDITRON-70B微调以支持高级提示策略,如思维链和自我一致性,进一步提高了最佳基线3%和最佳公开基线12%的性能。总的来说,MEDITRON在医学推理基准上表现强劲,在同等规模的最先进基线上匹敌或超越。

总结来说,我们提出了一种优化的工作流程,用于扩展医学LLMs的领域特定预训练,包括基于知识的数据策划、通过分布式训练管道的持续预训练、微调、少样本上下文学习,以及高级推理方法,如思维链推理和自我一致性。我们发布了策划的训练语料库、分布式训练库2和MEDITRON模型(7B和70B)3,包括经过微调和未经微调的版本,以确保公众能够进行现实世界评估,促进其他领域类似工作的发展。

医学训练数据

MEDITRON的领域适应性预训练语料库GAP-REPLAY结合了来自四个数据集的48.1B个词符;临床指南:来自各种医疗相关来源的46K份临床实践指南的新数据集,论文摘要:来自16.1M闭源PubMed和PubMed Central论文的公开可用摘要,医学论文:从500万份公开可用的PubMed和PubMed Central论文中提取的全文文章,以及回放数据集:一般领域数据提炼而成,占整个语料库的1%。

模型

结果

结论

我们发布了MEDITRON,一套适用于医疗领域的高级语言模型(LLM),展示出卓越的医学推理能力和改进的领域特定基准性能。通过对精心策划的高质量医疗资源进行持续预训练(包括一套新的临床指南),MEDITRON在临床推理基准上表现出比所有最先进基准规模更大8倍商业LLM 10%性能提升。值得注意的是,MEDITRON在所有医疗基准上均优于开源多功能和医疗LLM。我们将我们的模型(以7B和70B规模)、筹备训练语料库所需工具以及分布式训练库作为开放资源提供。这不仅确保了对真实世界情境下评估结果,还促使进一步微调和指导性模型发展成为可能。通过公开提供这些资源,我们旨在帮助释放共享模型潜藏于增强医学研究、改善患者护理并推动各种健康相关领域创新方面变革潜力。

成为VIP会员查看完整内容
2

该项目是为了支持美国国防部高级研究计划局(DARPA)的 "开放世界新奇事物的人工智能与学习科学"(SAIL-ON)计划。在第二阶段基期工作中,我们推进了第一阶段 TALONS 框架的理论和实施,并收集了智能体在新奇事物生成器生成的新奇事物上的基线性能的初步实证结果。在第二阶段的选择阶段,我们将基础阶段的工作扩展到更广泛的新奇事物生成和实施形式。

这项工作的主要成果包括:完成了新奇事物生成器的开发;对来自 3 个不同 SAIL-ON TA1 团队的新奇事物进行了性能分析;开发了自动且可最大程度减少人为偏差的新奇事物生成与实施流程;将我们的新奇事物生成流程应用于 Monopoly、Vizdoom 和 Blocksworld 领域,从而证明我们的新奇事物生成器与领域无关;以及为 SAIL-ON 计划提供支持。下面的项目总结和后续报告将更详细地介绍这些成就。

项目总结

目前最先进的人工智能可以在已知已知甚至未知的情况下稳健运行。然而,人工智能仍无法可靠地检测、描述和适应开放世界中的新奇事物。随着研究界不断努力实现先进的自主性,我们需要有科学依据的方法来评估人工智能体在开放世界环境中的表现。

PacMar Technologies(PMT)和 Parallax 高级研究公司开发了一套独立于领域的理论、原则性技术和软件工具,用于生成、描述和评估新颖性。这些理论和技术涵盖了与领域无关的新颖性。在合同基期内,我们开发了一个测试平台,用于评估智能体在自动驾驶汽车领域对新奇事物的反应性能,我们还在南加州大学 SAIL-ON 团队提供的大富翁领域中实施了由我们的软件工具自动生成的新奇事物。

我们的新奇事物生成器方法使用原则性技术自动生成新奇场景。这些场景被加载到模拟环境中,与给定的第三方人工智能体对接,以收集该智能体的性能数据。然后评估智能体在各种不同情况下处理各类新奇事物的能力。

我们将新奇定义为环境中的变化。简而言之,变化可以是过渡函数的变化,也可以是状态空间的变化。我们的方法有能力在过渡函数(包括行动和事件)、状态空间定义和观察函数中生成新颖性。精确生成新颖性的计算方法可分为两种类型的转换,其方式与创造性系统框架(Wiggins,2006 年)一致。我们方法的关键在于从八个维度对新颖性进行表征,从而支持将情景生成的重点放在可能挑战智能体鲁棒性的情况上。

我们的方法目标如下
1.为新奇性的特征描述奠定科学基础。 2.开发生成可用于评估智能体的新情景的技术。 3.确定这些技术的可行性及其在各领域的适用性。

本报告旨在清晰地描述我们的方法,包括新颖性生成、模拟和评估的方法。将我们的方法应用于 CARLA 的自动驾驶汽车领域、Monopoly、VizDoom 和海洋领域,有助于进一步发展理论和测试平台软件。最后,我们对本报告进行了总结,并提出了进一步研究的思考和启示。

在第一阶段的工作中,我们开发了一个基于新颖性多维表征的新颖情景生成框架。我们正式规定了这一多维表征、收集受测智能体数据的指标,以及评估智能体对不同类型新颖性的鲁棒性的方法。在使用转换生成新颖性的过程中,我们定义了 24 个函数签名,并计算了应用这些签名生成新颖性的上限复杂度。我们的研究表明,根据我们对新颖性的多维表征,使用这两种类型的变换来改变场景生成,我们能够显著减少新颖场景的空间。为了支持新颖性的精确生成,我们构思了 TALONS 模拟器抽象语言(T-SAL)来描述环境和这些环境中的各个场景。我们利用这些概念来支持第三方智能体对新奇事物的鲁棒性评估。

在第二阶段基期工作中,我们推进了 TALONS 框架的理论和实施,并收集了智能体在新奇事物生成器生成的新奇事物上的基线性能的初步实证结果。我们制作了三个源代码库,详见基础阶段最终报告,其中包含以下内容的实现:(1) TSAL 语言;(2) 新颖性生成器(实现 R 变换);(3) 使用 CARLA 自动驾驶汽车模拟器的评估框架。从理论角度来看,我们利用第一阶段工作中开发的新颖性维度理论对新颖性进行了初步分析研究,并正式定义了 R 变换,然后利用这些定义正式定义了新颖性层次结构级别。

我们在第二阶段选择期内做出的独特贡献包括以下内容:

  • 提供更新的 TSAL 解释器 - 基于 python 的库,可将 TSAL 语言文档转换为 python 类实例。其功能包括读取、写入和修改 TSAL 语言文档。在选择期内,我们为 TSAL 问题文件文档解析组件添加了目标表示。
  • 修订了 T-SAL 规范定义。
  • 完成了新颖性生成器的开发--这是一个基于 python 的库,使用 R 变换和 T 变换生成新的 TSAL 领域和问题文件。功能包括
    • 用户可以选择要考虑的 R 变换,从而集中搜索特定类型的新颖性。
    • 初始 T 变换包括生成随机情景和从种子情景生成情景,种子情景具有可选规格,可防止某些谓词类型在新情景中发生变化。
    • 我们实现了与领域无关的过滤功能,以确定新颖性是否相关--如果不处理新颖性,智能体将会看到性能降低。
  • R 变换的正式定义
  • T 变换的正式定义
  • 更新了大富翁领域的 TSAL 领域文件,并为 Vizdoom 领域、Blocksworld 领域和一个海事领域创建了 TSAL 领域文件。
  • 在 Monopoly、Vizdoom 和 Blocksworld 域中进行了评估,以完善新颖性生成器的操作,并证明它可用于多个域。
  • 为 Blocksworld 领域添加了 T 变换情景生成器示例
  • 使用我们的新颖性维度对来自 SAIL-ON TA1 团队(WSU、UTD 和 ISI)的新颖性进行了分析。
  • 我们提供了严格定义的 SAIL-ON 创新水平逻辑定义。这些定义可用于检验新颖性是否属于某一特定级别。
  • 正式定义了发现有价值新奇事物的三个条件,我们将这些条件称为 "可学性条件",因为它们反映了智能体是否有望 "学会 "一个新奇事物:相关性、可注意性、可控性。
  • 我们创建了一个 "人在回路中 "的流程,开发人员可以使用我们的新奇事物生成器在其他模拟器中创建新奇事物,这些模拟器是在 TSAL 之外定义的,例如 Monopoly 和 Vizdoom。
  • 在整个执行期间出版了 4 份讨论我们工作的出版物
  • 支持第 36 个月和第 42 个月的 SAIL-On 会议,包括在这两次会议上介绍我们的工作。

成为VIP会员查看完整内容
8

这本专著重新审视了奇袭原则及其在美国军事条令中的优先地位。几个世纪以来,军事理论家们一直在讨论奇袭的原则,但作战环境的变化影响了各种文化如何实现奇袭和为欺骗投入资源。目前美国陆军的条令将奇袭置于其他战争原则之下,这主要是由于其军事冲突的概念方法限制了军事规划人员的想象力。历史提供了大量实例,说明奇袭在战争的战术、作战和战略层面所能取得的效果,往往能以更少的资源取得更大的成果。在美国继续与全球强国竞争的过程中,注重奇袭迫使计划人员进入对手的认知空间,从而有利于设计与作战环境相关的行动。

奇袭是战场上最难以捉摸的效果之一,往往决定胜负。奇袭可以是简单的欺骗,让敌人不知道攻击的时间和地点,也可以是更复杂的达到认知冲击的效果,迫使敌人重新审视他们对世界的认识。美国联合军事条令确定了指导军事规划者的九项战争原则。其中,奇袭原则是独一无二的,因为它从本质上将策划者的注意力集中在敌人、敌人的心态、敌人如何理解自身力量的应用、如何看待他人以及如何学习上。利用历史、理论和条令对奇袭原则进行分析,可阐明其在战争中的相对重要性,并就军队是否需要在计划过程中加强对奇袭的重视提出建议。

对 20 世纪理论家的研究为了解不同时期军事作家对奇袭的普遍重视奠定了基础。为了了解更多理论家的观点,本研究纳入了现代冲突之前的作品、拿破仑时代的理论以及 20 世纪的理论家,如利德尔-哈特、约翰-博伊德、理查德-辛普金和兹维-拉尼尔。正如巴顿-惠利(Barton Whaley)在《战略》(Stratagem)一书中就军事理论的时间线所写的那样,"这个故事与其说是理论的顺利演进或系统发展,不如说是无关联的概念和见解的偶然积累"。被选中进行研究的理论家对美国军事条令产生了直接影响,尽管程度不同,并因此影响了奇袭和欺骗的文化倾向。

在这些理论基础上,本专著对当前的条令进行了研究,以确定奇袭是否有足够的资源、是否有足够的优先权,或者是否被理解为一项决定性的战略原则。值得注意的是,美国陆军当前的条令通常会阻止将欺骗纳入其中,因为陆军通常是在资源有限的环境下开展行动,在这种环境下,资产优先考虑的是有形行动,而不是欺骗的模糊性质。陆军的条令侧重于战争的战术层面,因此错失了实现作战和战略奇袭的经济优势的机会。联合条令和美国陆军条令中对奇袭的定义可能缺乏精密性,因此限制了计划人员的想象力。

最后,现代冲突一次又一次地证明了计划奇袭和欺骗行动的优势。本专著中的历史案例探讨了三场冲突,在这些冲突中,奇袭是计划工作的重中之重。这些例子说明了对敌方战略的考虑如何能创造出利用敌方模式和战略概念的方案,从而产生根本性的奇袭。这些例子包括第二次世界大战中支持盟军入侵诺曼底的 "保镖行动"、1973 年赎罪日战争的开始以及 "沙漠风暴行动"。这些行动凸显了奇袭对未来军事规划者的重要性和相关性。

​俄罗斯等大国正在以复杂的方式和新兴的领域挑战美国霸权。美国在伊拉克和阿富汗的长期作战行动让这些国家对美国军事行动的可预测性有了认识。美国在准备下一场冲突时,如果要设计出反映和扰乱敌方思维的独特军事战略,就必须重视奇袭的作用。奇袭可以实现认知震撼,或者说在战略和行动上瓦解对手,而且往往只需较少的资源就能达到与消耗战相同的效果。反过来,这又提出了一个有关奇袭的重要问题:在军事规划中,奇袭和欺骗的相对重要性是什么?

成为VIP会员查看完整内容
7

5 月 17 日,英国海军司令本-基爵士(Sir Ben Key)在第一海务大臣海权会议上发表主旨演讲,强调了投资皇家海军以在现代多领域环境中保持威信的重要性。

31 型和 T26 型护卫舰等先进舰艇以及新型舰队固体支援舰的引进标志着皇家海军在物理技术方面的重大进步。此外,对无人驾驶车辆和飞机的探索凸显了对技术进步的持续研究。然而,要有效利用这些资产,强大的指挥与控制(C2)能力是必不可少的,Systematic 和其他公司都在努力跟上并超越快速变化的步伐,提供可靠的现役解决方案。

然而,数字技术的发展才是 21 世纪最强大的力量。人工智能(AI)已成为国防领域的流行语,并常常被视为解决未来战争方法所带来问题的 "答案"。然而,人工智能的真正价值在于对其能力的理解,以及如何增强海上作战空间。仅仅采用人工智能而不真正了解其潜力,会限制其实质和有效性。

因此,我们将探讨在海上作战空间使用人工智能的主要益处,重点介绍其带来的进步和能力。

增强态势感知

人工智能在海上作战空间的主要优势之一是能够提供更强的态势感知能力。人工智能系统与传感器网络和数据分析相结合,可以处理来自卫星、雷达系统、声纳阵列和无人平台等各种来源的大量信息。

这种能力使海军部队能够实时洞察海洋环境、识别威胁并迅速做出明智决策。通过分析模式和检测异常,人工智能系统可以提供预警、降低风险并提高整体作战效能。

改进决策

人工智能赋予海军指挥官更强的决策能力。通过分析历史数据、进行模拟和考虑各种情况,人工智能系统可以生成准确的预测和建议。这些见解有助于海军人员评估不同行动方案的潜在结果、评估风险和优化资源分配。

此外,人工智能决策支持系统还能提供实时更新,并根据不断变化的情况提出替代战略建议,使海军部队能够迅速适应并保持在战场上的竞争优势。

自主和无人系统

人工智能技术在自主和无人系统的发展中起着至关重要的作用,它将彻底改变海军行动。配备人工智能功能的无人机(UAV)、无人水面舰艇(USV)和无人潜航器(UUV)可以执行各种任务,包括监视、侦察、探雷和反潜作战。

这些无人平台不仅具有成本效益,还能降低人类的风险。人工智能使这些系统能够在复杂的环境中航行、避开障碍物并做出实时决策,从而有效地扩大了海军部队的覆盖范围和能力。

预测性维护和基于状态的监测

维护海军舰队是一项复杂的资源密集型任务。然而,人工智能系统可以通过采用预测性维护和基于状态的监测技术来简化维护操作。通过分析传感器数据、历史维护记录和设备性能,人工智能可以预测潜在故障、确定维护要求并优化维护计划。

这种积极主动的方法可以最大限度地减少停机时间,降低维护成本,并确保海军资产的可用性和运行准备状态。

网络安全和威胁探测

在当今的数字时代,网络安全对海军行动至关重要。人工智能可以利用机器学习算法实时检测和应对网络威胁,从而加强网络安全措施。人工智能系统可以分析网络流量、检测恶意活动模式并识别潜在漏洞。通过不断学习和适应,人工智能驱动的网络安全解决方案可以有效应对新出现的网络威胁,保护敏感数据,保护关键基础设施,确保海军网络的完整性和弹性。

谨慎注意....

然而,在国防行动中使用人工智能时,必须始终采取预防措施,以确保负责任和合乎道德地实施人工智能。首先,必须采取强有力的网络安全措施,保护人工智能系统免遭黑客攻击和未经授权的访问。此外,有必要对人工智能算法进行全面测试和验证,以最大限度地降低可能导致意外后果的错误或偏差风险。

透明的治理框架和法规应指导人工智能的使用,解决问责制、隐私和自主决策潜力等问题。对参与人工智能操作的人员进行定期培训和教育,对于保持对人工智能能力、局限性和道德考虑因素的清晰认识至关重要。

结论

人工智能在海上作战空间的优势是深远和变革性的。增强态势感知、改进决策、自主系统、预测性维护和强大的网络安全只是人工智能为海军作战带来的好处的一小部分。随着人工智能的不断发展和进一步融入海战,它有可能彻底改变海军的作战方式,确保全球海军部队具备卓越的作战能力、提高效率并加强安全。只要以负责任和合乎道德的方式实施人工智能,它将成为维护海上安全和在现代作战空间中占据主导地位的重要工具。

参考来源:SYSTEMATIC

成为VIP会员查看完整内容
5

论文:Examining Inter-Consistency of Large Language Models Collaboration: An In-depth Analysis via Debate

作者:熊凯 ,丁效,曹艺馨,刘挺,秦兵 链接:https://arxiv.org/abs/2305.11595 项目链接:https://github.com/Waste-Wood/FORD 转载须标注出处:哈工大SCIR

1. 背景及动机

最近,像ChatGPT这样的大型语言模型(LLMs)在一定程度上展现出了通用智能 [1],并且 LLMs 已被广泛用作各种应用中的基础模型 [2,3]。为了解决依稀更复杂的任务,多个 LLMs 被引入来进行协作,不同的 LLMs 执行不同的子任务或同一任务的不同方面 [4,5]。有趣的是,这些 LLMs 是否拥有协作精神?它们是否能有效并高效地协作,实现一个共同的目标?

图1: 辩论中的妥协 (a) 和反驳 (b),其中🤖是正方,👾是反方 这篇论文中,我们探讨了多个 LLMs 之间的一致性 (inter-consistency),这与现有的大部分研究不同,现有研究主要探讨单个 LLM 内的自我一致性 (intra-consistency 或 self-consistency) 问题 [6,7]。基于我们的观察和实验,我们强调了LLMs协作中的可能存在的两个主要问题。首先,LLMs 的观点很容易发生改变。如图1(a)所示,正方和反方 LLMs 给出了不同的预测结果,而正方很快就妥协并接受了反方的答案。所以,LLMs 到底有多容易改变自己的观点,又有多大程度会坚持自己的观点?其次,当 LLMs 坚持自己的意见时 (图1(b)),他们进行协作时是否能在共同目标上达成共识? 受辩论理论 [8] 的启发,我们设计了一个辩论框架 (FORD),以系统和定量地研究 LLMs 协作中的模型间不一致问题。基于 FORD,我们允许 LLMs 通过辩论探索它们自己的理解与其他 LLMs 的概念之间的差异。因此,这些结果不仅能够鼓励 LLMs 产生更多样化的结果,也使得 LLMs 可以通过相互学习实现性能提升。 具体来说,我们以多项选择的常识推理作为示例任务,因为常识推理任务是一类可能性 (plausible) 的任务,每个答案都是可能成立的,只是正确答案成立的可能性更高,所以常识推理任务更适合被用来进行辩论。为此我们制定了一个三阶段的辩论来对齐现实世界的场景:(1)平等辩论:两个具有可比能力的 LLMs 之间的辩论。(2)错位辩论:能力水平差异较大的两个 LLMs 之间的辩论。(3)圆桌辩论:两个以上的 LLMs 之间的辩论。

2. 数据集、LLMs及相关定义

我们在这里统一介绍实验使用的数据集,LLMs,模型间不一致性的定义,以及使用的基线方法等。 2.1 数据集(常识推理) 表1:7个常识推理数据的任务类型和大小 •NLI [9]:大规模的溯因推理数据集 •CommonsenseQA [10]:大规模的常识问答数据集 •COPA [11]:小规模的因果推理数据集 •e-CARE [12]:大规模的可解释因果推理数据集 •Social IQa [13]:有关日常事件的社会影响的常识推理数据集 •PIQA [14]:有关物理常识的自然语言推理数据集 •StrategyQA [15]:有关隐式推理策略的数据集 数据集的统计信息见表1。 2.2 大语言模型(LLMs) 我们在辩论中使用了以下 6 个 LLMs 进行实验: •闭源模型 –gpt-3.5-turbo:记作 ChatGPT,是一个对话补全模型 –gpt-3.5-turbo-0301:记作 ChatGPT-0301,是gpt-3.5-turbo 的迭代版本 –text-davinci-003:记作 Davinci-003,是一个文本补全模型 –gpt-4:记做 GPT-4,是一个更强的对话补全模型 •开源模型 –LLaMA-13B:记作 LLaMA,是Meta公司开源的拥有 13B 参数的文本补全模型 –Vicuna-13B:记作 Vicuna,是在70K 指令数据上微调后的 LLaMA 模型 2.3 模型间的不一致性 (INCON) 假设我们有 个 LLMs:,以及一个拥有 个样例的数据集:。我们将 定义为 在 的预测结果。则模型间的不一致性 INCON 可以被定义为:其中 是一个符号函数,当 中存在两个任意的变量不相等, 取 1,否则 取 0。 2.4 基线方法 我们定义了 3 种基线方法来和辩论框架进行对比: •Single LLM:只用一个 LLM 来执行推理 •Collaboration-Soft (Col-S):随机相信其中一个 LLM 的结果,所以这个方法的性能是多个 LLMs 的性能的平均 •Collaboration-Hard (Col-H):只相信一致的预测,不一致的的预测都看作是错误的 3. 辩论框架 (FORD)

图2 辩论框架,(1) LLMs 对每一个样例,独立地给出选项和解释作为立场和论据;(2) 在立场不一致的样例上面,基于第一步的论据,LLMs 交替式地进行辩论;(3) 裁判对辩论过程进行总结并给出最终的辩论结果 •Step1:对于给定的每个样例,每个 LLM 都单独进行回答,生成一个答案和解释,答案和解释则作为相关 LLM 在此样例上的立场和初始论据。根据 LLMs 在每个样例上的立场,把样例分为立场一致的样例和立场不一致的样例,只有立场不一致的样例才会进行辩论。 •Step2:对于每个立场不一致的样例,基于初始的两个论据,LLMs 交替地进行辩论。在辩论期间,LLMs 可以坚持自己的看法,也可以向其它更合理的看法妥协,每次辩论都会生成一个新的立场和新的论据,但是新的立场不会放入辩论过程中。辩论会在达成共识或者是轮次达到上限时停止。 •Step3:最后我们会根据辩论过程中立场的变化,使用启发式的方法,对辩论进行最后的总结,并得到最终的辩论结果。当 LLMs 达成共识的时候,一致的立场作为最终结果,若没达成一致,则不同论据的立场进行投票得到最终结果。

4. 实验

考虑到不同 LLMs 在不同数据集上的表现,我们设置一下辩论进行讨论 (对于两个 LLMs 的辩论来说,& 符号左边是正方,右边是反方): •平等辩论 –ChatGPT & Davinci-003 –ChatGPT & ChatGPT-0301 –LLaMA & Vicuna •错位辩论 –ChatGPT & GPT-4 –LLaMA & ChatGPT •圆桌辩论 –ChatGPT & Davinci-003 & GPT-4 (错位的圆桌辩论) –ChatGPT & Davinci-003 & ChatGPT-0301 (平等的圆桌辩论) 4.1 平等辩论 图 3:平等辩论中,各 LLMs 对在不同数据集上的不一致性。虚线部分代表正方模型预测错误而反方模型预测正确带来的不一致性。 4.1.1 不一致性 我们首先执行辩论框架的第一步,来得到不同辩论中,LLMs 之间的不一致性。结果如图 3 所示,我们可以得到以下结论: •不同类型 (文本补全和对话补全,有无指令微调) 的 LLMs 之间(ChatGPT & Davinci-003, LLaMA & Vicuna) 在几乎所有数据集上都持有20%-30% 的 INCON,即使它们是基于相同的基础模型开发的。 每个条形中的虚线部分对 INCON 的贡献接近50%,这意味着每个LLMs 对中的LLM 拥有可比但截然不同的能力。 •对于 ChatGPT & ChatGPT-0301,ChatGPT-0301 在功能上并不会完全覆盖 ChatGPT。这表明 LLMs 在迭代过程中获得了新的能力的同时,也会失去一些现有的能力。 因此,使用更新的LLMs 来复现不可用的早期版本的 LLMs 的结果并不会令人信服。 4.1.2 平等辩论的结果

表 2:平等辩论及基线方法在不同数据上的表现。带下划线的数字表示在三种协作模型中最好的结果,加粗的数字代表在单模型和协作模型中最好的结果。Avera****ge表示不同模型在所有数据集上的平均性能。 平等辩论及基线方法的表现如表 2 所示,我们可以得到以下结论: •FORD在几乎所有数据集上都优于Col-S和Col-H,以及相应的单一LLM(除了 Social IQa 上的 LLaMA & Vicuna)。这是因为FORD可以让 LLMs 从更全面、更精确的视角来看待问题。这意味着具有可比能力的** LLMs **拥有协作精神,可以有效且高效地实现共同目标。

•而 FORD 在 ChatGPT & ChatGPT-0301 上并没有获得像其他辩论那样多的提升。这主要是由于它们的能力非常相似,导致它们通常对每个样本都有相似的看法,使得性能提升微不足道。 •在每个数据集上,ChatGPT & ChatGPT-0301 具有更高的性能下限 (Col-H),这表明我们可以选择类似的模型进行辩论获得保守的收益。然而 ChatGPT & Davinci-003 具有更高的性能上限 (FORD),这表明我们可以选择能力可比但差异较大的 LLMs 进行辩论以获得更好的性能。4.1.3 辩论中不一致性的变化

图 4:随着辩论的进行,(a) ChatGPT & Davinci-003, (b) ChatGPT & ChatGPT-0301, 以及 (c) LLaMA & Vicuna 的不一致性(INCON) 变化。 图 4 展示了平等辩论的不一致性INCON随着辩论轮次的变化,从中我们可以总结如下结论: •对于每场公平辩论,每个数据集的每一轮后INCON都会逐渐下降。这是因为 LLMs 可以从彼此之间的差异中学习从而达成一致,这表明**能力可比的**** LLMs **可以进行辩论并在共同目标上达成共识。 •对于 ChatGPT & Davinci-003 和 ChatGPT & ChatGPT-0301,INCON在所有数据集上几乎下降到 0,而LLaMA & Vicuna 经过辩论后仍然存在较为明显的不一致性。我们认为这是由于它们的能力差距造成的。 •ChatGPT & ChatGPT-0301 的INCON经过 2 轮就实现了收敛,比其他公平辩论要早。这主要是因为它们的能力非常相似,导致它们更早达成共识。 4.2 错位辩论4.2.1 辩论结果

表 3:错位辩论的结果

图 5:错位辩论中不一致性的变化 由于资源所限,我们只在 e-CARE 和 PIQA 上进行错位辩论,错位辩论的结果如表 3 和图 5 所示,我们可以得出以下结论: •FORD 可以轻松超越Col-S 和Col-H,以及较弱的那一个 LLM,但比不上较强的那一个 LLMs。似乎错位辩论存在一个性能上限,这个上限与较强的 LLMs 的性能有关。这表明**能力不匹配的**** LLMs 很难有效地合作实现共同目标。 •即使能力不匹配,LLMs 之间的INCON 仍然继续下降。这些表明能力不匹配的 LLMs 仍然具有达成共识的协作精神,但会受到能力较差的 LLMs 的干扰。 •与平等辩论相比,占主导地位的 LLMs(GPT-4 和ChatGPT)可能会被较弱的 LLMs 分散注意力,但将 ChatGPT & Davinci-003 和 LLaMA & Vicuna 中的 Davinci-003 以及 Vicuna 分别换成GPT-4 和 ChatGPT,FORD还是会获得显着的提升。 •LLaMA & ChatGPT 的 FORD 似乎表现还远远没有达到可能存在的上限,这是因为 LLaMA 没有能力对其它模型的论据进行评估,只会不断表明自己的立场,这更加分散了 ChatGPT 的注意力。 4.2.2 辩论的主导程度 dominance 为了进一步分析,我们为 LLMs 辩论引入了一个新的指标:辩论的主导程度dominance。例如,正方LLM 的dominance 被定义为反方 LLM 妥协的样本的比例,反之亦然。dominance 直接反映了 LLMs 在辩论中坚持自己观点的程度。 表 4:不同辩论中不同模型的主导程度 以公平辩论 (ChatGPT & Davinci-003) 为例,表 4 显示 ChatGPT & Davinci003 在两个数据集上取得了相似的主导程度。它解释了为什么可比的 LLMs 可以进行辩论来妥协或坚持更合理的观点来提高性能。因此,我们将其作为错位辩论的参考,如表4所示,我们可以得出结论: •实力较强的 LLMs(GPT-4和ChatGPT)在不匹配的辩论中占据绝对优势。这与人类的场景类似,在与比自己更强的人辩论时,自己很容易被带入到对方的思考过程中并认可对方的想法。因此,实力较强的 LLMs **更有可能坚持自己的观点。当更强的 LLMs 对少数样本缺乏信心时,它们更容易受到较弱的 LLMs 的干扰。 •然而,LLaMA & ChatGPT 并没有表现出如此大的主导程度差距。这主要是因为 LLaMA 几乎没有辩论的能力。它无法评估其它模型的论点,大多数时候只会生成 “选项(x)更合理” 之类的句子,这会让 ChatGPT 摇摆不定。 4.2.3 圆桌辩论 在许多场景中,辩论或者是讨论并不局限于 2 个参与者,例如医疗诊断和法庭陪审团,都需要多个参与者,所以我们设计了有 3 个 LLMs 参与的圆桌辩论:一个错位的圆桌辩论 ChatGPT & Davinci-003 & GPT-4 (记为 R1),一个平等的圆桌辩论 ChatGPT & Davinci-003 & ChatGPT-0301 (记为 R2)。我们选取 e-CARE 和 PIQA 作为圆桌辩论的数据集。

表 5:圆桌辩论与单模型以及双模型辩论结果,M 代表错位辩论,F 代表平等辩论 图 6:圆桌辩论的不一致性变化 圆桌辩论的结果如表 5 和图 6 所示,我们可以进行分析得到以下结论: •在两种圆桌辩论中,FORD 的表现均明显优于Col-S 和Col-H。然而R1 中的 FORD 远不如GPT-4,如果有更多较弱的 LLMs,那么较强的LLMs 可能会更容易被误导,并且不那么占主导地位(请参阅文章附录中的表 10)。FORD 在 R2 上的表现优于所有单一LLMs,这证明两个以上可比的**** LLMs **可以有效且高效地协作以实现共同目标。 •圆桌辩论中的INCON 明显下降,表明两个以上**** LLMs **仍然具备协作精神并达成共识。 •圆桌辩论R1 性能表现超越了 R2。这表明更换一个较强的 LLMs 可以提高辩论的表现,尽管较强的 LLMs 可能会被其他较弱的 LLMs 误导。 在 R2 中,FORD 超过了平等辩论 ChatGPT & ChatGPT0301,而与 ChatGPT & Davinci-003 取得了相似的结果,这是因为ChatGPT和ChatGPT-0301没有太多区别,导致辩论中引入的新信息很少。

5. 分析

5.1 使用 GPT-4 作为辩论的裁判 表 6:GPT-4 作为裁判对辩论结果的影响

每次辩论中不同的论点可能有不同的说服力。而且,在人类辩论中,有一个具有强大评估能力的人类裁判来总结辩论并得出最终结论。受此启发,我们研究使用 GPT-4 作为裁判来执行 FORD 中的第 3 步,并在两个公平辩论中进行实验。实验结果如表 6 所示: •GPT-4作为裁判可以进一步提升辩论的性能。主要是因为GPT4可以给更有说服力的论点赋予更高的权重,从而得出更精确的结论。 •同时,启发式的方法作为裁判也可以以一个较低的成本达到一个较理想的结果。5.2 辩论顺序的影响 表 7:不同辩论顺序对辩论的影响,*代表更换顺序的辩论结果 就像模型训练过程中不同的初始化可能会产生不同的结果一样,辩论框架的步骤 2 中的辩论顺序可能会影响结果,我们进行消融研究来研究辩论顺序的影响。实验结果如表 7 所示: 当我们将 Davinci-003 作为正方,ChatGPT 作为反方时,FORD 仍然优于Col-S和Col-H,以及相应的单一 LLM,获得与原始辩论顺序相似的结果。这进一步支持了上文的发现对辩论顺序不敏感。 5.3 样例分析 图 7:样例分析 在 Debate 1 中,正方 (ChatGPT) 认为选项 (A) 更合理,而反方 (Davinci-003) 则认为选项 (B) 更好。正方指出,这个问题的关键在于“旧年鉴”。反方最终向正方妥协。通过这场辩论,一个 LLMs 可以提供另一个 LLMs 忽视的细节,从而产生更有说服力的可解释信息和更准确的决策。 6. 结论

我们探讨了不同 LLMs 之间的不一致问题。然后我们使用辩论框架 FORD 来考察 LLMs 是否能够有效地协作,通过辩论最终达成共识。为此我们探索了三个现实世界的辩论场景公平辩论、不匹配辩论和圆桌辩论。我们发现 LLMs 拥有协作精神,能够就共同目标达成共识。辩论可以提高 LLMs 的表现和相互一致性。当辩论不匹配时,较强的 LLMs 可能会被较弱的 LLMs 分散注意力。这些发现有助于未来开发更有效的多 LLMs 协作方法。

参考文献

[1] Bubeck S, Chandrasekaran V, Eldan R, et al. Sparks of artificial general intelligence: Early experiments with gpt-4[J]. arXiv preprint arXiv:2303.12712, 2023. [2] Wei J, Wang X, Schuurmans D, et al. Chain-of-thought prompting elicits reasoning in large language models[J]. Advances in Neural Information Processing Systems, 2022, 35: 24824-24837. [3] Wu C, Yin S, Qi W, et al. Visual chatgpt: Talking, drawing and editing with visual foundation models[J]. arXiv preprint arXiv:2303.04671, 2023. [4] Schick T, Jane A Y, Jiang Z, et al. PEER: A Collaborative Language Model[C]//The Eleventh International Conference on Learning Representations. 2023. [5] Park J S, O'Brien J C, Cai C J, et al. Generative agents: Interactive simulacra of human behavior[J]. arXiv preprint arXiv:2304.03442, 2023. [6] Wang X, Wei J, Schuurmans D, et al. Self-Consistency Improves Chain of Thought Reasoning in Language Models[C]//The Eleventh International Conference on Learning Representations. 2023. [7] Jung J, Qin L, Welleck S, et al. Maieutic Prompting: Logically Consistent Reasoning with Recursive Explanations[C]//Proceedings of the 2022 Conference on Empirical Methods in Natural Language Processing. 2022: 1266-1279. [8] Mayer I. Debating technologies[J]. A Methodological Contribution to the Design and Evaluation of Participatory Policy Analysis. Tilburg, The Netherlands, 1997. [9] Bhagavatula C, Le Bras R, Malaviya C, et al. Abductive Commonsense Reasoning[C]//International Conference on Learning Representations. 2020. [10] Talmor A, Herzig J, Lourie N, et al. CommonsenseQA: A Question Answering Challenge Targeting Commonsense Knowledge[C]//Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long and Short Papers). 2019: 4149-4158. [11] Roemmele M, Bejan C A, Gordon A S. Choice of plausible alternatives: An evaluation of commonsense causal reasoning[C]//2011 AAAI Spring Symposium Series. 2011. [12] Du L, Ding X, Xiong K, et al. e-CARE: a New Dataset for Exploring Explainable Causal Reasoning[C]//Proceedings of the 60th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers). 2022: 432-446. [13] Sap M, Rashkin H, Chen D, et al. Social IQa: Commonsense Reasoning about Social Interactions[C]//Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing (EMNLP-IJCNLP). 2019: 4463-4473. [14] Bisk Y, Zellers R, Gao J, et al. Piqa: Reasoning about physical commonsense in natural language[C]//Proceedings of the AAAI conference on artificial intelligence. 2020, 34(05): 7432-7439. [15] Geva M, Khashabi D, Segal E, et al. Did aristotle use a laptop? a question answering benchmark with implicit reasoning strategies[J]. Transactions of the Association for Computational Linguistics, 2021, 9: 346-361. 本期责任编辑:丁 效本期编辑:孙洲浩


**

哈尔滨工业大学社会计算与信息检索研究中心**

理解语言,认知社会 以中文技术,助民族复兴

成为VIP会员查看完整内容
24
登陆后查看更多精品内容
VIP会员
本周荟萃主题
区块链
区块链(Blockchain)是由节点参与的分布式数据库系统,它的特点是不可更改,不可伪造,也可以将其理解为账簿系统(ledger)。它是比特币的一个重要概念,完整比特币区块链的副本,记录了其代币(token)的每一笔交易。通过这些信息,我们可以找到每一个地址,在历史上任何一点所拥有的价值。
深度学习
机器学习的一个分支,它基于试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的一系列算法。
机器学习
“机器学习是近20多年兴起的一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。机器学习理论主要是设计和分析一些让 可以自动“ 学习”的算法。机器学习算法是一类从数据中自动分析获得规律,并利用规律对未知数据进行预测的算法。因为学习算法中涉及了大量的统计学理论,机器学习与统计推断学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。很多 推论问题属于 无程序可循难度,所以部分的机器学习研究是开发容易处理的近似算法。”

——中文维基百科
强化学习
强化学习(RL)是机器学习的一个领域,与软件代理应如何在环境中采取行动以最大化累积奖励的概念有关。除了监督学习和非监督学习外,强化学习是三种基本的机器学习范式之一。 强化学习与监督学习的不同之处在于,不需要呈现带标签的输入/输出对,也不需要显式纠正次优动作。相反,重点是在探索(未知领域)和利用(当前知识)之间找到平衡。 该环境通常以马尔可夫决策过程(MDP)的形式陈述,因为针对这种情况的许多强化学习算法都使用动态编程技术。经典动态规划方法和强化学习算法之间的主要区别在于,后者不假设MDP的确切数学模型,并且针对无法采用精确方法的大型MDP。
推荐系统
推荐系统,是指根据用户的习惯、偏好或兴趣,从不断到来的大规模信息中识别满足用户兴趣的信息的过程。推荐推荐任务中的信息往往称为物品(Item)。根据具体应用背景的不同,这些物品可以是新闻、电影、音乐、广告、商品等各种对象。推荐系统利用电子商务网站向客户提供商品信息和建议,帮助用户决定应该购买什么产品,模拟销售人员帮助客户完成购买过程。个性化推荐是根据用户的兴趣特点和购买行为,向用户推荐用户感兴趣的信息和商品。随着电子商务规模的不断扩大,商品个数和种类快速增长,顾客需要花费大量的时间才能找到自己想买的商品。这种浏览大量无关的信息和产品过程无疑会使淹没在信息过载问题中的消费者不断流失。为了解决这些问题,个性化推荐系统应运而生。个性化推荐系统是建立在海量数据挖掘基础上的一种高级商务智能平台,以帮助电子商务网站为其顾客购物提供完全个性化的决策支持和信息服务。
卷积神经网络
在深度学习中,卷积神经网络(CNN或ConvNet)是一类深度神经网络,最常用于分析视觉图像。基于它们的共享权重架构和平移不变性特征,它们也被称为位移不变或空间不变的人工神经网络(SIANN)。它们在图像和视频识别,推荐系统,图像分类,医学图像分析,自然语言处理,和财务时间序列中都有应用。
计算机网络
计算机网络( Computer Networks )指将地理位置不同的多台计算机及其外部设备,通过通信线路连接起来,在网络操作系统及网络通信协议的管理和协调下,实现资源共享和信息传递的计算机系统。
命名实体识别
命名实体识别(NER)(也称为实体标识,实体组块和实体提取)是信息抽取的子任务,旨在将非结构化文本中提到的命名实体定位和分类为预定义类别,例如人员姓名、地名、机构名、专有名词等。
机器翻译
机器翻译,又称为自动翻译,是利用计算机将一种自然语言(源语言)转换为另一种自然语言(目标语言)的过程。它是计算语言学的一个分支,是人工智能的终极目标之一,具有重要的科学研究价值。
计算机视觉
计算机视觉是一门研究如何使机器“看”的科学,更进一步的说,就是是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉,并进一步做图形处理,使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科,计算机视觉研究相关的理论和技术,试图建立能够从图像或者多维数据中获取‘信息’的人工智能系统。
微信扫码咨询专知VIP会员