了解 GPT、Gemini 等大型语言模型的原理(通俗易懂)

《How Large Language Models Work》(大型语言模型的工作原理)将多年关于大型语言模型(LLMs)的专家研究成果,转化为一本可读性强、内容聚焦的入门读物,帮助你掌握这些令人惊叹的系统。书中清晰解释了 LLM 的工作机制,介绍了优化与微调方法,以及如何构建高效、可靠的 AI 应用流程和管道。

**你将在本书中学到:

如何测试与评估 LLM * 如何使用人类反馈、监督微调和检索增强生成(RAG)技术 * 如何降低错误输出、高风险失误和自动化偏差的风险 * 如何构建人机交互系统 * 如何将 LLM 与传统机器学习方法相结合

本书由 Booz Allen Hamilton 的顶尖机器学习研究人员撰写,包括研究员 Stella Biderman、AI/ML 研究总监 Drew Farris 和新兴 AI 研究总监 Edward Raff。他们用通俗易懂的语言,深入浅出地讲解了 LLM 和 GPT 技术的运作原理,适合所有读者阅读和理解。


技术背景介绍

大型语言模型为“人工智能”中的“I”(智能)赋予了实质含义。通过连接来自数十亿文档中的词语、概念与模式,LLM 能够生成类似人类的自然语言回应,这正是 ChatGPT、Claude 和 Deep-Seek 等工具令人惊艳的原因所在。在这本内容翔实又富有趣味的书中,来自 Booz Allen Hamilton 的全球顶尖机器学习研究人员将带你探讨 LLM 的基本原理、机遇与局限,并介绍如何将 AI 融入组织与应用中。


图书内容简介

《How Large Language Models Work》将带你深入了解 LLM 的内部运作机制,逐步揭示从自然语言提示到清晰文本生成的全过程。书中采用平实语言,讲解 LLM 的构建方式、错误成因,以及如何设计可靠的 AI 解决方案。同时你还将了解 LLM 的“思维方式”、如何构建基于 LLM 的智能体与问答系统,以及如何处理相关的伦理、法律与安全问题。

**书中内容包括:

如何定制 LLM 以满足具体应用需求 * 如何降低错误输出和偏差风险 * 破解 LLM 的常见误解 * LLM 在语言处理之外的更多能力


适读人群

无需具备机器学习或人工智能相关知识,初学者亦可放心阅读。


作者简介

Edward Raff 是 Booz Allen Hamilton 的新兴 AI 总监,领导该公司机器学习研究团队。他在医疗、自然语言处理、计算机视觉和网络安全等多个领域从事 AI/ML 基础研究,著有《Inside Deep Learning》。Raff 博士已在顶级 AI 会议发表超过 100 篇研究论文,是 Java Statistical Analysis Tool 库的作者,美国人工智能促进协会资深会员,曾两度担任“应用机器学习与信息技术大会”及“网络安全人工智能研讨会”主席。他的研究成果已被全球多个杀毒软件厂商采纳并部署。 Drew Farris 是一位资深软件开发者与技术顾问,专注于大规模分析、分布式计算与机器学习。曾在 TextWise 公司工作,开发结合自然语言处理、分类与可视化的文本管理与检索系统。他参与多个开源项目,包括 Apache Mahout、Lucene 和 Solr,并拥有雪城大学信息学院的信息资源管理硕士学位与计算机图形学学士学位。 Stella Biderman 是 Booz Allen Hamilton 的机器学习研究员,同时担任非营利研究机构 EleutherAI 的执行董事。她是开源人工智能的重要倡导者,参与训练了多个世界领先的开源 AI 模型。Biderman 拥有佐治亚理工学院计算机科学硕士学位,以及芝加哥大学的数学与哲学学士学位。


目录一览

大局观:LLM 是什么? 1. 分词器:LLM 如何“看”世界 1. Transformer:输入如何变成输出 1. LLM 是如何学习的 1. 如何约束 LLM 的行为 1. 超越自然语言处理 1. 对 LLM 的误解、局限与能力 1. 如何用 LLM 设计解决方案 1. 构建与使用 LLM 的伦理问题

成为VIP会员查看完整内容
46

摘要——AI 智能体正在经历一场范式转变:从早期由强化学习(Reinforcement Learning, RL)主导,到近年来由大语言模型(Large Language Models, LLMs)驱动的智能体兴起,如今正进一步迈向 RL 与 LLM 能力融合的协同演进。这一演进过程不断增强了智能体的能力。然而,尽管取得了显著进展,要完成复杂的现实世界任务,智能体仍需具备有效的规划与执行能力、可靠的记忆机制,以及与其他智能体的流畅协作能力。实现这些能力的过程中,智能体必须应对始终存在的信息复杂性、操作复杂性与交互复杂性。针对这一挑战,数据结构化有望发挥关键作用,通过将复杂且无序的数据转化为结构良好的形式,从而使智能体能够更有效地理解与处理。在这一背景下,图(Graph)因其在组织、管理和利用复杂数据关系方面的天然优势,成为支撑高级智能体能力所需结构化过程的一种强大数据范式。

为此,本文首次系统性地回顾了图如何赋能 AI 智能体。具体而言,我们探讨了图技术与智能体核心功能的融合方式,重点介绍了典型应用场景,并展望了未来的研究方向。通过对这一新兴交叉领域的全面综述,我们希望激发下一代智能体系统的研究与发展,使其具备利用图结构应对日益复杂挑战的能力。相关资源可在附带的 Github 链接中获取,并将持续更新以服务社区。

关键词:图、图学习、智能体、大语言模型、强化学习、综述

一、引言

在人工智能(AI)快速演进的浪潮中,AI 智能体因其在任务自动化处理方面的巨大潜力而受到广泛关注。智能体的发展历程经历了从早期基于强化学习(Reinforcement Learning, RL)的架构 [1], [2],到近年来由大语言模型(Large Language Models, LLMs)驱动的智能体 [3], [4],再到最新融合 LLM 作为知识基础与 RL 作为任务特定学习范式的紧耦合架构 [5],标志着智能体能力的一次重大飞跃。这一演进使得智能体能够利用 LLM 所蕴含的广泛世界知识理解复杂任务,并通过 RL 优化实现对任务的精准处理。 执行复杂现实任务的 AI 智能体往往需要具备多样化的能力 [6], [7]。高效的任务导航依赖于诸多智能体功能,例如精细化的规划能力、结合外部工具的精确执行能力、可靠的记忆机制,以及与其他智能体的高效协同能力 [8], [9]。然而,由于任务复杂性的存在,智能体在这些功能中常常面临信息、操作符以及交互的错综复杂与混乱无序。因此,亟需一种有效方式来组织和管理所遇数据,以便智能体能够更好地理解和高效处理,从而提升其应对复杂任务的能力。例如,在规划阶段,智能体需要解析非结构化的任务描述并将其重组为可执行的子任务计划;在执行过程中,需合理编排多种外部工具以兼顾效率与准确性;在记忆管理中,需有序整理庞大的内容以便有用信息得以保留并可快速检索;而在多智能体协作中,则需确定合适的协同拓扑结构,以实现有效的信息传递。在面对非结构化数据时,传统智能体通常只能在学习过程中隐式捕捉其中潜在的关联。基于数据中固有的有益关系,采用图为基础的显式建模结构化方法成为应对这一挑战的有前景途径,能够将原始而复杂的输入转化为简洁有序的形式,从而提升智能体的理解力与处理效率。这类结构化信息有助于智能体探索复杂任务并做出更具信息性的决策。 图在各类领域中已展现出广泛的适用性 [10]–[12],并被证明是管理数据、组织含有有价值关系信息的一种强大范式。在构建好的图基础上,图学习(Graph Learning)进一步通过对结构化信息的学习展现出显著成效 [13], [14]。具体而言,图通过将实体表示为节点、显式或隐式关系建模为边,提供了一种有效的数据组织方式。一个合适的图结构是实现智能体数据组织的关键。图结构的构建具有高度灵活性,可根据特定环境、任务、操作符与应用需求自定义图结构 [15]–[17],也可以利用现有的外部知识图谱 [18], [19]。这种灵活性使得图能够广泛嵌入于多种智能体及其多样化功能中。在构建好的图之上,图学习技术还可进一步提供一个强大的知识提取框架,帮助智能体捕捉复杂关系与有意义的信息。这使得图技术成为增强 AI 智能体在复杂场景下能力的理想手段。因此,图与智能体的交叉融合有望大幅提升其对结构化信息的处理与利用能力,进而赋能其在规划、执行、记忆与多智能体协作等方面的关键功能。 分类框架:本综述系统性地探讨了图在信息、操作符与多模型结构化组织中的作用,涵盖了从基于 RL 的智能体到基于 LLM 的智能体范式。考虑到 RL 技术与 LLM 基础模型日益紧密的融合,我们在分析中并未刻意区分图学习在这两类智能体架构中的作用,而是如图 1 所示,从智能体核心功能出发,以图赋能为主线展开讨论。我们重点关注图学习如何增强智能体的四大关键功能:规划、执行、记忆与多智能体协作。此外,本综述还探讨了智能体反过来如何促进图学习技术的发展。最后,在全面回顾的基础上,我们梳理了潜在的应用前景与关键的未来研究方向。通过综述该领域的系统洞察,我们旨在推动新一代能够利用结构化知识应对日益复杂挑战的 AI 智能体的发展。 在本文所探讨的背景下,现有综述主要集中于图技术在强化学习中的应用价值 [20], [21]。而随着 LLM 的快速发展,图学习也被视为提升其能力的有效技术,已有若干综述对该方向进行过探讨 [22], [23]。然而,尽管已有贡献,目前仍缺乏一项系统性地阐述图如何在智能体不同功能中发挥作用的综述。据我们所知,本文为首个系统性探索图技术与智能体多维操作交叉点的研究综述。我们希望通过全面回顾,为构建下一代图赋能智能体提供有价值的研究参考与启发。 本文的主要贡献如下: * 本文首次全面综述了图技术与 AI 智能体之间这一强大而充满潜力的交叉方向; * 我们提出了一种新的分类方法,系统化地梳理了图在智能体不同核心功能(规划、执行、记忆与协作)中的作用,并探讨了智能体如何反过来推动图学习的发展; * 基于本综述,我们进一步分析了图赋能智能体的应用前景、关键挑战以及未来研究方向。

文章结构如下:第二节介绍与本综述相关的基础知识;第三至第七节将根据提出的分类方法,详述各项相关研究;第八与第九节分别探讨图与智能体交叉领域中的潜在应用与未来机会;第十节对全文进行总结归纳。

本文提出了一种全新的分类方法,用于系统地探讨图技术与 AI 智能体如何实现相互增强,如图 2 所示。具体而言,在第 III 至第 VI 节中,我们介绍了图学习如何支持智能体的核心功能,包括规划(第 III 节)、执行(第 IV 节)、记忆(第 V 节)以及多智能体协作(第 VI 节)。通过将图与智能体功能之间的协同点加以细分,不仅契合了智能体系统设计中的自然模块化特征,也凸显了图技术在每项功能中所蕴含的独特潜力。 此外,在第 VII 节中,我们进一步探讨了智能体范式如何反过来促进图学习的发展。通过明确考虑这一反向作用,即基于智能体范式如何反哺图学习过程,我们强调了双向创新的重要性,并倡导一种整体视角,即图与智能体协同演化、深度融合,从而激发出超越单向整合的新方法论。 基于这一结构清晰的分类框架,我们将在第 VIII 与第 IX 节中进一步讨论相关应用与未来研究机遇。

成为VIP会员查看完整内容
44

美海军已明确需要利用人工智能优势,特别是在通用战术态势图(CTP)、作战识别(CID)及战场管理辅助领域。海军高度关注对“未知的未知”——即未知存在或难以追踪目标的作战识别。人工智能及其相关机器学习、深度学习与深度分析工具,为指挥官处理信息以识别此类“未知的未知”目标提供了技术支持。当前CID系统的局限性,加之传感器数据激增使值勤人员难以识别规律模式与异常现象,为技术应用创造了减轻人工负担的机遇。机器学习等AI系统可填补这一空白,协助判定“未知的未知”目标。针对机器学习与深度学习技术的研究,已确定水面舰艇部队CID应用的潜在方向,而技术获取与集成成为主要制约因素。需持续开展传统系统与新技术融合研究,以充分释放AI在识别“未知的未知”目标领域的潜力。

美海军已明确需借助人工智能(AI)提升通用战术态势图(CTP)与作战识别(CID)的战场感知能力。战术指挥官依赖精准完整的战场态势图以理解作战环境、识别威胁并制定有效战术决策。该过程面临多重挑战:战场态势的动态时效性、敌方蓄意实施的感知干扰、信息过载/错误/缺失/失准,以及基于传感器数据与物理特性识别高速移动目标的内在困难。战术决策常关乎生死存亡的关键性,进一步凸显了最大限度提升战场感知能力的必要性。

“未知的未知”目标对战术决策者构成严峻挑战。对敌方新战力或其他可能破坏战术行动要素的完全未知状态,加剧了战场事件与结果的不确定性。战术决策者需要分析工具支持识别“未知的未知”目标并辅助决策。人工智能有望提供技术解决方案,协助指挥官处理信息并制定决策。为深入理解该技术应用路径,需开展研究以明确当前及未来所需AI技术,通过精准识别敌方威胁与理解战场态势来增强CID与CTP能力。这要求具备识别并理解环境中“未知的未知”目标的能力。“未知的未知”指战场中影响战术行动的任意物体或事件。本研究采用定性方法评估AI技术在识别"未知的未知"目标中提供相关信息的能力,并分析该应用领域当前与未来的AI技术投资回报率(ROI)。

本论文识别并评估了具有决策应用价值的AI方法,包括机器学习、深度学习、认知处理与智能数据分析等技术方案,以支持战术环境中"未知的未知"目标识别。

研究问题为:(1)AI与数据分析如何协助识别“未知的未知”目标?(2)AI应在哪些环节集成以最优支持“未知的未知”目标识别?

本研究深入阐释了AI如何协助决策者理解战术传感器等多源信息的海量数据,以及如何通过分析识别“未知的未知”目标。研究潜在局限包括AI技术处理信息的广度与相关性:战术决策者可能无法获取识别“未知的未知”所需的完整信息,导致未知目标持续处于未知状态;此外决策者可能因接收过量"已知的未知"信息而陷入感知过载。本研究将为海军作战部情报与信息战处(OPNAV N2/N6)及其他战场感知解决方案研发机构提供参考。针对四类战场感知特征的深度剖析,为AI与数据分析方法的应用构建了框架;而将这些方法映射至具体战术感知场景,则是解决方案开发的关键步骤。

本文共分五章。第一章绪论阐述研究问题、目标、研究问题、研究方法及研究效益与局限;第二章文献综述系统论述“未知的未知”概念定义,以及AI、机器学习与深度学习方法的技术背景;第三章详述数据构建、收集与分析的研究方法;第四章讨论研究分析与结果并提出建议;第五章总结结论并提出后续研究方向。

成为VIP会员查看完整内容
40

本书的核心观点是:自人工智能(AI)发展以来,我们能够且应当将过去40至50年视作重大变革来临前的“前奏”。人类认知曾是推动人类发展的核心动力。因此,机器执行人类认知的能力,以及人机团队共同学习、协同思考的能力,将塑造一个崭新的世界。这场变革开创的现实,让我们得以构想这样的未来:后人会将我们生活的时代视为新阶段智人(或无论何种称谓)的起源。唯有数十年后——甚或更久——人类才能获得理解这些变革的恰当视角。在我们这一代,技术不仅是辅助人类的工具;是AI在改变人类。是AI在重构知识与传播的本质。有生以来第一次,改写DNA的可能性不再属于科幻范畴。我们正处于数字时代变革加速的临界点。

本文探讨当AI颠覆基本规则时,如何在此数字时代(DE)加速期引领国家与组织。书中案例源自国家安全领域的经验与视角,但其洞见同样适用于经济、医疗健康、个人安全等其他领域。任何国家、机构及学科均可借鉴本书观点并应用于自身领域。本书遵循一条既宽广又聚焦的道路——宽广到足以引领我们迈向未来,聚焦到贴合现实、切实可行,并阐明我们能够且真正应当采取的行动。我们当下构建的理念、概念与实践,将成为下一代发展的基石。因此,在此阶段赢得竞争的国家或组织,将具备定义并主宰未来的潜力。

本书面向高级领导人、高级军官与高层管理者;面向期望精准把握组织所面临挑战、风险与机遇的国家安全官员及管理者;亦面向所有渴望理解AI潜力与应用的人们。

成为VIP会员查看完整内容
36

**

**

内容简介

本书超越了 LangChain 的基础文档,深入介绍了 LangGraph 接口、构建 AI 智能体的设计模式,以及在实际生产中使用的可扩展架构,专为构建生成式 AI 应用的 Python 开发者打造。


主要特色

架起从原型到生产系统的桥梁,掌握健壮的 LangGraph 智能体架构 * 应用企业级测试、可观测性与监控实践 * 构建专用于软件开发与数据分析的智能体 * 购买纸质书或 Kindle 版附赠免费 PDF eBook


图书描述

第二版专注于当今企业在 AI 应用中面临的最大挑战:从原型走向生产部署。内容全面更新,涵盖 LangChain 生态系统的最新进展,系统阐述现代 AI 系统在企业环境中的开发、部署与扩展方式。本版特别强调多智能体架构、LangGraph 流程与高级 RAG(检索增强生成)管道。 你将学习如何设计构建智能体系统的模式,实际实现多智能体架构以处理复杂任务。书中还涵盖诸如 Tree-of-Thoughts、结构化生成与智能体交接等推理技巧,并提供丰富的错误处理示例。针对测试、评估和部署的章节得到扩展,重点说明如何设计安全、合规的 AI 系统,并遵循负责任的开发原则。同时,RAG 章节也加入了混合检索、重排序与事实核查等方法,以提升输出的准确性。 无论你是扩展已有流程,还是从零设计多智能体系统,本书都将为你提供将 LLM 应用部署到生产环境所需的技术深度与实用指导。


你将学到的内容

使用 LangGraph 设计与实现多智能体系统 * 实施可在部署前发现问题的测试策略 * 为生产环境部署可观测性与监控方案 * 构建具备重排序能力的 agent 化 RAG 系统 * 使用 LangGraph 和 MCP 设计可扩展的生产级 AI 智能体 * 使用最新的 LLM 模型与平台,如 Google Gemini、Anthropic、Mistral、DeepSeek 和 OpenAI 的 o3-mini * 设计符合现代伦理实践的安全、合规 AI 系统


适合人群

本书适用于希望深入学习 LangChain 与 LangGraph 的开发者、研究人员等。它强调企业级部署模式,特别适合希望大规模实施 LLM 解决方案的工程团队。尽管第一版面向的是个人开发者,本版则扩展了内容,适用于负责企业级 LLM 战略的工程团队与决策者。读者需具备基本的 Python 编程能力,若对机器学习有一定了解,将更容易掌握本书内容。


目录

生成式 AI 的崛起:从语言模型到智能体 1. LangChain 入门 1. 使用 LangGraph 构建工作流 1. 基于 LangChain 构建智能 RAG 系统 1. 构建智能体 1. 高级应用与多智能体系统 1. 软件开发与数据分析智能体 1. 评估与测试 1. 可观测性与生产部署 1. LLM 应用的未来


关于作者

Ben Auffarth 是一位全栈数据科学家,拥有超过 15 年的从业经验。他拥有计算与认知神经科学博士学位,曾在 IBM 超算上运行脑模型,设计并分析大规模实验,构建日处理数十万交易的生产系统,并对大规模文本语料训练语言模型。他是 Data Science Speakers London 的联合创始人及前主席。 Leonid Kuligin 是 Google Cloud 的资深 AI 工程师,致力于生成式 AI 与传统机器学习解决方案(如需求预测与优化问题)。他是 LangChain 上 Google Cloud 集成模块的核心维护者之一,也是在慕尼黑工业大学(TUM)与路德维希-马克西米利安大学(LMU)合作开设的 CDTM 项目的客座讲师。在加入 Google 之前,他在德国、俄罗斯与美国的技术、金融和零售公司中,积累了超过 20 年的复杂 AI 系统构建经验。

成为VIP会员查看完整内容
36

多模态大型语言模型(Multimodal Large Language Models,MLLMs)已迅速发展,超越了文本生成的范畴,如今能够覆盖图像、音乐、视频、人类动作以及三维物体等多种输出模态。它们通过在统一架构下将语言与其他感知模态整合,实现了跨模态的生成能力。本文综述将六大主要生成模态进行分类,并探讨了若干核心技术——包括自监督学习(Self-Supervised Learning, SSL)、专家混合机制(Mixture of Experts, MoE)、基于人类反馈的强化学习(Reinforcement Learning from Human Feedback, RLHF)以及思维链提示(Chain-of-Thought, CoT)——如何赋能跨模态能力。我们分析了关键模型、架构趋势及其涌现的跨模态协同效应,并重点指出了可迁移的技术路径与尚未解决的挑战。诸如 Transformer 和扩散模型等架构创新为这种融合奠定了基础,使得跨模态迁移与模块化专精成为可能。本文还总结了跨模态协同的最新发展趋势,并指出了评估方式、模块化设计及结构化推理等方面的开放性难题。该综述旨在提供一个关于 MLLM 发展的统一视角,并指明实现更通用、可适应、可解释的多模态系统的关键路径。

1 引言

自 2022 年底首次亮相以来,基于文本的大型语言模型(Large Language Models,LLMs)已成为人工智能领域的基础支柱。这些模型不仅重塑了人工智能的格局,也深刻融入了我们的日常生活。它们的演进推动了自然语言处理、人机交互以及多模态应用等方面的创新,为各个领域的无缝集成铺平了道路。随着发展,LLMs 已从最初的简单文本生成模型,演进为支持上下文学习(in-context learning)【16, 109, 149, 51】、指令跟随(instruction following)【110, 147, 146】以及多步推理(multi-step reasoning)【33】的复杂系统,正在重塑我们与计算机交互、完成任务和创造数字内容的方式。

然而,智能并不局限于语言本身。人类通过丰富的模态——文本、视觉、音频、动作等——来感知和理解世界。硬件的进步使得机器具备了处理、解释和生成这些多样化数据流的能力。这一技术趋势正推动研究社区迈向更加整体化的多模态方法,促使人工智能与人类复杂的感知方式更紧密对齐。因此,先进模型不仅擅长理解和生成文本,还能将文本与视觉结合【123】,或与音频整合【40】。这种演进也体现在输出形式上,它们正日益呈现出多模态和通用化的特征,突破了传统单一模态的响应模式。如今的模型常常以混合类型的数据作为输入【109, 147】,这一多模态集成正在推动人工智能系统逐步理解现实世界的复杂性【1】,不断逼近人类通用理解的能力。

虽然文本依然是这些模型处理的核心要素,但其生成能力已扩展至多个输出模态。为更好地理解这种多样性,本文提出了一个全新的分类方式,将多模态大型语言模型(Multimodal Large Language Models,MLLMs)的主要生成输出划分为六大关键类别:

文本生成文本(Text-to-Text, T2T):为所有语言类任务及自然语言处理的基础,支撑着信息检索、摘要生成、翻译与对话系统。

文本生成图像(Text-to-Image, T2I):用于视觉内容的生成与分析,是各类视觉生成任务的核心。 * 文本生成音乐(Text-to-Music, T2M):音乐是一种复杂的听觉媒介,包含多种乐器与情感表达,其建模难度高于一般音频。 * 文本生成视频(Text-to-Video, T2V):结合时间与视觉信息以生成动态场景,涉及现实物理规律,类似一个世界模型。 * 文本生成人类动作(Text-to-Human-Motion, T2HM):广泛应用于动画、机器人与虚拟人等场景,是实现直观人机交互的重要方式。 * 文本生成三维物体(Text-to-3D-Objects, T2-3D):对虚拟现实、游戏与设计等应用至关重要,有助于在沉浸式环境中实现想象与交互。

这六大类别代表了当前生成模型所涉及的主要模态,每种模态对应一种独特的数据输出形式与应用场景。本文将音乐单独归为 Text-to-Music(T2M),而非更广义的 Text-to-Audio,这是因为语音与文本关系密切,本质上是一种可直接相互转换的形式;而音乐则拥有与语言截然不同的结构、节奏、和声与创作元素,建模复杂性更高,因此值得单独对待。通过明确划分这些能力,我们希望强调生成模型所能覆盖的广泛输出范式,每种模式既有独特的应用场景,也伴随着专属的技术挑战。

支撑这些多模态生成能力的,是一系列基础性的架构创新,主要包括 Transformer【152】及其核心的注意力机制【5】,以及在众多视觉生成任务中表现突出的扩散模型(diffusion models)【106】。随着模态复杂度的不断提升,人工智能系统所需应对的问题日益复杂,模型结构与训练方法也在不断演进。这种演进往往是解锁模型涌现能力的关键【165】。其中有四项技术在提升模型推理能力方面起到了决定性作用:三项主要用于训练阶段,分别是自监督学习(Self-Supervised Learning,SSL)【121】、专家混合机制(Mixture of Experts,MoE)【62】以及基于人类反馈的强化学习(Reinforcement Learning from Human Feedback,RLHF)【26】;第四项是用于推理阶段的思维链提示(Chain-of-Thought,CoT)【164】。

自监督学习(SSL):在训练阶段使模型从海量未标注数据中学习,通过预测输入中被遮蔽的信息,建立起对语言、模式与世界知识的基础理解,为复杂推理提供必需支持。 * 专家混合机制(MoE):通过选择性激活不同“专家”子网络,以较低的计算开销显著提升模型容量,能更高效地学习多样知识与复杂模式,是增强高级推理能力的关键手段。 * 基于人类反馈的强化学习(RLHF):一种训练阶段的微调方法,使模型更符合人类偏好与行为预期。通过人类排名数据训练,RLHF 能提升模型输出的一致性、可靠性与指令理解能力。 * 思维链提示(CoT):在推理阶段引导模型生成一系列中间步骤,以增强多步推理能力。这种显式的思维过程有助于更准确且透明地处理复杂问题。

已有的综述文献也为理解 MLLMs 的发展提供了重要参考。[8] 提出了多模态学习的核心框架,并总结了代表性挑战,包括表示学习、模态翻译、模态对齐、模态融合与协同学习,奠定了 MLLM 研究的基础。[17] 评述了以视觉为中心的 MLLMs,涵盖其架构、模态对齐策略以及视觉定位、图像生成等应用。[183] 关注多模态模型中的人类偏好对齐机制,[30] 则深入探讨了模型的可解释性与可理解性,是可信 AI 的关键因素。[182] 详尽梳理了 MLLMs 在粒度、多模态与多语言覆盖及应用场景上的演进,并进一步推进了如多模态上下文学习、思维链推理、LLM 辅助视觉理解等新方法。[95] 系统地回顾了 MLLMs 在多种模态下的应用与安全性问题,[158] 则深入探讨了多模态思维链推理(Multimodal Chain-of-Thought, MCoT)在不同任务中的潜力。

为全面理解这一不断演化的研究图景,本文结构如下:第 2 节介绍背景知识与基本概念,并定义本文的综述范围与方法论;第 3 节对前述六大生成模态(T2T, T2I, T2M, T2V, T2HM, T2-3D)的历史发展进行梳理;第 4 节讨论四项核心技术(SSL, MoE, RLHF, CoT)的发展过程与关键作用;第 5 节综合分析跨模态的趋势、面临的挑战以及架构层面的共性,探索模态与技术之间的协同效应;第 6 节展望未来研究方向,如扩展 SSL 至新模态、模块化专家机制、以及非文本模态的思维链推理等;第 7 节总结全文核心观点,并探讨通向统一多模态系统的发展路径。

成为VIP会员查看完整内容
38

摘 要:人工智能技术作为推动现代战争向智能化战争转型的重要变量,正在深刻改变战争形 态和方式。梳理和总结了2024年人工智能技术在军事智能领域的最新科技进展。综述表明:美、欧 在持续加强人工智能顶层设计、研发投入、机构改革的同时,开始逐渐从安全、成本等角度审视和 调整相关人工智能战略;生成式智能、群体智能、人机混合智能、具身智能等人工智能技术在军事 领域保持较高发展热度,并产出众多里程碑式成果,引领智能无人平台自主感知与跨域协同的军事 智能技术发展趋势;同时,世界主要军事强国正快速将军事智能广泛应用于陆战、海战、空战等多 作战域;未来,类人化数理与因果逻辑推理、全局和本地协同化模型训练、边缘侧低资源模型部署 与推理、大小模型弹性融合实施等,将成为军事智能技术的重要发展方向。 关键词:人工智能;军事智能;生成式智能;群体智能;人机混合智能;具身智能

成为VIP会员查看完整内容
31

本综述聚焦于快速演进的深度研究系统领域——这些由 AI 驱动的应用通过整合大型语言模型、先进的信息检索技术与自主推理能力,实现了复杂研究工作流的自动化。我们系统分析了自 2023 年以来出现的 80 余个商用与非商用实现,包括 OpenAI/DeepResearch、Gemini/DeepResearch、Perplexity/DeepResearch,以及众多开源替代方案。基于全面的调研,我们提出了一套新的分层分类体系,从四个核心技术维度对系统进行归类:基础模型与推理引擎、工具使用与环境交互、任务规划与执行控制、知识综合与结果生成。 文章深入探讨了这些系统在学术、科学、商业与教育场景中的架构模式、实现方法与领域适配特征。分析显示,当前实现已具备显著能力,但在信息准确性、隐私保护、知识产权与可获取性等方面仍面临技术与伦理挑战。最后,本文指出了未来值得关注的研究方向:高级推理架构、多模态集成、领域专化、人机协作以及生态系统标准化,这些方向很可能塑造这一变革性技术的未来发展。 通过构建理解深度研究系统的综合框架,本综述既为 AI 增强知识工作的理论研究提供了参考,也为开发更强大、更负责任、更易获取的研究技术奠定了实践基础。论文资源可在 https://github.com/scienceaix/deepresearch 获取。

1 引言

人工智能的快速发展引发了一场范式转变,改变了知识在学术和工业领域中被发现、验证与应用的方式。传统的研究方法依赖于人工的文献综述、实验设计和数据分析,如今正逐步被智能系统所补充——在某些情况下甚至被替代——这些系统能够自动化端到端的研究流程。这一演化催生了一个新兴领域,我们称之为“深度研究(Deep Research)”,其标志是大型语言模型(LLMs)、先进的信息检索系统与自动推理框架的融合,重新定义了学术探索与实际问题解决的边界。

1.1 深度研究的定义与范围

深度研究指的是系统性地应用人工智能技术,从三个核心维度对研究流程进行自动化和增强: 1. 智能知识发现:自动化地进行文献检索、假设生成与跨异构数据源的模式识别; 1. 端到端工作流自动化:将实验设计、数据采集、分析与结果解释集成到统一的AI驱动流程中; 1. 协同智能增强:通过自然语言界面、可视化手段和动态知识表示促进人机协作。

为了清晰界定“深度研究”的边界,我们将其与相邻的AI系统区分如下: * 区别于通用AI助手:虽然像 ChatGPT 这样的通用智能体能够回答研究问题,但它们缺乏自动化工作流能力、专用研究工具及端到端的研究编排功能,这是深度研究系统的核心特征。近期的调查强调了专用研究系统与通用AI能力之间的关键差异【73, 76】,尤其指出领域专用工具在根本上改变了研究流程,而不仅仅是提升效率【213, 318】。 * 区别于单一功能的研究工具:如文献管理器、搜索引擎或统计分析软件这类专用工具只解决了研究流程中的某一部分功能,缺乏深度研究系统所具备的集成推理与跨功能编排能力。像 scispace【242】与 You.com【313】代表了早期的研究辅助尝试,但仍不具备真正的端到端研究能力。 * 区别于纯粹的LLM应用:那些仅通过研究提示语调用LLM的应用程序,缺乏对环境的交互能力、工具集成以及工作流自动化能力,也不能归入深度研究系统的范畴。

本综述聚焦于至少具备上述三项核心维度中的两项,并以大型语言模型为基础推理引擎的系统。涵盖的系统包括商业产品(如 OpenAI/DeepResearch【197】、Google Gemini/DeepResearch【89】、Perplexity/DeepResearch【209】),以及开源实现(如 dzhng/deepresearch【321】、HKUDS/Auto-Deep-Research【112】等)。我们排除纯粹的书目信息工具或缺乏认知整合能力的单阶段自动化系统,例如 Elicit【74】、ResearchRabbit【228】、Consensus【63】、Scite【243】等。其他如 STORM【278】等专注于科学文本检索与组织的工具虽然具有价值,但不具备本综述所定义的深度研究能力。

1.2 历史背景与技术演进

深度研究的发展轨迹可分为三个阶段,反映了技术进步与实现路径的演变:

1.2.1 起源与早期探索(2023年–2025年2月)

值得注意的是,像 n8n【183】、QwenLM/Qwen-Agent【224】等工作流自动化框架在深度研究爆发之前就已存在,说明相关技术的基础早已形成。深度研究的概念来源于AI助手向智能体的演进。2024年12月,Google Gemini 首次推出具备基本多步推理与知识整合能力的 Deep Research 功能【60】,为后续更复杂的AI驱动研究工具奠定了基础。诸如 AutoGPT【250】、BabyAGI【311】等智能体框架,以及 cline2024【61】和 open_operator【36】对集成研究流程和浏览器自动化的贡献,也是早期生态的重要组成部分。

1.2.2 技术突破与竞争格局(2025年2月–3月)

2025年2月,DeepSeek 的开源模型【68】因其高效的推理能力与低成本特性引发了市场革命。OpenAI 的 Deep Research(基于 o3 模型)也在此时推出,具备自主研究规划、跨领域分析和高质量报告生成能力,在复杂任务中的准确率超过了以往基准【197】。与此同时,Perplexity 推出了免费使用的 Deep Research【209】,主打响应速度与普及性。开源社区也涌现出多个替代方案,如 nickscamara/open-deepresearch【42】、mshumer/OpenDeepResearcher【249】、btahir_open_deep_research【37】、GPT-researcher【16】等。轻量级项目如 Automated-AI-Web-Researcher-Ollama【267】适用于本地资源有限的环境,而 Langchain-AI/Open_deep_research【131】等模块化框架则支持可组合的自定义研究流程。

1.2.3 生态扩展与多模态集成(2025年3月至今)

第三阶段体现了多样化生态系统的成熟发展。Jina-AI/node-DeepResearch【121】等开源项目支持本地部署与高度定制,而 OpenAI 与 Google 的闭源版本则持续推进多模态支持与多智能体协作。先进的搜索技术与报告生成框架的集成,使这些工具在学术研究、金融分析等多个领域具备实际应用价值。与此同时,Manus【164】、AutoGLM-Research【330】、MGX【171】、Devin【62】等平台也开始集成AI研究能力。Anthropic 于2025年4月推出 Claude/Research【13】,引入具备系统化探索与可验证引文能力的智能体搜索。OpenManus【193】、Camel-AI/OWL【43】、TARS【39】等智能体框架则在专业化能力与领域优化方面进一步拓展生态版图。

1.3 意义与实际影响

深度研究在多个领域展现出变革性潜力: 1. 学术创新:通过自动文献综合(如 HotpotQA【307】基准)加速假设验证,帮助研究者发现可能被忽视的跨学科关联。Sourati 与 Evans【256】指出,以人为中心的人工智能可增强研究者能力,并适应其理论与方法框架,代表了从传统自动化向协同智能的根本转变。Khalili 与 Bouchachia【128】进一步展示了如何通过系统化方法构建科学发现机器,从而重塑假设生成、实验设计与理论精炼流程。 1. 企业转型:系统如 Agent-RL/ReSearch【2】与 smolagents/open_deep_research【115】可深入分析市场趋势、竞争格局与战略机会,提升数据驱动决策的规模与效率。 1. 知识民主化:开源项目如 grapeot/deep_research_agent【263】与 OpenManus【193】降低了技术门槛,使个人与资源有限的组织也能获取先进研究能力。

1.4 本综述的研究问题与贡献

本文旨在解答以下三个核心问题: 1. 系统架构、实现方法与功能能力的设计如何影响深度研究系统的有效性? 1. 深度研究实现中,LLM 微调、检索机制与工作流编排方面有哪些技术创新? 1. 不同系统如何平衡性能、可用性与伦理考量?从如 n8n【183】与 OpenAI/AgentsSDK【199】等系统中能观察到哪些共性模式?

我们的贡献体现在三个维度: 1. 方法论:提出一套新颖的分类体系,从基础模型到知识综合能力对系统进行技术架构划分; 1. 分析性:基于评估指标对代表性系统进行比较分析,揭示各类方法的优劣; 1. 实践性:识别关键挑战,提出未来发展路线图,特别关注新兴架构与集成机会。

本文其余部分将按以下结构展开:第二节介绍概念框架,第三至四节分析技术创新与对比研究,第五节讨论实现技术,第六节介绍评估方法,第七节列举应用场景,第八节探讨伦理问题,第九节提出未来发展方向。

成为VIP会员查看完整内容
31

确保私营机构、公共机构及国家机构安全的首要任务,是具备可靠应对恶意低空、慢速、小型(LSS)无人机系统(UAS)的能力。无论和平或战争时期,全球诸多案例——诸如机场空域屡遭入侵、针对民众的未遂袭击,以及当前乌克兰冲突事件——均印证此类无人机构成的关键威胁。本综述整合现役反无人机系统(C-UAS),涵盖传感器与(低附带损伤)效应器组件,并在可行时对比实战经验与技术预期成效。

本研究范畴内,典型C-UAS系统架构包含三个子系统:(i)传感器系统、(ii)效应器系统、(iii)C2指挥控制系统。由单组或多组传感器构成的传感系统,负责采集环境信息(含背景与目标数据);由单组或多组拦截单元构成的效应系统,承担瘫痪、摧毁或接管敌识无人机的任务;C2系统贯通上述两子系统:基于传感器情报决策最优效应方案以达成效能最大化。认知C-UAS系统所用传感器/效应器特性,以及不同外部参数对系统效能的影响,是构建最适系统的关键要素。即便突发意外状况,C2交互界面也应确保传感器/效应器协同最大化“杀伤链”成功率。本节旨在初步展示反无人机系统中各类传感器与效应器技术。

成为VIP会员查看完整内容
30

报告深入探讨了人工智能技术在多个行业中的应用现状与未来趋势,为政府、企业及相关研究机构提供了详尽的数据支持和战略建议。

首先,报告从宏观角度出发,分析了全球及中国的人工智能产业发展背景,指出随着计算能力的提升、大数据时代的到来以及算法模型的不断优化,AI正以前所未有的速度改变着各行各业。接着,通过对智能制造、智慧医疗、金融科技、智慧城市等领域的具体案例研究,展示了AI如何通过提高效率、降低成本来推动产业升级转型,并指出了当前面临的主要挑战,如数据安全问题、伦理道德考量等。

此外,还特别强调了跨学科融合对于促进AI创新的重要性,呼吁加强基础科学研究与应用实践之间的联系。最后,报告提出了构建开放合作生态系统的倡议,鼓励社会各界共同参与制定行业标准、培养专业人才,以实现更加健康可持续的发展模式。

整体而言,这份研究不仅全面反映了现阶段我国乃至全世界范围内“人工智能+”行业的最新进展,也为相关从业者把握机遇、应对风险提供了重要参考。

图片 图片 图片 图片 图片 图片 图片 图片

**

**

成为VIP会员查看完整内容
29

反无人机系统(C-UAS)的研发与部署近些年显著加速,旨在应对各类无人机(UAS)威胁。探测追踪系统、交战系统及杀伤链其他环节(含指挥控制“C2”)的整合持续进行。值得关注的是,当前多数研发成果专为海上舰船防御设计。由于可能造成“高附带损伤”且技术尚未全面配发舰队,这些技术进步无法在受限水域(无论国内外港口)应用。本项目旨在解决核心问题:如何依托现役武器系统,为停泊在码头的高价值舰船提供针对“武装无人机”的有效防护。本研究将采用参数驱动方法,基于现有技术验证:整合“增强型火控系统”与制式武器能否提升值更人员射击精度,从而实现码头区域安全防御。

人类“逐水而居”。民众聚集于海岸、河流、湖泊与海洋之滨,寻求自然资源馈赠——无论是农田灌溉水源、渔业捕捞场所,抑或休闲娱乐空间,“水体”始终具有强大吸引力。然而“恶意分子”同样趋近水域。虽已有法规条令守护宝贵水道安全,防范国内外敌对势力,但2000年10月12日也门亚丁港恐怖分子驾驶自杀艇撞击美军“科尔号驱逐舰”的事件,彻底颠覆安全格局。对自由的威胁侵蚀了民众“航海活动”的乐趣。自此,军民机构持续探索防御海上基础设施与资产的安全对策[3]。海上安全涵盖军事及民用港口、码头、船坞与锚地防护[6]。“海港”与“母港”构成国家经济军事稳定的基石,这些水道承载着塑造海洋传统的娱乐商业活动。此外,江海湖泊作为“海事基础设施”核心组成部分,其安保需具备前瞻思维,必须时刻防范国内外敌对势力[7]。

2001年“9·11”事件深刻重塑社会结构。国土安全部(DHS)应运而生并推行重大变革:初期聚焦“航空运输安全”,但改革持续深化。DHS同步强化另一关键领域——通过“港口防御体系”保障海上安全。防护重心转向舰船、船舶及港口防袭。无论军用舰艇或民用船舶,实质都是“国家领土的延伸”。悬挂国旗的特性更凸显海上安全的战略意义——这些旗帜本身即可能成为“恐怖袭击目标”。

反无人机系统(C-UAS)的研发与部署近些年显著加速,旨在应对各类无人机(UAS)威胁。当前正整合探测追踪系统、交战系统及杀伤链其他环节(含指挥控制“C2”)。突出问题在于,绝大多数系统专为“海上防御”设计。因可能造成高附带损伤,这些技术无法在国内外港口部署。本项目核心任务是填补停泊码头的高价值舰船面临“武装无人机”威胁时,因探测反制手段稀缺形成的防御缺口。当前亟需发展整合岸基/舰载C-UAS能力及有效“末端防御”策略的“体系架构”(SoS)。在该架构完备前,须部署过渡方案强化安保力量或海军值更人员的反无人机能力。

港口防护是海上安全体系的“关键应用场景”。军舰、军用舰艇、游轮及海事基础设施不仅象征海洋传统,更维系经济命脉。现今局部“防空能力”几近空白——基于“制空权绝对优势”的假设,“空袭威胁”曾被认定消除。但无人机技术的蓬勃兴起颠覆此认知。虽已开发激光武器、“电子战/攻击”(干扰欺骗)、动能拦截等反制手段,但均存在高概率的“周边环境附带损伤”。在公海部署尚可接受,但在国内外商港或军事基地内实施则将引发严重后果。本质上,当前的反制措施因港口环境限制而无法启用。

本研究的研究问题包括:

• 在假定存在「体系架构」(SoS)探测警报系统前提下,为现役制式武器加装「先进火控技术」,能否提升舰载反无人机(C-UAS)防御能力及值更人员的操作性能、射击精度与作战效能?

具体研究目标包含:

• 如何建立框架并确定关键指标,以确保成功防御停泊于海军基地、遭受「武装化小型无人机」(sUAV)自主攻击的「高价值舰船」(HVU)?
• 如何有效构建具备适用指标的模拟模型,验证整合「增强型火控系统」的现役武器能否提升现有值更人员作战效能?
• 如何高效解析数据,以论证该系统在未来应用策略中实施反无人机防御的可行性?

本项目旨在解决现役反无人机(CUAS)防御体系效能不足的问题,定位「纵深防御协议」现存缺口,并验证强化「末端防线」反制措施保护泊位高危高价值舰船的可行性。驱逐舰、巡洋舰等水面战舰在航行时可动用全武备系统对抗敌袭——这些海上舰艇配备尖端技术、优化人员配置且保持战备状态:雷达传感器全时运转,武器系统满载待发。而靠泊港口的舰船则截然相反:驻泊期间仅保留三分之一额定人员,所有雷达传感器关闭,武器系统卸载卸。舰船安危完全依赖「港内值更组」与「甲板值更人员」。本研究试图通过即时提升值更人员射击精度与作战效能,为舰船对抗无人机威胁争取「反击窗口」。若等待激光武器、「眩目器」等新技术研发列装基地,将耗时数年。值更人员亟需当下可用的解决方案。

成为VIP会员查看完整内容
26

2025年6月13日凌晨,以色列发动全面先制打击,以消除伊朗核计划与弹道导弹计划威胁。此次经周密筹划的打击在现代军事史上史无前例,行动手段包括:定点清除包括伊朗武装力量及伊斯兰革命卫队(IRGC)最高领导层在内的军政要员与核科学家;直接打击主要核设施;摧毁伊朗防空系统及雷达预警体系等。已确认消灭人员包括:伊斯兰革命卫队司令侯赛因·萨拉米、伊朗武装力量总参谋长穆罕默德·巴盖里、革命卫队空军全体高级指挥官(含空军司令)以及最高领袖高级顾问阿里·沙姆哈尼。以色列官员向媒体表示,纳坦兹核设施已遭重创。

本行动仍在持续推进,预计未来数小时、数日乃至数周将出现新进展。美国历届政府均认定伊朗核计划威胁其国家利益,跨越党派立场明确指出伊朗不得拥核。以色列视伊朗为犹太国家面临的首要生存威胁,誓言阻止伊朗获取核武器。伊朗政权持续对以色列、美国及西方实施恐怖主义的政策立场,叠加其达到历史峰值的核活动,使之成为当今地缘政治版图中最危险的爆发点。本报告将详述此次行动的核心爆发点,并将根据事态发展持续更新。

核心作战模式​​

以色列采取以下复合打击方式,形成针对伊朗的多维攻势:

  • ​​瘫痪全境防空体系​​:摧毁伊朗西部数十个雷达站及地对空导弹发射装置。
  • ​​​​斩首军政要员​​:定点清除高层政治军事官员以瓦解指挥链。以方安全人士证实,通过情报搜集与周密监控锁定伊朗国防体系及核项目关键人物,此次行动系削弱伊朗战略导弹基础设施的秘密战役组成部分。
  • ​​清除核科学家​​:定点消灭高级核专家,破坏其技术传承体系,阻断核研发力量的快速重建。
  • ​​​​空袭核设施​​:精确打击铀浓缩等核心核研发基地。
  • ​​摧毁导弹基地​​:直接打击弹道导弹制造与储存场站。
  • ​​摩萨德地面行动​​(据以媒披露):
    • ​​​​战略导弹精确打击​​:特工在伊朗中部防空导弹基地附近部署精确制导武器系统,与空军空袭协同启动,实现多目标同步摧毁。
    • ​​​​渗透式防空压制​​:特工将先进打击系统伪装成民用车辆深入敌境,突袭启动时成功瘫痪关键防空设施。
    • ​​无人机导弹清剿​​:战前在伊境纵深秘密建立武装无人机基地。行动中无人机集群突袭德黑兰附近伊斯法罕基地的地对地导弹发射架,消除其对以色列战略及民用设施的威胁。

​​五波次空袭实施进程​​:

​​- 首波突击​​——伊朗政权高层 ​​​​- 次波清剿​​——核科学家 ​​- ​​第三波次​​——纳坦兹核设施及德黑兰防空阵地 ​​- ​​西部攻势​​——西伊朗地对空/弹道导弹目标 ​​- ​​补充打击​​——西伊朗同类型导弹资产

以色列国防军发布了一张地图,上面显示了主要的攻击目标:

成为VIP会员查看完整内容
27

摘要——随着生成式人工智能(Generative AI)的快速发展,尤其是大语言模型的不断突破,推荐系统正朝着更具通用性的方向演进。与传统方法不同,生成式人工智能不仅能够从复杂数据中学习模式和表示,还具备内容生成、数据合成和个性化体验等能力。这种生成能力在推荐系统中发挥着关键作用,能够缓解数据稀疏问题,并提升系统的整体性能。当前,基于生成式 AI 的推荐系统研究已取得了丰富成果。与此同时,推荐系统的目标也已超越单一的准确性要求,催生了大量面向多目标优化的研究,试图在推荐中综合考虑多种目标。然而,据我们所知,目前尚缺乏基于生成式 AI 技术的多目标推荐系统的系统性综述研究,相关文献仍存在明显空白。为填补这一研究空缺,本文对融合生成式 AI 的多目标推荐系统研究进行了系统梳理,按照优化目标对现有工作进行分类整理。同时,我们总结了相关的评估指标和常用数据集,并进一步分析了该领域面临的挑战与未来发展方向。 关键词——多目标优化,推荐系统,生成式人工智能,大语言模型

1 引言 在大数据时代,推荐系统已成为应对信息过载问题的关键工具,帮助用户高效地发现有价值的内容。它们被广泛应用于音乐、新闻、职位推荐等多个领域 [1]–[3],通过过滤海量信息流,显著提升用户体验。推荐系统的发展已历经数十年,从最初的协同过滤方法 [4]–[7] 和内容推荐方法 [8], [9],到后来的混合模型 [10]、基于图神经网络的方法 [11],以及深度学习方法 [12], [13],不断演进以满足日益增长的个性化和可扩展性需求。

近年来,生成式人工智能(Generative AI)的突破显著改变了推荐系统的格局。正如文献 [14] 所指出的,基于生成技术的推荐系统已成为该领域的新兴研究方向。生成对抗网络(GANs)[15]、变分自编码器(VAEs)[16]、扩散模型 [17] 和大语言模型(LLMs)[18] 等技术,使得推荐系统能够更丰富地进行数据合成并实现更深层次的上下文理解。其中,大语言模型在处理多模态数据(文本、图像、视频)和生成上下文感知的推荐内容方面展现出强大能力,带来了前所未有的灵活性。与传统模型依赖历史数据预测用户偏好不同,生成模型可以模拟用户交互、增强稀疏数据集,并生成个性化内容,从而为推荐范式的创新开辟了新路径。

生成模型在推荐系统领域展现出巨大潜力。目前的研究主要集中在单一目标任务,例如通过合成数据提升准确性,或利用大语言模型增强可解释性。然而,对准确性的过度关注可能导致“过滤泡沫”(filter bubble)现象 [19],使用户被限制在重复或同质化的内容中,抑制探索行为并削弱长期参与度。考虑到生成式人工智能在推理和理解方面的先进能力,其在多目标推荐中的应用也极具前景。 研究社区已广泛探索在传统推荐系统框架下平衡多种目标的多目标推荐系统(MORS)[20]–[23],但在融合生成式 AI 技术方面,相关研究仍属稀缺。因此,将多目标优化整合进生成式推荐系统,是一个亟待深入研究的方向。

为填补这一空白,本文系统调研了使用生成技术实现多目标推荐的现有研究。我们特别强调,任何关于推荐系统附加目标(如多样性、偶然性或公平性)的讨论,都隐含地将准确性作为基础性前提。因此,我们将多目标推荐系统(MORS)定义为:优化准确性之外其他目标的推荐系统。 本综述识别出当前生成式推荐系统中除准确性外的主要目标包括:多样性、偶然性、公平性与安全性;此外还涉及新颖性、可控性、效率与鲁棒性等附加目标。我们聚焦于推荐系统中广泛应用的四类生成技术:GANs、扩散模型、VAEs 与大语言模型。针对每一类目标,我们深入回顾了主流的模型架构与评估指标,并总结相关发展挑战,旨在为未来的多目标生成式推荐研究提供基础性见解。

本文的主要贡献如下:

本文为首个将生成式人工智能(包括 GANs、VAEs、扩散模型和大语言模型)与多目标推荐系统(MORS)结合的全面综述,提出了一个面向目标的分类框架,系统回顾了四类关键目标(多样性、偶然性、公平性、安全性)下模型架构、优化策略和评估指标的发展与局限性。 * 我们系统总结了不同目标领域(如公平性与偶然性)下的专用评估指标对应基准数据集,为实验设计提供标准化参考。 * 我们还讨论了生成式 MORS 研究中的核心挑战,并展望了未来的发展方向,包括改进评估指标、设计适用于 LLM 的高级策略、融合多种生成技术以提升推荐质量等。此外,我们强调跨学科合作(如伦理学、社会学)的重要性,以构建更加公平透明的推荐系统。这些见解为学术界与工业界的进一步探索与创新奠定了基础。

文章结构概览:

第 2 节综述推荐系统、生成式推荐系统和多目标推荐系统的相关文献,构建研究背景。 第 3 节介绍本文涵盖的四类主要生成技术。 第 4 节作为核心部分,系统梳理基于生成技术的多目标推荐系统,按超越准确性的目标进行分类,介绍相关定义、模型与评估指标。 第 5 节总结各类目标下常用的推荐数据集。 第 6 节探讨每类关键目标面临的主要挑战。 最后在第 7 节对全文进行总结。

成为VIP会员查看完整内容
26

摘要——强化学习(Reinforcement Learning, RL)是解决序列决策问题的重要机器学习范式。近年来,得益于深度神经网络的快速发展,该领域取得了显著进展。然而,当前RL的成功依赖于大量训练数据和计算资源,且其跨任务泛化能力有限,制约了其在动态现实环境中的应用。随着持续学习(Continual Learning, CL)的兴起,持续强化学习(Continual Reinforcement Learning, CRL)通过使智能体持续学习、适应新任务并保留既有知识,成为解决上述局限性的重要研究方向。本文对CRL进行了系统梳理,围绕其核心概念、挑战和方法展开论述:首先,详细回顾现有研究,对其评估指标、任务设定、基准测试和场景配置进行归纳分析;其次,从知识存储/迁移视角提出新的CRL方法分类体系,将现有方法划分为四种类型;最后,剖析CRL的特有挑战,并为未来研究方向提供实践性见解。 关键词——持续强化学习,深度强化学习,持续学习,迁移学习

一、引言

强化学习(Reinforcement Learning, RL)已成为机器学习中的一种强大范式,使智能体能够通过与环境的交互学习最优的决策策略 [1]。当强化学习与深度神经网络的表示学习能力相结合时,便产生了深度强化学习(Deep Reinforcement Learning, DRL),其在多个领域取得了显著的成功 [2]。DRL 展现了在解决高维复杂决策问题方面的巨大潜力,从精通国际象棋、日本将棋和围棋等棋类游戏 [3],到推动科学发现,如蛋白质结构预测 [4]、量子计算误差校正 [5],以及大型语言模型的训练 [6],[7]。此外,DRL 也被广泛应用于现实世界中的控制任务,如热电联产系统优化 [8]、托卡马克核聚变反应堆中等离子体配置控制 [9],以及实现安全的自动驾驶 [10]。 尽管 DRL 已取得诸多成就,但其当前的成功主要归因于在特定任务上学习固定策略的能力,通常需要大量的训练数据和计算资源 [11]。这为 DRL 在现实应用中的部署带来了重大挑战。具体来说,现有的 DRL 算法普遍缺乏跨任务高效迁移知识或适应新环境的能力。面对新任务时,这些算法通常需要从头开始学习,导致样本效率低下以及泛化能力差 [12]–[14]。 为应对上述挑战,研究人员开始探索如何使 RL 智能体避免灾难性遗忘并有效迁移知识,其最终目标是推动该领域向更具类人智能的方向发展。人类在解决新任务时,能够灵活地利用已有知识,同时不会显著遗忘已掌握的技能 [15]。受到这一能力的启发,持续学习(Continual Learning, CL),又称终身学习或增量学习,旨在构建能够适应新任务并保留过往知识的学习系统 [16]–[19]。CL 面临的核心挑战在于稳定性与可塑性的平衡——即在维持已学知识稳定性的同时,又具备足够的灵活性来适应新任务。其总体目标是构建能在整个生命周期内持续学习和适应的智能系统,而不是每次面对新任务时都从零开始。当前 CL 的研究主要聚焦于两个方面:灾难性遗忘的缓解以及知识迁移的实现。灾难性遗忘指的是学习新任务会导致模型覆盖并遗失先前已学任务的知识;而知识迁移则是指利用过往任务中积累的知识来提升新任务(甚至是已见任务)的学习效率与表现。成功解决这两个问题对于构建稳健的持续学习系统至关重要。 持续强化学习(Continual Reinforcement Learning, CRL),又称终身强化学习(Lifelong Reinforcement Learning, LRL),是 RL 与 CL 的交叉领域,旨在突破当前 RL 算法的多种局限,构建能够持续学习并适应一系列复杂任务的智能体 [20],[21]。图 1 展示了 CRL 的基本设置。与传统 DRL 主要聚焦于单一任务性能最优化不同,CRL 更强调在任务序列中保持并增强泛化能力。这种焦点的转变对于将 RL 智能体部署于动态、非平稳环境中尤为关键。 需要指出的是,“lifelong” 与 “continual” 两个术语在 RL 文献中常被交替使用,但不同研究中的定义与使用方式可能存在显著差异,从而引发混淆 [22]。一般而言,大多数 LRL 研究更强调对新任务的快速适应,而 CRL 研究更关注避免灾难性遗忘。本文采用更广义的 CRL 作为统一术语,呼应当前 CL 研究中同时兼顾这两个方面的趋势。 CRL 智能体需实现两个核心目标:(1)最小化对先前任务知识的遗忘;(2)利用已有经验高效学习新任务。达成这两个目标将有助于克服 DRL 当前的局限,推动 RL 技术向更广泛、更复杂的应用场景拓展。最终,CRL 旨在实现类人的终身学习能力,使其成为推动 RL 研究的重要方向。 目前,关于 CRL 的综述工作仍相对较少。部分综述文献 [18],[23] 对 CL 领域进行了全面回顾,包括监督学习与强化学习。值得注意的是,Khetarpal 等人 [21] 从非平稳 RL 的视角对 CRL 进行了综述,首先对通用 CRL 问题进行了定义,并通过数学刻画提出了不同 CRL 形式的分类体系,强调了非平稳性所涉及的两个关键属性。然而,该综述在 CRL 中的一些重要方面——如挑战、基准测试与场景设置等——缺乏详细的对比与讨论,而这些因素对于指导实际研究至关重要。此外,过去五年中 CRL 方法数量快速增长。鉴于此,本文旨在系统回顾近年来关于 CRL 的研究工作,重点提出一种新的 CRL 方法分类体系,并深入探讨知识在 CRL 中的存储与迁移机制。 本综述深入探讨了 CRL 这一不断发展的研究领域,旨在弥合传统 RL 与现实动态环境需求之间的差距。我们全面审视了 CRL 的基本概念、面临的挑战与关键方法,系统性地回顾了当前 CRL 的研究现状,并提出了一套将现有方法划分为不同类别的新分类体系。该结构化方法不仅清晰地描绘了 CRL 研究的整体图景,也突出了当前的研究趋势与未来的潜在方向。我们还从策略、经验、动态与奖励等多个角度审视方法间的联系,为优化 CRL 的学习效率与泛化能力提供了细致的理解。此外,我们也关注推动 CRL 边界的新兴研究领域,并探讨这些创新如何助力构建更复杂的人工智能系统。 本综述的主要贡献体现在以下几个方面: 1. 挑战分析:我们强调了 CRL 所面临的独特挑战,提出其需要在可塑性稳定性可扩展性三者之间实现平衡; 1. 场景设定:我们将 CRL 场景划分为终身适应非平稳学习任务增量学习任务无关学习,为不同方法提供了统一的对比框架; 1. 方法分类:我们提出了一种基于知识存储与迁移方式的新 CRL 方法分类体系,涵盖策略导向经验导向动态导向奖励导向方法,帮助读者结构性地理解 CRL 策略; 1. 方法综述:我们对现有 CRL 方法进行了最全面的文献回顾,包括开创性工作、最新发表的研究成果以及有前景的预印本; 1. 开放问题:我们讨论了 CRL 当前的开放问题与未来研究方向,如任务无关的 CRL评估与基准建设可解释知识建模以及大模型的集成使用

表 I 展示了本文的结构安排。接下来的内容如下:第二节介绍 RL 与 CL 的基础背景,有助于理解 CRL 的核心理念;第三节概述 CRL 的研究范畴,包括定义、挑战、评价指标、任务设置、基准与场景分类;第四节详细介绍我们提出的 CRL 方法分类体系,并回顾现有方法,按知识类型划分为策略导向(第四节 B)、经验导向(第四节 C)、动态导向(第四节 D)与奖励导向(第四节 E)四类;第五节探讨 CRL 的开放问题与未来发展方向;第六节为本文的总结与展望。

成为VIP会员查看完整内容
27

在强化学习(RL)中,智能体不断与环境交互,并利用反馈来改进其行为。为了引导策略优化,引入奖励模型作为期望目标的代理,使得当智能体最大化累积奖励时,也能切实满足任务设计者的意图。近年来,学术界和工业界的研究者都聚焦于构建既能与真实目标高度对齐,又能促进策略优化的奖励模型。 本文综述对深度强化学习领域中的奖励建模技术进行了系统回顾。我们首先介绍奖励建模的背景与基础知识;随后,以“来源”“机制”和“学习范式”为维度,对最新的奖励建模方法进行分类梳理;在此基础上,探讨这些技术的多种应用场景,并回顾评估奖励模型的常用方法。最后,我们总结了值得关注的未来研究方向。 总体而言,本综述涵盖了既有方法与新兴方法,填补了当前文献中缺乏系统性奖励模型综述的空白。

1 引言

近年来,**深度强化学习(Deep Reinforcement Learning, DRL)**这一结合了强化学习(RL)与深度学习(DL)的机器学习范式,在多个领域的应用中展现出巨大潜力。例如,AlphaGo [Silver et al., 2016] 展示了强化学习在博弈类场景中进行复杂决策的能力;InstructGPT [Ouyang et al., 2022] 强调了强化学习在对齐语言模型与人类意图中的不可替代作用;通过大规模强化学习训练的智能体,如 OpenAI-o1 和 DeepSeek-R1 [Guo et al., 2025],展现出了与人类相当甚至超越人类的推理智能。与监督学习(SL)中要求智能体模仿和复现数据集中的行为不同,强化学习的核心优势在于使智能体能够基于自身行为的结果进行探索、适应与优化,从而实现前所未有的自主性和能力。 奖励机制是强化学习的核心组成部分,实质上定义了任务中的目标,并引导智能体优化其行为以达成该目标 [Sutton et al., 1998]。正如多巴胺在生物系统中激励和强化适应性行为一样,强化学习中的奖励鼓励智能体探索环境,引导其朝向期望的行为发展 [Glimcher, 2011]。然而,尽管在研究环境中奖励函数通常是预先定义好的 [Towers et al., 2024],但在许多真实世界的应用中,奖励往往不存在或难以明确指定。因此,当代强化学习研究的一个重要方向,是如何从多种类型的反馈中提取有效的奖励信号,以便后续使用标准的强化学习算法对智能体策略进行优化。 尽管奖励建模在强化学习中扮演着至关重要的角色,现有的综述文献 [Arora and Doshi, 2021; Kaufmann et al., 2023] 通常聚焦于特定子领域,如逆强化学习(IRL)与基于人类反馈的强化学习(RLHF),而较少将奖励建模作为一个独立课题进行系统梳理。为填补这一空白,本文对奖励模型进行了系统性回顾,涵盖其理论基础、关键方法和在多种强化学习场景中的应用。我们提出了一个新的分类框架,用以回答以下三个基本问题: 1. 来源(The source):奖励来自哪里? 1. 机制(The mechanism):是什么驱动智能体的学习? 1. 学习范式(The learning paradigm):如何从不同类型的反馈中学习奖励模型?

此外,我们特别关注了基于基础模型(如大语言模型 LLMs 与视觉-语言模型 VLMs)的奖励建模的最新进展,该方向在已有综述中关注较少。本文所构建的奖励建模框架如图 1 所示。 具体而言,本文的结构安排如下: 1. 奖励建模背景(第2节):介绍强化学习与奖励模型的基础知识; 1. 奖励模型的分类(第3至第5节):提出奖励建模的分类框架,分别从来源(第3节)、学习驱动机制(第4节)以及学习范式(第5节)三个维度进行划分。同时,我们在表1中列出了近期相关文献,并依照该框架进行归类; 1. 应用与评估方法(第6与第7节):探讨奖励模型在实际场景中的应用,以及常用的评估方法; 1. 未来方向与讨论(第8节):总结全文,并展望该领域的潜在研究方向。

成为VIP会员查看完整内容
24
登陆后查看更多精品内容
VIP会员
本周荟萃主题
区块链
区块链(Blockchain)是由节点参与的分布式数据库系统,它的特点是不可更改,不可伪造,也可以将其理解为账簿系统(ledger)。它是比特币的一个重要概念,完整比特币区块链的副本,记录了其代币(token)的每一笔交易。通过这些信息,我们可以找到每一个地址,在历史上任何一点所拥有的价值。
深度学习
机器学习的一个分支,它基于试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的一系列算法。
机器学习
“机器学习是近20多年兴起的一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。机器学习理论主要是设计和分析一些让 可以自动“ 学习”的算法。机器学习算法是一类从数据中自动分析获得规律,并利用规律对未知数据进行预测的算法。因为学习算法中涉及了大量的统计学理论,机器学习与统计推断学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。很多 推论问题属于 无程序可循难度,所以部分的机器学习研究是开发容易处理的近似算法。”

——中文维基百科
强化学习
强化学习(RL)是机器学习的一个领域,与软件代理应如何在环境中采取行动以最大化累积奖励的概念有关。除了监督学习和非监督学习外,强化学习是三种基本的机器学习范式之一。 强化学习与监督学习的不同之处在于,不需要呈现带标签的输入/输出对,也不需要显式纠正次优动作。相反,重点是在探索(未知领域)和利用(当前知识)之间找到平衡。 该环境通常以马尔可夫决策过程(MDP)的形式陈述,因为针对这种情况的许多强化学习算法都使用动态编程技术。经典动态规划方法和强化学习算法之间的主要区别在于,后者不假设MDP的确切数学模型,并且针对无法采用精确方法的大型MDP。
推荐系统
推荐系统,是指根据用户的习惯、偏好或兴趣,从不断到来的大规模信息中识别满足用户兴趣的信息的过程。推荐推荐任务中的信息往往称为物品(Item)。根据具体应用背景的不同,这些物品可以是新闻、电影、音乐、广告、商品等各种对象。推荐系统利用电子商务网站向客户提供商品信息和建议,帮助用户决定应该购买什么产品,模拟销售人员帮助客户完成购买过程。个性化推荐是根据用户的兴趣特点和购买行为,向用户推荐用户感兴趣的信息和商品。随着电子商务规模的不断扩大,商品个数和种类快速增长,顾客需要花费大量的时间才能找到自己想买的商品。这种浏览大量无关的信息和产品过程无疑会使淹没在信息过载问题中的消费者不断流失。为了解决这些问题,个性化推荐系统应运而生。个性化推荐系统是建立在海量数据挖掘基础上的一种高级商务智能平台,以帮助电子商务网站为其顾客购物提供完全个性化的决策支持和信息服务。
卷积神经网络
在深度学习中,卷积神经网络(CNN或ConvNet)是一类深度神经网络,最常用于分析视觉图像。基于它们的共享权重架构和平移不变性特征,它们也被称为位移不变或空间不变的人工神经网络(SIANN)。它们在图像和视频识别,推荐系统,图像分类,医学图像分析,自然语言处理,和财务时间序列中都有应用。
计算机网络
计算机网络( Computer Networks )指将地理位置不同的多台计算机及其外部设备,通过通信线路连接起来,在网络操作系统及网络通信协议的管理和协调下,实现资源共享和信息传递的计算机系统。
命名实体识别
命名实体识别(NER)(也称为实体标识,实体组块和实体提取)是信息抽取的子任务,旨在将非结构化文本中提到的命名实体定位和分类为预定义类别,例如人员姓名、地名、机构名、专有名词等。
机器翻译
机器翻译,又称为自动翻译,是利用计算机将一种自然语言(源语言)转换为另一种自然语言(目标语言)的过程。它是计算语言学的一个分支,是人工智能的终极目标之一,具有重要的科学研究价值。
计算机视觉
计算机视觉是一门研究如何使机器“看”的科学,更进一步的说,就是是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉,并进一步做图形处理,使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科,计算机视觉研究相关的理论和技术,试图建立能够从图像或者多维数据中获取‘信息’的人工智能系统。
微信扫码咨询专知VIP会员