本美陆军训练条令为班组、小队及分队提供标准化直接火力杀伤链,通过通用标准化接战流程建立协同原则。本训练条令适用于装甲旅/斯特瑞克旅/步兵旅战斗队所有直射武器、武器系统及分队,供陆军全体人员、指挥官及参谋机构从单兵至旅级使用。

直接火力杀伤链旨在规范描述直射武器操作者、班组、乘组及排级单位的任务行动,使士兵与指挥官在最大化杀伤效能同时降低误伤与附带损伤。导图1展示直接火力杀伤链全流程。

直接火力杀伤链(下称"杀伤链")是持续进行的系统性互联任务、行动与功能,旨在对确认威胁快速有效施加适当战斗力以实现预期战术效果。

目的
本训练条令阐述直射武器杀伤链在士兵、指挥官、乘组、班排层级的应用,概述杀伤链各互联任务节点及其必须达成的具体结果(无论实现路径)。该流程代表直射武器接战标准程序,依赖操作者对部队敌我识别装备、单兵技能、交战规则、条令(含战术技术程序)、目标识别系统及战场态势认知系统的掌握。本手册仅在直接影响杀伤链时详述这些系统,协助指挥官决策实施致命直射火力打击,必要时标注相关补充出版物。

概览
杀伤链提供迭代化、标准化、系统化的目标接战方法。以下概述其基本功能环节:

1.武器状态
规范指挥官向下级通报战术任务中武器状态与交战规则的节点。武器状态是武器安全状态与基于敌情可能性的武器控制状态组合,交战规则由部队指挥官提供。二者协同使机动单元建立快速释放精确战斗力的战备等级,贯彻指挥官意图、防止误伤并减少附带损伤。

  • 来源:作战命令/预警命令/片段命令/交战规则/战术标准流程/威胁模板/态势模板等情报信息
  • 成果:小单位明确武器状态与交战规则,建立多弹种系统(如艾布拉姆斯/布莱德利)的"战斗携行状态"

图1-1 杀伤链

2.观察
论述士兵或集体单元持续扫描责任区重叠扇面,在接触前目视发现潜在战术威胁的过程。观察员选择特定区域精细侦察,识别环境异常、潜在威胁阵地、接近路径及敌可利用地形。

  • 来源:基于能力/标准流程/职能划分的建制观察扇区
  • 成果:锁定需精细侦察的关注区域

3.侦测
启动目标获取流程(侦测-识别-定位),描述观察员在责任区发现潜在威胁证据(目标特征)的过程。士兵先敌目视接触能力使部队能率先释放战斗力(反制接触)。

  • 来源:观察员发现的目标特征或异常
  • 成果:责任区内发现潜在威胁证据

4.识别
界定识别职责——判定未知接触性质(敌/我/中立/非战斗员/不明)的过程(JP 3-01)。识别工作包含对可辨识接触的质询判别,需结合情报、已知态势、敌我部署等信息判定非战斗员状态,是目标获取关键环节(JP 3-60)。

  • 来源:遵循"识别四步法"(辨识-评估-识别-判别)分析接触目标的车体/武器/悬挂/炮塔/装备/反应装甲
  • 成果:
    • 辨识目标军事属性
    • 评估威胁等级
    • 识别型号(或通称)及变体
    • 判别敌意属性(敌/我/中立/非战斗员/不明)

5.定位
涵盖确定已识别目标位置的方法,以引导武器系统或战斗力释放。观察员通过接触报告(或射手提交的目标捕获报告)向指挥官传递战术信息,定位触发单元光学/传感器/武器就绪状态调整,是目标获取核心环节(JP 3-60)。

  • 来源:共享至集体的判别目标信息;数字/模拟定位系统
  • 成果:指挥官获知目标位置,对应武器系统完成指向

6.决策
规范指挥官决策流程:在授权开火命令时判定战斗力运用方式、威胁等级分类、打击优先级及火力模式。所有决策基于杀伤链原则实施。

  • 来源:提交指挥官的接触/捕获报告
  • 成果:
    • 指挥官选定战斗力、分类威胁、排定打击序列、确定火力模式
    • 指挥官与射手完成目标确认

7.接战
概述直射火力交战实施规范,描述班/乘组/集体火力指挥要素结构(详见子条令TC 3-20.31-043)。火力指挥周期持续至达成预期效果,即有效破坏确认目标的杀伤链并消除其对友军威胁。

  • 来源:指挥官打击决策
  • 成果:对所有已知威胁达成预期毁伤效果

8.报告
交战完成后指挥官需向上级更新战术态势、战斗力运用效果及后续行动计划。本章规范数字/模拟/调频等报告方式及需提供的战术情报信息。

  • 来源:指挥官对战斗力效果/单元状态/后续行动的评估
  • 成果:向上下级传递战术情报,保障作战区域态势可视化

成为VIP会员查看完整内容
50

图学习已迅速发展成为机器学习与人工智能(AI)领域中的一个关键子方向,使得对社交网络、生物学、金融、交通运输和知识表示等领域中复杂关系数据的建模成为可能。图学习的发展始于早期的图论方法,并在图神经网络(GNNs)出现后获得了显著推动。在过去十年中,随着可扩展架构、动态图建模、多模态学习、生成式人工智能、可解释人工智能(XAI)以及负责任人工智能的发展,图学习的适用范围已经扩展到多个复杂的应用场景。

图学习之所以重要,是因为它能够建模复杂的非欧几里得关系,而这类关系通常难以被传统机器学习方法有效捕捉,从而更好地支持诸如药物发现、欺诈检测、推荐系统和科学推理等现实世界应用。然而,为了充分释放图学习的潜力,仍需解决一系列挑战,如可扩展性、泛化能力、异质性、可解释性以及可信性等问题。 本综述对图学习进行了全面介绍,重点关注以下几个关键维度:可扩展图学习、时序图学习、多模态图学习、生成式图学习、可解释图学习和负责任图学习。我们系统回顾了当前处理大规模图结构的高效技术、捕捉时序动态依赖关系的方法、异构数据模态的融合方式、新颖图样本的生成机制,以及提升可解释性以增强信任与透明度的研究进展。同时,我们还探讨了图学习模型在部署过程中所面临的伦理问题,如隐私保护与公平性,以促进其负责任地应用。

此外,我们还识别并讨论了一些新兴主题,特别是图学习与其他AI范式的融合趋势,并对未来发展方向提供了前瞻性见解。本综述旨在为希望深入了解图学习快速演进格局的研究者与实践者提供一份有价值的参考资料。

成为VIP会员查看完整内容
43

该条令为乘组、班组、小队及分队提供标准化直射接战流程,通过通用规范程序协调各单位行动以建立协同。该条令概念适用于装甲旅/斯特瑞克旅/步兵旅战斗队所有直射武器、武器系统及分队。

直射杀伤链旨在规范描述直射武器操作者、班组、乘组及排级单位的任务行动,使士兵与指挥官最大化杀伤效能同时降低误伤与附带损伤。火力指挥隶属杀伤链"接战"环节,描述班/乘组/集体单元火力指令的要素、术语及类型,构成对确认威胁实施直射的框架。本训练条令为车载武器平台、小分队及集体单位提供高度通用性。"领导者"或"车长"(VC)等术语指代有权下达执行指令的指挥岗位,必要时可增补具体职位说明。

当指挥员决策使用建制直射火力打击确认威胁后,班组/乘组/分队即进入杀伤链接战环节。该环节规范接战实施流程(称"火力指挥"),指挥员随即发布火力指令——标准化格式含九大要素(详见导图1),供班组/乘组消除或削弱威胁。

图:杀伤链

理解本训练条令需明确以下术语:
火力指挥:两名及以上士兵协同运用直射/间瞄火力消灭威胁时使用的指令、导语、短语、术语、修饰词、行动、反应、响应及毁伤评估,通称"火力指令"。
火力指令:班组/乘组实施直射的标准化九要素格式。
接战中目标:已遭直射打击但未达预期毁伤效果的威胁。
已压制目标:经直射打击达成预期毁伤效果的目标。
确认目标:经充分识别判定型号/变体/通称并判别为敌的目标。
判别:判定目标属性(友/敌/中立/非战斗员/不明)。
再接战目标:同一操作者/单位在持续接战中二次打击的已知目标。
接战:操作者/班组/乘组/分队对单个或多个目标实施直射以破坏威胁决策流程的行动,始于初始火力指令,含后续/补充指令,终于终止指令。
接战序列:多目标直射打击顺序,可在火力指挥中指定或遵循标准目标优先级经验法则。

成为VIP会员查看完整内容
34

大语言模型(LLM)的对齐问题已成为当代人工智能研究中日益重要的话题,特别是在LLM不断扩展并融入到现实应用中时。确保LLM生成的输出与人类的价值观、偏好和伦理考虑保持一致,对于其安全有效的部署至关重要。本教程旨在为LLM对齐方法提供全面的介绍,提供一个结构化且易于理解的入门路径,供研究人员和从业人员参考。教程将介绍关键概念和挑战,介绍基础方法,如基于人类反馈的强化学习(RLHF)和直接偏好优化(DPO),并在这些基础上回顾一系列的精细化方法和变种。此外,还将涵盖游戏理论在对齐中的最新进展以及为理解对齐方法提供更深层次的理论框架。除了理论见解,本教程还将强调LLM对齐的实际应用,展示这些技术如何在实际场景中应用,并引导参与者建立对对齐策略的直觉。通过本教程,参与者将掌握LLM对齐的基础知识,具备批判性地参与该领域的能力,理解当前的研究趋势,并探索未来的发展方向。

LLM对齐:简介

为什么对齐很重要

从人类反馈中学习

基于奖励模型的对齐

通向RLHF的道路

深入探讨RLHF

RLHF的挑战

无奖励模型的对齐

直接对齐算法

直接对齐算法的局限性

在线直接对齐算法

如何选择:RLHF还是DPO

基于一般偏好模型的对齐

回顾语言模型训练的阶段

解决方案概念

解决最小最大赢家问题

基于验证器的对齐

经验时代

测试时的扩展法则

可验证奖励

过程奖励

结论

讲者:

成为VIP会员查看完整内容
33

近日,中国通信标准化协会大数据技术标准推进委员会(CCSA TC601)联合中国信息通信研究院及多家行业头部机构,正式发布《人工智能知识工程指南(1.0)》(以下简称《指南》)。《指南》系统梳理了知识工程的技术框架、管理体系及行业应用路径,旨在为各行业提供从知识沉淀到智能赋能的系统性解决方案,助力“人工智能+”行动落地,推动新质生产力发展。

《指南》中强调:“知识是机构无形资产的核心组成部分,也是大模型垂直领域落地的关键要素。”通过知识工程,企业可解决知识获取难、加工难、服务难等痛点,实现知识从“分散管理”到“资产化、服务化”的跃迁。

图片 图片 图片 图片 图片 图片 图片 图片 图片 图片

成为VIP会员查看完整内容
33

扩散模型作为一类强大的深度生成模型,已在多种数据生成任务中实现了最先进的性能。从高层次来看,它们通过逐步去噪高斯噪声来学习数据分布,模仿非平衡热力学扩散过程。尽管在实践中取得了显著成功,其背后的理论基础仍然理解不足。这种缺乏理论理解限制了扩散模型在更广泛领域(尤其是那些需要可解释性、高效性和安全性的关键应用)中的采用。

针对生成式 AI 模型在可靠性与透明性方面日益增长的关注,本教程(基于主办方在 CPAL'25(斯坦福)举办的联合教程)及时地介绍了扩散模型所依赖的理论原理。我们将重点聚焦于三个核心方面:泛化能力、采样效率和科学应用。借助近期的研究进展,本教程将展示如何利用数据与模型中的低维结构来应对泛化、快速采样收敛和可控性等关键挑战。 具体而言,我们将探讨扩散模型如何自适应地学习潜在的数据分布、如何加速采样过程中的收敛速度,以及如何刻画所学习去噪器的内在属性。这些理论洞见将进一步与实际进展相结合,展示其在现实科学应用中的可用性与潜力。


内容结构图示与主题概述

本教程将具体涵盖以下三方面内容:


(i) 泛化能力(Generalization): 我们将首先介绍扩散模型的基本原理,随后深入探讨其泛化能力:在何种条件下、为何它们能够学习到低维的目标结构;样本复杂度如何随数据的内在维度而变化;以及模型如何从记忆化逐步过渡到泛化。我们还将引入一种基于概率流的度量指标来量化泛化表现,并强调训练过程中观察到的一些有趣现象。


(ii) 采样效率(Sampling Efficiency): 我们将构建一种精确的、非渐近的收敛理论,用于分析主流的基于扩散的采样器,并基于这些理论洞察,设计可理论保证更快收敛的高阶扩散采样器(包括基于 SDE 与 ODE 的求解器)。此外,我们还将研究扩散采样器适应未知低维数据结构的能力,并通过自适应并行计算进一步提升训练与采样效率。


(iii) 科学应用(Scientific Applications): 我们将推动扩散模型在科学成像领域的发展,提升其在高维、高分辨率逆问题求解中的灵活性、效率与稳健性。重点内容包括高效的潜空间方法与基于图块的策略、在挑战性 3D 任务中增强的数据一致性机制,以及在保持样本质量的同时满足特定约束的可控采样技术。

第一部分:扩散模型学习的泛化能力

| 时间 | 09:40 – 10:25 a.m. | 主讲人 | Qing Qu | 1. 可复现性与泛化能力 1. 记忆化与泛化的理论及相变 1. 基于概率流距离的泛化量化方法


第二部分:扩散模型的理论保证与高效采样

| 时间 | 10:25 – 11:10 a.m. | 主讲人 | Yuxin Chen | [PDF] | 1. 非渐近收敛理论 1. 低维结构的自适应能力 1. 基于高阶近似的加速方法


茶歇

| 时间 | 11:10 – 11:15 a.m. |


第三部分:从理论到科学应用

| 时间 | 11:15 – 12:00 p.m. | 主讲人 | Liyue Shen | [PDF] | 1. 高效求解逆问题的方法 1. 学习到的图像先验的泛化能力 1. 可控生成

成为VIP会员查看完整内容
35

本文介绍了我们在具身人工智能(Embodied AI)智能体方面的研究,这些智能体以视觉、虚拟或物理形式体现,从而能够更自然地与用户及其环境交互。这类智能体包括虚拟化身、可穿戴设备以及机器人,旨在具备感知、学习与行动的能力,使其在学习与交互方式上更接近人类,相比于非具身智能体更具自然性与适应性。 我们提出,世界模型(World Models)的构建是具身智能体实现推理与规划的核心,能够帮助智能体理解并预测其环境、把握用户意图与社会语境,从而提升其自主完成复杂任务的能力。世界建模涵盖了多模态感知的整合、基于推理的规划与控制、以及记忆机制,共同构建对物理世界的全面理解。除物理世界外,我们还提出应学习用户的心理世界模型(Mental World Model),以实现更优的人机协作。 虚拟具身智能体正在变革治疗与娱乐等领域,通过提供具情感理解能力的交互体验。可穿戴智能体(如集成于 AI 眼镜中)有望实现实时辅助与个性化体验,而机器人智能体则可应对劳动力短缺,在非结构化环境中执行任务。本文不仅探讨了具身智能体面临的技术挑战及我们的解决策略,还强调了在这些智能体逐步融入日常生活过程中对伦理问题的重视,尤其是关于隐私保护拟人化的议题。 未来的研究方向包括:具身智能体的学习能力、多智能体协作与人机互动的提升、社会智能的增强,以及在设计过程中确保伦理实践。通过应对上述挑战,具身智能体有望革新人机交互方式,使其更直观、更能响应人类需求。本文综述了我们在具身智能体研究方面的现状与未来方向,旨在推动其潜力的全面释放,为人类生活带来深远影响。

1 引言

具身人工智能(Embodied AI)智能体是一类具备视觉、虚拟或物理形式的人工智能系统,使其能够与用户及其物理或数字环境进行学习与交互。这些具身 AI 系统必须具备在环境中进行有意义感知与行动的能力,因此也就要求它们对所处物理世界有深入理解。相比之下,仅存在于网络中的无形智能体并不具备具身性,而那些依靠遥控或预编程指令运行的机器人或无人机,也缺乏真正智能体所需的自主性与适应性。 可穿戴设备的独特之处在于:它们集成了能够感知物理世界并执行动作的 AI 系统,这种“感知—行动”的协同机制使得从用户视角出发,可穿戴智能体也具备具身性,模糊了人机边界。正如哲学家梅洛-庞蒂(Maurice Merleau-Ponty, 1945)所言:“我不是在我的身体里,我就是我的身体”,这强调了身体并非仅是思想的容器,而是存在本身不可分割的一部分。这一观点与具身智能体的理念密切相关,即智能体的身体与其环境共同构成其认知过程的重要组成。基于此,我们提出一个具身智能体框架,核心在于世界建模(World Modeling),使智能体能够以更复杂、更类人的方式推理与交互。 具身性在当前 AI 与机器人研究中主要有两个作用:(1)物理交互:使 AI 系统能够通过直接动作(如机器人智能体)或感知环境(如可穿戴智能体)与物理世界互动;(2)增强人机交互:研究表明,具身智能体能够提升用户的信任感(Winata et al., 2017; Fung et al., 2018; Shridhar et al., 2024)。此外,具身智能体还有一个日益受到关注的潜力方向:(3)类人的学习与发展方式——通过模拟人类的丰富感官体验,从而实现更直觉、类人的学习过程(Dupoux, 2018; Radosavovic et al., 2023)。 构建一个能自主学习、能够与人类和现实世界互动,并在个人与职业生活中提供帮助的 AI 系统,始终是人工智能发展的目标。从最初基于规则的聊天机器人,到 AI 客服,再到虚拟助手,每一代 AI 助手都具备更强的能力。线上 AI 智能体的出现是这一演化的最新阶段。与此同时,AI 的具身化也展现出多样形态,从具身对话代理(Cassell, 2001),到可穿戴设备(Alsuradi et al., 2024)、机器人(Mon-Williams et al., 2025),再到类人机器人(Cao, 2024)。每种具身形式面向不同的任务与应用场景,具备各自独特的能力需求,同时也共享一些核心能力。 不同于以往的 AI 助手,现代 AI 智能体更具自主性,能自主规划多步骤任务,决定所需的外部资源,并判断需协作的其他智能体,能够根据用户显式的请求或上下文隐含的信息理解用户需求。具身智能体还需为用户执行或协助用户执行实际动作,这对其推理与规划能力提出了更高要求。这种“感知世界并据此规划行动”的能力,正是世界建模的核心(LeCun, 2022)。 此外,智能体应能够与用户进行对话,以便在需求不明确或情境发生变化时澄清意图或确认信息。未来,智能体还需能与多个用户及其他智能体进行协作交互。这要求人机互动具备表达性、社会敏感性与情境适应性——换言之,智能体需要理解用户的“心理世界模型(mental world model)”。为支撑物理与心理世界的建模、推理与规划,具身智能体还需具备短期与长期记忆能力。 AI 助手演化为 AI 智能体,很大程度上得益于大语言模型(LLM)与视觉语言模型(VLM)的进展。开发者通过对 LLM 和 VLM 进行提示调控(prompting),构建了具身化的虚拟智能体,如虚拟化身(Cherakara et al., 2023)、智能眼镜、虚拟现实设备(Pan et al., 2024)以及机器人平台(Brohan et al., 2023;Tong et al., 2024)。这些 LLM 不仅在自然语言理解与生成方面表现优异,经过 RLHF 微调后,还具备了更强的指令遵循能力,甚至展现出零样本完成多任务的能力,无需专门为某一任务设计训练。伴随全球数百万用户的广泛使用,从最初的新奇感迅速转向对“能够辅助完成任何任务”的现实期待。 智能眼镜(如 Meta Glasses)使用户可以通过设备摄像头获取视觉输入、通过麦克风提供语音输入,并接入 AI 智能体(如 Meta Multimodal AI),尽管目前尚未能充分获取环境中的听觉线索。LLMs 与 VLMs 被用于实现感知、推理与规划功能,推动了情境感知 AI(Contextual AI)的发展(Erdogan et al., 2025)。VLMs 可通过指令调优实现逐步规划(Kim et al., 2024),而机器人也可在 LLM 提示下执行任务(Ahn et al., 2022)。 然而,生成式模型也存在一个核心缺陷,即其模型规模效率低下。它们擅长生成下一个 token 或像素,适用于创意任务,但往往包含大量冗余细节而缺失对推理与规划而言至关重要的信息。而推理与规划能力正是 AI 智能体的根本。因此,为提高具身 AI 的准确性与效率,我们提出采用一种基于多模态感知进行推理与行动预测的世界建模方法。 本文首先综述不同类型智能体及其应用场景,接着介绍我们为具身智能体提出的世界建模框架,其中包括感知机制、物理与心理世界建模、记忆系统、以及行动与控制策略。我们讨论了基于生成式模型的世界建模方法,同时也探讨了更高效且更可信的预测式世界模型(predictive world models)替代方案。接下来,我们将分别介绍三类具身智能体:(1)虚拟具身智能体;(2)可穿戴智能体;(3)机器人智能体,并在每一部分中列举现有评测基准与未来研究方向。最后,我们描绘了具身学习的未来愿景,以及由多个智能体协同合作的“智能体家族(Family of Agents)”。文章最后还探讨了两个关键伦理问题:隐私与安全,以及拟人化(Anthropomorphism)

成为VIP会员查看完整内容
30

在每一章的开头,你会在右侧页边栏找到一个小的图表,旨在让你了解该场景发生时世界的情况。若要了解这些数字的含义的更详细解释,以及我们方法的更多更详细的信息,请访问ai-2027.com。   我们预测,未来十年的超级人工智能的影响将是巨大的,将超过工业革命的影响。OpenAI、谷歌DeepMind和Anthropic的首席执行官都预测,通用人工智能将在未来5年内到来。萨姆·奥特曼表示,OpenAI的目标是“真正意义上的超级智能”和“光辉的未来。”人们很容易将其视为只是炒作。这将是严重的错误——它不只是炒作。我们并不想自己炒作人工智能,但我们认为超级智能在本世纪末到来是极有可能的。   我们不会在所有事情上都正确——这大都是猜测。但在整个项目过程中,我们进行了大量的背景研究、专家访谈和趋势外推,以做出我们能做出的最明智的猜测。此外,我们的团队在预测方面有着优异的记录,尤其是在人工智能方面。首席作者DanielKokotajlo在4年前撰写了一个类似的情景,名为“2026年将是什么样子”,其时效性出奇地好,而EliLifland是一位顶尖的竞赛预测家。   如果我们正处于超级智能的边缘,社会远未做好准备。很少有人甚至试图阐述通过超级智能发展的任何可行路径。我们撰写《AI2027》就是为了填补这一空白,提供急需的具体细节。我们希望看到世界上有更多这样的工作,尤其是来自不同意我们观点的人们。我们希望通过这样做,引发关于我们走向何方以及如何驶向积极未来的广泛讨论。   我们通过反复问自己“接下来会发生什么”来撰写这个场景。我们从当前时代开始,撰写第一个时期(直到2025年中期),然后是下一个时期,直到达到结局。我们并没有试图达到任何特定的结局。然后我们放弃了它,重新开始,很多次,直到我们得到了一个我们认为可信的完成场景。在我们完成第一个结局——赛车结局之后,我们写了一个新的替代分支,因为我们还想描绘一种更充满希望的方式,在大致相同的前提条件下结束。

成为VIP会员查看完整内容
31

本系统综述探讨了大语言模型(LLMs)在组合优化(CO)中的应用。我们遵循系统综述与元分析的首选报告项目(PRISMA)指南报告我们的研究发现。我们通过Scopus和Google Scholar进行了文献检索,检查了超过2,000篇文献。我们根据四项纳入标准和四项排除标准对文献进行了评估,这些标准涉及语言、研究重点、出版年份和类型。最终,我们选择了103篇研究。我们将这些研究按语义类别和主题进行分类,以提供该领域的全面概述,包括LLMs执行的任务、LLMs的架构、专门为评估LLMs在CO中应用设计的数据集以及应用领域。最后,我们确定了利用LLMs在该领域的未来发展方向。

关键词:系统综述 · 大语言模型 · 组合优化

1 引言

组合优化问题(COPs)是一类优化问题,其特点是离散的变量域和有限的搜索空间。组合优化(CO)在许多需要复杂决策能力的领域中发挥着至关重要的作用,如工业调度[219]、员工排班[25, 102]、设施选址[27, 64]和时间表安排[199, 254]等。传统上,这类问题通过线性规划(LP)、整数线性规划(ILP)、混合整数线性规划(MILP)和约束规划(CP)等技术进行建模,并通过商业求解器,如IBM ILOG CPLEX [88]或Gurobi [70],以及启发式和元启发式(MH)算法[194]来求解。 尽管许多成功的CO应用已被开发出来,但优化任务的设计和工程仍主要由人工驱动。用户必须通过定义一组变量、约束和一个或多个目标函数,将问题转化为优化模型,然后编写代码并运行软件求解器或算法来寻找解决方案。这些活动并非简单,需要一定的专业知识。 受最近大语言模型(LLMs)在执行广泛复杂任务中的应用进展的启发,越来越多的兴趣集中在将LLMs集成到CO中,以减轻优化过程中的人工密集型环节[53, 84, 145, 236]。LLMs处理、解释和生成自然语言的能力使其特别适合解决CO中的活动,包括将自然语言描述转化为数学模型等形式化表达[74, 89]以及代码生成[111, 214]。 人工智能(AI)特别是自然语言处理(NLP)的快速发展,使得LLMs的能力和应用大幅提升,导致了大量学术研究和模型的开发。尽管这个领域的活动日益增多,但这大量的研究成果也形成了一个复杂的知识体系,难以轻松掌握。特别是针对LLMs在CO中的应用,现有的学术文献较为有限且零散,现有的研究工作在方法学、应用领域和研究发现上存在较大差异。因此,本系统综述旨在整合当前LLMs应用于CO的最先进成果。我们通过筛选、分析和系统地组织文献,以澄清该主题并确定当前和未来研究的战略方向。我们遵循系统综述和元分析首选报告项目(PRISMA)指南进行报告。通过这一研究,我们旨在了解LLMs在解决复杂优化任务中的能力,并探索该领域中不断发展的趋势和方向。通过系统地综合和分析现有研究,本综述旨在提供一个结构化的理解,帮助理解LLMs如何在CO中应用,并为未来研究提供启示。

本综述的结构如下:第2节讨论了驱动我们工作的目标和动机;第3节探讨了与相关工作的关系和区别;第4节提供了理解LLMs与CO之间相互关系所需的背景;第5节详细介绍了我们遵循的方法论;第6节对我们综述中纳入的研究进行了分类和讨论;第7节概述了未来的研究方向;第8节讨论了我们方法的局限性;最后,第9节给出了结论并提出了未来的研究工作。

成为VIP会员查看完整内容
27

摘要 —— 强化学习(Reinforcement Learning, RL)已成为对齐与增强大语言模型(Large Language Models, LLMs)的一种变革性方法,能够应对指令遵循、伦理对齐以及推理能力等方面的关键挑战。本文综述了强化学习与语言模型结合的全面基础,重点介绍了如近端策略优化(Proximal Policy Optimization, PPO)、Q学习(Q-Learning)和演员-评论家(Actor-Critic)等主流算法。此外,文章系统回顾了专为LLM定制的强化学习技术,包括基于人类反馈的强化学习(Reinforcement Learning from Human Feedback, RLHF)和基于AI反馈的强化学习(Reinforcement Learning from AI Feedback, RLAIF)等基础方法,以及偏好直接优化(Direct Preference Optimization, DPO)和群体相对策略优化(Group Relative Policy Optimization, GRPO)等先进策略。我们系统性地分析了这些技术在各领域的应用,从代码生成到工具增强推理不等。本文还基于奖励建模、反馈机制与优化策略提出了一套对比性分类体系。评估结果揭示了一些关键趋势:RLHF 仍然是主导性的对齐技术,而基于结果的强化学习(如 RL with Verified Rewards, RLVR)显著提升了逐步推理能力。然而,奖励欺骗、计算成本高昂以及反馈收集的可扩展性等持续性挑战,凸显了持续创新的必要性。我们进一步探讨了若干新兴方向,包括混合RL算法、验证器引导训练,以及多目标对齐框架。本综述可为研究人员提供一份关于RL驱动的大语言模型开发的路线图,致力于在提升能力的同时兼

性与可扩展性。

关键词 —— 强化学习、大语言模型、RLHF、对齐、推理、自然语言处理、人工智能 **

**

一、引言

大语言模型(Large Language Models, LLMs)已成为人工智能领域的变革性技术,在理解和生成自然语言方面展现出卓越能力。从 GPT-3 拥有的 1750 亿参数 [1],到近年来如 LLaMA 3.1 的 4050 亿参数 [2],以及 DeepSeek-V3 的 6710 亿参数 [3],这些模型在规模和能力上持续扩展。尽管它们在多种任务中表现出色,LLMs 仍然面临“对齐”(alignment)问题,即确保模型输出始终反映人类的价值观、偏好与意图,仍是一项重大挑战。LLMs 往往会产生“幻觉”(hallucination)[4],存在生成有害内容的风险 [5]–[7],并且在执行复杂指令方面常常表现不佳 [8]。

强化学习(Reinforcement Learning, RL)是一种智能体通过与环境交互中的试错过程进行学习的范式,近年来成为应对对齐挑战的强有力框架。与传统依赖标注样本的监督学习方法不同,强化学习能够引入不可微分的反馈信号,并优化多目标的复杂任务。在 LLM 中引入强化学习,标志着人工智能对齐研究的一项重大进展,使模型能够学习人类偏好、提升推理能力,并更好地遵循伦理规范。本文旨在全面审视应用于 LLM 的强化学习技术,聚焦于模型在“对齐人类价值”与“增强推理能力”两方面的提升。

将强化学习应用于 LLM 面临一系列区别于传统 RL 场景的独特挑战。在 LLM 中,状态空间通常由输入提示或对话历史构成,而动作空间则涵盖模型完整的词汇表,形成了一个极其庞大且离散的动作集合。这种高维动作空间对算法设计提出了更高要求,与机器人控制或游戏等传统 RL 应用场景有显著不同。此外,LLM 中的奖励信号通常来自于人类对文本质量、有用性、无害性和诚实性等复杂维度的主观判断,这些属性本质上难以量化。

基于人类反馈的强化学习(Reinforcement Learning from Human Feedback, RLHF)[9] 已成为对齐 LLM 与人类偏好的事实标准。该方法通常包含三个阶段:首先基于高质量示范数据进行有监督微调,其次利用人类偏好数据训练奖励模型,最后使用如近端策略优化(PPO)[10]等算法对策略进行优化。RLHF 在提升指令遵循能力、减少有害输出方面取得了显著成效,OpenAI 的 InstructGPT 即为代表性成果 [9]。

然而,人类标注的可扩展性问题推动了替代方案的发展。基于 AI 反馈的强化学习(Reinforcement Learning from AI Feedback, RLAIF)[11] 用其他 AI 系统的评估结果来替代或增强人类反馈,在维持相近性能的同时大幅降低了标注成本。宪法 AI(Constitutional AI)[12] 是 RLAIF 的一种特化形式,模型根据预定义的原则对自身输出进行批判与修正,尤其适用于无害性对齐。近期的研究进一步致力于简化 RLHF 流程,例如偏好直接优化(Direct Preference Optimization, DPO)[13],跳过显式奖励建模,直接通过偏好对进行策略优化,在计算效率和训练稳定性方面具有优势。实证研究显示,DPO 在情感控制与摘要等任务中的表现可与基于 PPO 的 RLHF 相媲美甚至超越,同时大大降低了系统复杂度。

除了人类偏好对齐之外,RL 技术也越来越多地用于提升 LLM 的推理能力。基于结果的强化学习(Outcome-Based Reinforcement Learning)[14] 关注最终答案的正确性,即使中间推理步骤未被监督也可进行优化。更先进的方法如带可验证奖励的强化学习(Reinforcement Learning with Verifiable Rewards, RLVR)[15],能为推理过程中的每一步提供反馈,显著提升模型在数学与逻辑推理任务上的表现。例如,RLVR 将 GPT-3.5 在数学推理基准 GSM8K 上的准确率从 56.8% 提升至 72.5%,且仅需少量训练样本。尽管已有显著进展,将 RL 应用于 LLM 仍存在诸多挑战,例如奖励函数被模型“钻空子”的奖励欺骗现象(reward hacking)[16], [17];以及 RL 训练所需的庞大计算成本,尤其是在参数量级为数十亿的模型上,给实际部署带来困难。此外,不论是来自人类还是 AI 系统,确保反馈的质量与代表性 [18], [19] 仍是一个复杂难解的问题。

本文在该领域的贡献包括以下几点:第一,我们提供了一份关于 RL 技术在 LLM 中应用的全面技术综述,涵盖了如 RLHF 与 RLAIF 等基础方法,以及 DPO 和群体相对策略优化(Group Relative Policy Optimization, GRPO)等前沿方法。第二,我们系统分析了 RL 技术在多个领域的应用,如代码生成与工具增强推理,展现其广泛适应性与有效性。第三,我们提出了一个基于奖励建模、反馈机制与优化策略的对比分类体系,为理解 RL 在 LLM 中的技术生态提供结构化框架。最后,我们还讨论了若干新兴研究方向,包括混合 RL 算法、验证器引导训练,以及多目标对齐框架。

本文其余部分安排如下:第二节介绍 LLM 与强化学习的基础概念;第三节详细讲解为 LLM 改编的具体 RL 算法;第四节探讨用于对齐与推理增强的 RL 技术;第五节展示 RL 在各类应用场景中的实践;第六节提供一套比较分析与评估;第七节讨论现有挑战与局限;第八节展望未来研究方向;第九节总结全文。我们希望通过本综述为研究者与实践者提供一份推动 RL 驱动 LLM 发展的技术路线图,在提升模型能力的同时兼顾安全性与可扩展性。

成为VIP会员查看完整内容
29

国际机器学习会议 ICML(International Conference on Machine Learning),是全球范围内人工智能领域的顶级学术会议之一,由国际机器学习学会(IMLS)举办,与 NeurIPS、ICLR 并列为 AI 三大顶会。本届 ICML 为第四十二届,于 7 月 13-19 日在加拿大温哥华举行。image.png

今年的 ICML 大会共获得 12107 篇有效论文投稿,其中 3260 篇被接收,接收比例为 26.9%。相比 2024 年的 9653 篇投稿数量持续大幅增长,展示了 AI 领域的火热。 来自亚马逊研究人员Leena Chennuru Vankadara · Volkan Cevher 深度学习的变革性影响的核心概念是规模——涵盖了数据和计算资源,以及它们与神经网络架构的相互作用。 然而,规模带来了关键挑战,例如训练过程中的不稳定性增加和模型特定调优的高昂成本。鉴于训练这些模型所需的大量资源,制定基于严格理论研究的高置信度扩展假设变得至关重要。教程的第一部分将概述深度学习扩展理论的重大进展,涵盖其历史基础、最近的突破以及对大规模模型训练的实际意义。 为了弥合理论与实践之间的差距,教程还探讨了扩展的另一个关键数学组成部分:深度学习中常用的数值求解算法,这些算法涵盖了从视觉到语言模型等多个领域。我们将这些算法统一在一个共同的主模板下,使其基础原理更加透明。通过这种方式,我们揭示了通过在线学习适应平滑结构与通过非欧几里得范数利用优化几何之间的相互作用。 我们的阐述不仅仅停留在构建更大模型上——它强调战略性的扩展,提供了有望推动该领域发展的洞察,同时节省资源。

成为VIP会员查看完整内容
30

本书是对(深度)神经网络(NN)这一主题的入门介绍。神经网络是大语言模型、生成式人工智能以及众多其他应用的核心技术。由于“神经”这一术语带有较多的历史包袱,而神经网络本质上只是可微分算子的组合,因此在合适的上下文中,我更倾向于使用更为简洁的术语——“可微模型”来指代它们。

2009年,我几乎是偶然读到了一篇由 Yoshua Bengio 撰写的关于“深度”神经网络强大能力的论文 [Ben09],那时自动微分库如 Theano [ARAA+16] 正在变得流行。就像爱丽丝闯入了一个奇妙的编程国度——一个可微分的仙境,在那里,诸如选择一个元素这样看似简单的操作变得异常困难,而像识别猫这样原本复杂的任务却变得令人惊讶的简单。

过去十多年里,我一直在阅读、实现和讲授这类模型。本书是我尝试将这些年所学内容加以提炼的一个粗略总结,重点放在神经网络的设计及其最常见的组成部分上。鉴于该领域发展迅速,我力求在理论与代码、历史视角与最新趋势之间取得良好平衡。我假设读者具有一定的机器学习和线性代数基础,但在必要时也会涵盖相关的基础内容。

成为VIP会员查看完整内容
27

近年来,人工智能(AI)领域取得了显著进展,特别是在诸如 OpenAI-o1 和 DeepSeek-R1 等大型语言模型(LLMs)方面,已在逻辑推理和实验编程等复杂领域展现出卓越的能力。受这些进展的启发,众多研究开始探索 AI 在创新过程中的应用,尤其是在科学研究背景下的潜力。这些 AI 技术的核心目标,是构建能够在广泛科学学科中自主执行研究流程的系统。尽管该领域取得了重要进展,但关于“AI for Research(AI4Research)”的系统性综述仍然缺失,这在一定程度上限制了人们的整体理解,并阻碍了该方向的进一步发展。 为填补这一空白,我们提出了一项全面的综述工作,并提供了关于 AI4Research 的统一视角。具体而言,我们的主要贡献如下: 1. 系统性任务分类:我们首先提出了一种系统的分类方法,用于归纳 AI4Research 中的五类主流任务; 1. 研究前沿与挑战:接着,我们识别了当前研究中的关键空白,并重点讨论了未来的潜在方向,特别是在自动化实验的严谨性、可扩展性以及其社会影响方面; 1. 丰富的应用与资源:最后,我们整理了大量相关资源,包括多学科应用案例、数据语料库及工具,便于研究者快速获取并加以利用。

我们希望本项工作能够为研究社区提供高效的资源入口,并激发 AI4Research 领域的创新性突破。

  • 共同第一作者 通讯作者 关键词:AI4Research,大型语言模型,科学理解,学术综述,科学发现,学术写作,学术评审

1. 引言

近年来,人工智能(AI)尤其是大型语言模型(LLMs)的兴起,如 DeepSeekR1 [263],极大地推动了推理领域的研究。这些技术突破显著提升了模型在多个领域中的表现,包括数学推理、编程以及跨学科知识处理等方面 [724, 748, 616, 931, 947, 110]。其中一些模型甚至已通过图灵测试 [352],标志着 AI 发展的一个重要里程碑。 受此启发,一系列研究开始探索用于创新任务的先进 AI 系统,尤其是在科学发现方面的潜力 [863, 887, 847, 948]。早期的研究中,AI Scientist [507] 提出了“全自动 AI 科研系统”的概念,将科研流程划分为三个关键阶段:创意挖掘、实验执行与学术写作。该系统首先生成并评估新的想法与假设;一旦假设形成,便自动执行实验,输出包括数值数据与可视化结果在内的研究成果。这些结果通过表格和图像呈现,并附有合理解释,最终生成一份 LaTeX 报告。在最后阶段,AI Scientist 还会自动生成评审意见,用于完善项目并为后续科学发现提供反馈。 类似地,其他经典模型如 Carl [330] 和 Zochi [12] 也采用了类似的流程。值得注意的是,AgentArxiv [665] 和 AgentLab [666] 引入了多智能体协作机制,模拟科研团队中的分工协作,涵盖了同行评审、学术综述等功能,从而实现了半自动甚至全自动的协同研究过程,而非依赖单一智能体 [478, 870, 112, 658, 53]。 尽管上述工作取得了显著进展,目前仍缺乏对 AI 驱动科研的系统性综述,无法全面分析其中的关键因素与最新发展,严重制约了该领域的持续推进。

为弥补这一空白,我们首次系统定义并综述了“AI for Research”(AI4Research)这一领域。如图 1 所示,我们提出了 AI4Research 的系统性任务分类,重点涵盖以下五个方面: 1. 面向科学理解的 AI:AI 系统提取科研文献中相关信息的能力至关重要; 1. 面向学术综述的 AI:利用 AI 技术系统性地回顾与总结科研文献; 1. 面向科学发现的 AI:基于现有科学知识生成假设、理论或模型; 1. 面向学术写作的 AI:辅助研究人员撰写、编辑与排版科研论文; 1. 面向学术评审的 AI:用于评估与反馈科研论文的质量。

面对庞大的文献规模,我们特别强调了 AI4Research 的潜在研究前沿。未来的研究应优先发展能够融合多学科知识的跨领域 AI 模型,以促进跨学科协作;同时,解决 AI 系统中的伦理问题与偏差对于确保科研的公平性与透明度至关重要;提升模型可解释性、开发具备自适应能力的实时 AI 系统,以应对动态科学实验,也将成为推动 AI 在科研中发挥更大作用的关键。 此外,我们还总结了 AI4Research 中的关键应用与重要资源,包括代表性的多学科应用案例、开源框架与数据集仓库,以支持未来的深入研究。我们分别介绍了 AI 在自然科学、应用科学与工程、以及社会科学领域的研究实践。最后,我们回顾了模型开发中的关键工具与公开评测基准,这些都为训练与实验提供了丰富的数据支持。 本工作的主要贡献如下: * 科研 AI 的系统性分类方法:本文提出了一套完整的分类体系,涵盖科学理解、学术综述、科学发现、学术写作和学术评审五大方面,系统梳理了能够增强甚至自动执行科研各阶段任务的 AI 工具; * 新兴的未来研究方向:本文识别了 AI 在学术界的重要未来研究方向,包括发展跨学科 AI 模型、应对伦理与偏差问题、提升模型可解释性,以及探索用于动态科学实验的自适应 AI 系统; * 关键应用与丰富资源:我们系统汇总了 AI4Research 在自然科学、应用科学与社会科学领域的典型应用场景,并梳理了支撑科研流程的关键资源,包括开源框架、公共数据集、协作平台、云端 AI 服务与学术工具,涵盖科研发现管理、数据处理和 AI 驱动研究等多个方面。

成为VIP会员查看完整内容
27

多模态推理的最新进展在很大程度上得益于文本链式思维(Chain-of-Thought,CoT)范式的推动,该范式主张模型在语言中进行推理。然而,这种以文本为中心的方法将视觉仅视为静态的初始上下文,导致了丰富感知数据与离散符号思维之间的根本语义鸿沟。人类认知往往超越语言,将视觉作为一种动态的心理画板加以利用。而类似的演化趋势也正在人工智能领域显现,标志着一个范式的根本性转变:从“思考图像”的模型迈向真正能够“借图思考”的模型。 这一新兴范式的核心特征在于模型将视觉信息作为思维过程中间步骤加以利用,从而将视觉从被动输入转变为可操控的动态认知工作空间。在本综述中,我们沿着智能不断增强认知自主性的演进路径,对该趋势进行了梳理,这一演进历程可分为三个关键阶段:从外部工具探索、程序化操作,到内在想象。 为了系统化这一快速发展的研究领域,我们的综述提出了四项主要贡献:(1)确立“借图思考”(Thinking with Images)范式的基本原理及其三阶段框架;(2)全面回顾构成该发展路线图中各阶段核心方法的代表性工作;(3)分析评估基准和关键应用的现状与变革趋势;(4)指出当前面临的主要挑战,并展望未来值得关注的发展方向。通过这一结构化的综述,我们旨在为构建更强大、更贴近人类思维方式的多模态人工智能提供清晰的研究路线图。

1 引言

大型多模态模型(Large Multimodal Models, LMMs)近年来标志着人工智能领域的一个关键转折点,展现出在理解和生成多模态内容方面的显著成果 [Team et al., 2023; Liu et al., 2024a; Wang et al., 2024a; Chen et al., 2025a]。这一进展从根本上重塑了 AI 跨越视觉感知与语言抽象之间认知鸿沟的能力。而促成这一“第一波”变革的核心推动力之一,便是语言中心化的推理机制,尤其是链式思维(Chain-of-Thought, CoT)范式的引入 [Wei et al., 2022; Kojima et al., 2022]。通过将复杂问题分解为一系列文本化的推理步骤,CoT 大幅提升了 LMM 在多种多模态任务上的表现,包括视觉问答 [Zhang et al., 2023a; He et al., 2025a; Shen et al., 2025]、视觉支撑的数学问题求解 [Lu et al., 2023] 和复杂叙事生成 [Wu et al., 2024a] 等。 在这一既定范式中,也即我们称之为“思考图像”(Thinking about Images)的方式中,视觉模态主要被用作静态的初始上下文:LMM 首先“看到”一张图像,将其编码为一组固定的特征向量,然后仅在语言域中开展推理。图像是前提,但语言是唯一的思维媒介。尽管该文本中心化方法已颇具成效,但它暴露了一个根本性局限:即视觉世界丰富、连续且常常模糊不清的本质,与语言的离散、符号结构之间存在语义鸿沟 [Li et al., 2022]。图像在初始阶段的一次性编码将其扁平化为静态表示,形成了一个关键的信息瓶颈。因此,当任务需要更深层、递归式视觉参与时,如复杂物理推理 [Balazadeh et al., 2024]、精确空间操作 [Gupta and Kembhavi, 2023],或交互环境中的长程规划 [Pahuja et al., 2025; Wang et al., 2025a],模型往往难以胜任。 如今,一场新的多模态推理变革正悄然兴起。模型正在从仅用文本“思考图像”,转向真正能够“借图思考”的新范式。这标志着视觉在认知过程中的角色发生根本转变:从被动、固定的输入,变为动态、可操控的认知工作空间。正如人类使用草图本进行思维一样,模型如今也开始被赋予能力,能够主动查询、修改,甚至生成新的视觉信息,作为推理过程中的中间步骤。这种“视觉链式思维”(visual chain of thought)的能力,不再是对文本 CoT 的简单扩展,而是一种朝向更整体、更类人认知形态的革命性飞跃 [Larkin and Simon, 1987]。我们认为,这一新兴范式——“借图思考”(Thinking with Images),代表了多模态 AI 的下一前沿。其核心原则在于:将视觉表征作为可操控、可验证的思维形式,使模型能够在认知过程中主动观察、操纵并以视觉信息为中介进行推理。 本综述是首个对这一新兴且快速发展的研究方向进行全面、系统梳理的工作。为了组织这一不断演化的研究图景,我们提出了一个概念性框架,描绘该范式在认知自主性不断增强过程中的三阶段演进路径。这三个阶段反映了模型实现视觉推理目标的不同机制(即“如何做”)以及推理动机(即“为何做”):从作为“指挥者”调度外部视觉工具、演进为“视觉程序员”以代码实现定制化视觉操作,最终成长为能够进行内在想象与模拟的“视觉思考者”。第二节将详细阐述这一三阶段演进路径。 随着各阶段方法的不断涌现,一个关键问题也随之而来,而本综述正旨在解答这一问题: 大型多模态模型如何通过认知自主性不断增强的三个阶段,演进至“借图思考”的新范式?该范式又由哪些核心方法、评估策略、应用场景和挑战构成?

本综述围绕该问题进行系统组织,并遵循图 1 所示的分类结构。我们将在第 2 节建立该范式的基础,随后在第 3、4、5 节分别探讨三个阶段所涉及的具体方法。在第 6 节,我们回顾相关评估基准和实现框架,第 7 节探讨该范式的关键应用,第 8 节则总结面临的挑战并展望未来方向。通过清晰的分类体系与前瞻性视角,我们希望不仅总结已有知识,也为构建更强大、更直观、真正多模态的 AI 激发未来研究灵感。


1.1 本综述的定位

与已有综述的差异

早期的综述为理解 LMM 奠定了基础,但大多持有一个共同视角:视觉主要作为上下文输入,而语言仍是推理的主导载体。诸如 Yin et al. [2024]、Zhang et al. [2024c]、Wu et al. [2023a] 等面向通用 LMM 的综述,主要聚焦于架构、预训练语料和评估协议,对模型在图像编码后如何利用视觉信息的探讨则相对有限。Xie et al. [2024a] 将分析拓展至智能体场景,但仍以工具调用为中心,缺乏对内部视觉认知机制的关注。而在数学推理 [Yan et al., 2024]、幻觉检测 [Liu et al., 2024c]、评测基准 [Li et al., 2025d] 等任务专向综述中,虽涉及更具体任务细节,但仍延续了文本中心化的框架。近期已有部分工作开始讨论显式推理机制:如 Wang et al. [2025g] 回顾了多模态 CoT 提示设计,Li et al. [2025e] 探讨了“感知–推理–规划”流程;但即便如此,视觉模态仍然是被动的:模型通常只是对图像进行一次性描述或标注,随后继续在语言域中进行思考。 我们的立场

本综述聚焦于范式的转变:从“思考图像”到“借图思考”。我们首次系统性地分类和整理了促成这一演进的机制,其中图像从一个静态前提转变为一个动态、可操作的认知空间。我们按照认知自主性的提升轨迹来组织综述内容,阐明模型如何从(1)调度工具进行探索、到(2)以编程方式主动生成视觉分析,最终迈向(3)在封闭认知环中进行内在视觉想象。我们相信,这一发展将从根本上重新定义推理步骤的结构、可验证证据的标准,以及如何衡量真正的视觉智能。

成为VIP会员查看完整内容
25

大型语言模型(LLMs)正迅速从被动的文本生成引擎演化为具备计划、记忆、调用外部工具以及彼此协作能力的智能体实体。本文以观点论文的形式探讨了此类LLM智能体(及其组成的社会)如何重塑推荐系统的设计空间。

我们提出了一套统一的形式化框架,该框架:(i)将单个智能体建模为一个由语言核心、工具集和分层记忆组成的元组;(ii)将多智能体推荐系统建模为一个由智能体集合、共享环境以及通信协议组成的三元组。在此框架下,我们展示了四个端到端的应用案例——互动派对策划、用于离线评估的合成用户模拟、多模态家具推荐,以及符合品牌调性的解释生成——每个案例都体现了由智能体编排所解锁的一项关键能力。 随后,我们提出了五大跨领域的挑战类别:协议复杂性、系统可扩展性、幻觉与错误传播、涌现的不一致性(包括隐蔽串通),以及品牌一致性问题。对于每一类挑战,我们均进行了问题形式化、初步缓解策略回顾,并指出了亟待解决的开放研究问题。

最终成果既是蓝图也是议程:蓝图展示了如何将具备记忆增强与工具使用能力的LLM智能体组装成稳健的推荐流程;议程则号召推荐系统(RecSys)社区开发新的基准、理论保障机制以及治理工具,以应对这类高度自主系统的快速演进。 通过将智能体抽象与推荐目标相融合,本文为构建新一代个性化、可信赖且具备丰富上下文感知能力的推荐服务奠定了基础。

1 引言与动机

大型语言模型(LLM)驱动的智能体不仅仅是传统意义上的聊天机器人,它们展现出智能体行为,而非仅通过基于 token 的预测来回应用户查询。本质上,它们被设计用于处理多步骤任务、编排信息流,并在必要时自主调用各种工具或功能【50, 54, 67】。这一点与传统聊天机器人形成了鲜明对比——后者可能仅在一次对话轮次中提供简短回答,而智能体系统则能够主动组织复杂问题并通过一系列有条理的步骤加以解决。换言之,LLM 智能体不仅是被动的对话伙伴,更是具备将任务分解并调用外部资源以达成目标的动态问题求解者【20, 25, 69】。 使用 LLM 智能体的一个根本原因在于现实任务的复杂性和多阶段性。面对旅行规划、多维度研究或迭代设计流程等复杂情境,单个静态提示往往无法满足需求。这些任务通常涉及多轮决策与外部数据交互,而智能体系统能够将复杂目标拆分为较小的子任务,并逐步加以解决。这种方法规避了传统文本查询的局限,使得决策过程更具鲁棒性和上下文感知能力,并更贴近人类的推理方式【52, 59】。此外,通过将“认知负担”分散到不同的组件中,智能体框架还能降低“幻觉”或回答不完整的风险,确保最终结果不再依赖单次 token 预测【26】。 记忆机制是 LLM 智能体中的关键组成部分,它确保与用户的对话随着时间推移保持一致性和个性化。与传统聊天机器人每轮对话独立、无法追踪历史内容不同,现代智能体结合了多种互补的记忆结构,每种记忆类型都针对不同目标进行优化(详见第3节): * 工作记忆(短期):帮助智能体回忆当前会话中的近期对话内容。例如,当用户提出“推荐一本悬疑小说”后紧接着说“像上次那本一样”,工作记忆会保留原始推荐内容,从而响应后续请求,而无需用户重复前述查询。 * 情节记忆(长期):记录具体的过去事件及其上下文与元数据。例如,一周前用户请求推荐意大利餐厅,如今提出“上次提到的那家餐厅”,情节记忆能准确检索出对应推荐,并回溯其提出时间与理由。 * 语义记忆(长期):从多次交互中提炼并积累通用事实或用户偏好。例如,经过多次对话,智能体可能推断出用户偏好意大利菜,即使在当前会话中未提及,也能主动将意式选项优先排序。 * 程序性记忆(长期):编码已习得的技能、流程或脚本,使智能体能高效地自动执行重复性任务。例如,若用户频繁请求“总结会议记录并发送邮件”,智能体可学会这一工作流;下次用户只需说“发送之前的总结”,即可自动完成任务。

综合运用这些不同类型的记忆,使得智能体始终掌握之前的步骤、用户偏好及外部知识,从而实现更流畅且具上下文感知的交互【18, 83】。 LLM 智能体的另一项核心优势在于其自主调用工具的能力,这极大增强了其处理复杂任务和提供专业信息的能力(见第2.1节)。这些智能体不仅依赖静态模型参数,还能主动调用专用模块或外部服务,以获取精确信息、执行特定分析或开展领域任务【23, 47】。例如,在推荐场景中,当用户请求推荐餐厅时,智能体可使用专业检索工具或数据库查询当前评分与可预订信息,而非依赖记忆中的旧数据。同样地,在推荐适配用户上传房间图像与风格偏好的家具时,智能体可能调用图像分析工具提取视觉特征,再检索产品数据库,筛选出符合审美与空间要求的商品(见第4节)。这些工具的使用也可与记忆机制相辅相成——如语义记忆(用户偏好、物品属性)与情节记忆(先前推荐记录)结合,从而提供更精确且具上下文关联性的推荐。最终,工具集成将 LLM 智能体的功能扩展到传统对话之外,使其具备更强的适应性与个性化处理能力。 综上所述——多步骤任务处理、记忆保持与工具调用——共同赋予 LLM 智能体超越传统问答式聊天机器人的自主能力。通过将任务拆解为可管理的组件【52】、保留关键上下文【38】、并在合适时调用外部工具【55】,LLM 智能体能提供更具思考性与整体性的解决方案,为对话系统与推荐系统带来更智能与灵活的变革。

成为VIP会员查看完整内容
27
登陆后查看更多精品内容
VIP会员
本周荟萃主题
区块链
区块链(Blockchain)是由节点参与的分布式数据库系统,它的特点是不可更改,不可伪造,也可以将其理解为账簿系统(ledger)。它是比特币的一个重要概念,完整比特币区块链的副本,记录了其代币(token)的每一笔交易。通过这些信息,我们可以找到每一个地址,在历史上任何一点所拥有的价值。
深度学习
机器学习的一个分支,它基于试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的一系列算法。
机器学习
“机器学习是近20多年兴起的一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。机器学习理论主要是设计和分析一些让 可以自动“ 学习”的算法。机器学习算法是一类从数据中自动分析获得规律,并利用规律对未知数据进行预测的算法。因为学习算法中涉及了大量的统计学理论,机器学习与统计推断学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。很多 推论问题属于 无程序可循难度,所以部分的机器学习研究是开发容易处理的近似算法。”

——中文维基百科
强化学习
强化学习(RL)是机器学习的一个领域,与软件代理应如何在环境中采取行动以最大化累积奖励的概念有关。除了监督学习和非监督学习外,强化学习是三种基本的机器学习范式之一。 强化学习与监督学习的不同之处在于,不需要呈现带标签的输入/输出对,也不需要显式纠正次优动作。相反,重点是在探索(未知领域)和利用(当前知识)之间找到平衡。 该环境通常以马尔可夫决策过程(MDP)的形式陈述,因为针对这种情况的许多强化学习算法都使用动态编程技术。经典动态规划方法和强化学习算法之间的主要区别在于,后者不假设MDP的确切数学模型,并且针对无法采用精确方法的大型MDP。
推荐系统
推荐系统,是指根据用户的习惯、偏好或兴趣,从不断到来的大规模信息中识别满足用户兴趣的信息的过程。推荐推荐任务中的信息往往称为物品(Item)。根据具体应用背景的不同,这些物品可以是新闻、电影、音乐、广告、商品等各种对象。推荐系统利用电子商务网站向客户提供商品信息和建议,帮助用户决定应该购买什么产品,模拟销售人员帮助客户完成购买过程。个性化推荐是根据用户的兴趣特点和购买行为,向用户推荐用户感兴趣的信息和商品。随着电子商务规模的不断扩大,商品个数和种类快速增长,顾客需要花费大量的时间才能找到自己想买的商品。这种浏览大量无关的信息和产品过程无疑会使淹没在信息过载问题中的消费者不断流失。为了解决这些问题,个性化推荐系统应运而生。个性化推荐系统是建立在海量数据挖掘基础上的一种高级商务智能平台,以帮助电子商务网站为其顾客购物提供完全个性化的决策支持和信息服务。
卷积神经网络
在深度学习中,卷积神经网络(CNN或ConvNet)是一类深度神经网络,最常用于分析视觉图像。基于它们的共享权重架构和平移不变性特征,它们也被称为位移不变或空间不变的人工神经网络(SIANN)。它们在图像和视频识别,推荐系统,图像分类,医学图像分析,自然语言处理,和财务时间序列中都有应用。
计算机网络
计算机网络( Computer Networks )指将地理位置不同的多台计算机及其外部设备,通过通信线路连接起来,在网络操作系统及网络通信协议的管理和协调下,实现资源共享和信息传递的计算机系统。
命名实体识别
命名实体识别(NER)(也称为实体标识,实体组块和实体提取)是信息抽取的子任务,旨在将非结构化文本中提到的命名实体定位和分类为预定义类别,例如人员姓名、地名、机构名、专有名词等。
机器翻译
机器翻译,又称为自动翻译,是利用计算机将一种自然语言(源语言)转换为另一种自然语言(目标语言)的过程。它是计算语言学的一个分支,是人工智能的终极目标之一,具有重要的科学研究价值。
计算机视觉
计算机视觉是一门研究如何使机器“看”的科学,更进一步的说,就是是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉,并进一步做图形处理,使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科,计算机视觉研究相关的理论和技术,试图建立能够从图像或者多维数据中获取‘信息’的人工智能系统。
微信扫码咨询专知VIP会员