记忆已成为并将继续成为基于基础模型的智能体的核心能力。它支撑着长程推理、持续适应以及与复杂环境的有效交互。随着智能体记忆研究的快速扩张并吸引空前关注,该领域也日益呈现碎片化。当前统称为"智能体记忆"的研究工作,在动机、实现、假设和评估方案上往往存在巨大差异,而定义松散的记忆术语的激增进一步模糊了概念上的清晰度。诸如长/短期记忆之类的传统分类法已被证明不足以捕捉当代智能体记忆系统的多样性和动态性。 本综述旨在提供当前智能体记忆研究最新且全面的图景。我们首先清晰地界定智能体记忆的范围,并将其与大型语言模型记忆、检索增强生成和上下文工程等相关概念区分开来。然后,我们通过形式功能动态三个统一的视角来审视智能体记忆。 * 从形式视角,我们识别了智能体记忆的三种主要实现方式,即标记级记忆参数化记忆潜在记忆。 * 从功能视角,我们超越了粗略的时间分类,提出了一个更细粒度的分类法,区分了事实性记忆经验性记忆工作记忆。 * 从动态视角,我们分析了在智能体与环境交互的过程中,记忆如何随时间被形成演化检索

为支持实证研究和实际开发,我们汇编了一份关于代表性基准测试和开源记忆框架的全面总结。在整合梳理之外,我们阐明了对于新兴研究前沿的前瞻性视角,包括面向自动化的记忆设计、强化学习与记忆系统的深度融合、多模态记忆、多智能体系统的共享记忆以及可信度问题。 我们希望本综述不仅能作为现有工作的参考,更能作为一个概念基础,促使人们将记忆重新思考为设计未来智能体智能时的一等原语。

1 引言

过去两年,我们看到性能日益强大的大语言模型(LLM)已势不可挡地进化为强大的AI智能体(Matarazzo and Torlone, 2025; Minaee et al., 2025; Luo et al., 2025)。这些基于基础模型的智能体在多个领域——如深度研究(Xu and Peng, 2025; Zhang et al., 2025o)、软件工程(Wang et al., 2024i)和科学发现(Wei et al., 2025c)——取得了显著进展,持续推动着通往通用人工智能(AGI)的进程(Fang et al., 2025a; Durante et al., 2024)。尽管早期的"智能体"概念高度异构,但学界已逐渐达成共识:除了纯粹的大语言模型骨干外,一个智能体通常还需具备推理、规划、感知、记忆和使用工具等能力。其中一些能力,如推理和工具使用,已通过强化学习在很大程度上内化于模型参数之中(Wang et al., 2025l; Qu et al., 2025b),而另一些则仍然高度依赖于外部的智能体框架。这些组件共同作用,将大语言模型从静态的条件生成器转变为可学习的策略,使其能够与多样的外部环境交互并随时间自适应地演化(Zhang et al., 2025f)。 在这些智能体的核心能力中,记忆 尤为关键,它明确地促成了从静态大语言模型(其参数无法快速更新)到自适应智能体的转变,使其能够通过环境交互持续适应(Zhang et al., 2025r; Wu et al., 2025g)。从应用角度看,许多领域都要求智能体具备主动的记忆管理能力,而非短暂、易忘的行为:个性化聊天机器人(Chhikara et al., 2025; Li et al., 2025b)、推荐系统(Liu et al., 2025b)、社会模拟(Park et al., 2023; Yang et al., 2025)以及金融调查(Zhang et al., 2024)都依赖于智能体处理、存储和管理历史信息的能力。从发展角度看,AGI研究的一个核心目标是赋予智能体通过环境交互实现持续演化的能力(Hendrycks et al., 2025),而这根本上立足于智能体的记忆能力。 智能体记忆需要新的分类法 鉴于智能体记忆系统日益增长的重要性和学界关注,为当代智能体记忆研究提供一个更新的视角既恰逢其时,也十分必要。提出新分类法和综述的动机有两点:❶ 现有分类法的局限:尽管近期已有几篇综述对智能体记忆提供了宝贵且全面的概述(Zhang et al., 2025r; Wu et al., 2025g),但其分类体系是在一系列方法快速进展之前建立的,未能完全反映当前研究图景的广度和复杂性。例如,2025年出现的新方向,如从过往经验中提炼可复用工具的记忆框架(Qiu et al., 2025a,c; Zhao et al., 2025c),或基于记忆增强的测试时缩放方法(Zhang et al., 2025g; Suzgun et al., 2025),在早期的分类方案中尚未得到充分体现。❷ 概念碎片化:随着记忆相关研究的爆炸式增长,"记忆"这一概念本身正变得日益宽泛和碎片化。研究者们常常发现,标榜研究"智能体记忆"的论文在实现方式、目标和基本假设上差异巨大。各类术语(陈述性、情景性、语义性、参数化记忆等)的扩散进一步模糊了概念的清晰度,这凸显了建立一个能够统一这些新兴概念的、连贯的分类法的迫切需求。 因此,本文旨在建立一个系统性的框架,以调和现有定义、衔接新兴趋势,并阐明智能体系统中记忆的基础原理。具体而言,本综述旨在回答以下关键问题: 关键问题

智能体记忆如何定义?它与大语言模型记忆、检索增强生成(RAG)和上下文工程等相关概念有何关联? 1. 形式:智能体记忆可以采取哪些架构或表示形式? 1. 功能:为何需要智能体记忆?它服务于哪些角色或目的? 1. 动态性:智能体记忆如何随时间操作、适应和演化? 1. 推动智能体记忆研究的前沿方向有哪些?

为解答问题❶,我们首先在第2节为基于大语言的智能体及智能体记忆系统提供形式化定义,并详细比较智能体记忆与大语言模型记忆、检索增强生成(RAG)和上下文工程等相关概念的异同。遵循"形式-功能-动态"三角框架,我们对智能体记忆进行了结构化概述。问题❷探讨记忆的架构形式,我们在第3节讨论并重点介绍了三种主流实现方式:标记级记忆参数化记忆潜在记忆。问题❸关注记忆的功能角色,在第4节中,我们区分了三种功能类型:事实性记忆(记录智能体与用户及环境交互中获得的知识)、经验性记忆(通过执行任务逐步增强智能体解决问题的能力)和工作记忆(在单个任务实例中管理工作区信息)。问题❹聚焦于智能体记忆的生命周期与运作动态,我们将按记忆形成检索演化的顺序进行阐述。 在通过"形式-功能-动态"视角梳理现有研究后,我们进一步提出了对智能体记忆研究的观点与见解。为促进知识共享与未来发展,我们首先在第6节总结了关键基准测试和框架资源。在此基础上,我们通过第7节探讨数个新兴但尚未充分发展的研究前沿来解答问题❺,这些方向包括面向自动化的记忆设计强化学习(RL)的融合多模态记忆多智能体系统的共享记忆以及可信度问题本综述的贡献 总结如下:(1) 我们从一个"形式-功能-动态"的视角,提出了一个最新且多维度的智能体记忆分类法,为理解该领域的当前发展提供了一个结构化的视角。(2) 我们深入探讨了不同记忆形式与功能目的的适用性及相互作用,为如何将各类记忆类型有效地与不同的智能体目标对齐提供了见解。(3) 我们探讨了智能体记忆中新兴且有前景的研究方向,从而勾勒出未来的发展机遇与推进路径。(4) 我们汇编了包括基准测试和开源框架在内的综合资源集,以支持研究人员和从业者进一步探索智能体记忆系统。 综述结构 本综述余下部分结构如下。第2节形式化定义了基于大语言的智能体与智能体记忆系统,并厘清了它们与相关概念的关系。第3、4、5节分别审视了智能体记忆的形式、功能和动态性。第6节总结了代表性的基准测试和框架资源。第7节讨论了新兴的研究前沿和未来方向。最后,我们在第8节总结关键见解,结束本综述。

成为VIP会员查看完整内容
29

本文件旨在为无人机系统的探测、跟踪与识别系统开发一种标准化的测试方法。其是在由欧盟"内部安全基金-警察"根据赠款协议101034655资助的COURAGEOUS项目框架内制定的。此标准化测试方法基于一系列代表广泛用例的标准用户定义场景。目前,这些标准场景主要面向民事安全最终用户。然而,鉴于反无人机系统领域具有高度的军民两用特性,更多军事场景无疑也高度相关。因此,本标准提供了一个开放架构,其中标准场景以模块化方式在附录中作为示例提供,使标准用户能够轻松添加新场景。针对每个场景,都提供了作战需求与功能性能要求。利用这些信息,提出了一种完整的测试方法,允许在不同反无人机系统之间进行公平的定性和定量比较。此测试方法在三次用户脚本验证试验中得到了验证。

其目标是,该标准化测试方法将使欧盟执法机构网络内的成员更好地理解反无人机系统的能力。这迫切需要,因为成员国正面临无人机威胁的增加,而整个地区尚未制定统一政策来尝试和管理该威胁。然而,应强调的是,大多数欧盟执法机构并没有一个完整且详细的无人机应对策略。

需要强调的是,此标准测试方法完全侧重于反无人机系统"杀伤链"中的探测、跟踪与识别方面,不涵盖压制/处置方面。该标准测试方法也集中于对DTI系统进行定性和定量评估,评估对象是呈现给最终用户的、配置为集成解决方案的系统。虽然测试方法包含了对反无人机解决方案界面的最终用户主导的定性评估,但对指挥与控制界面的全面可用性分析不在此标准测试方法的范围内。

本文件可分为四个主要部分:

  • 第一部分,提供总体介绍
  • 第二部分,侧重于标准场景
  • 第三部分,侧重于性能要求
  • 第四部分,侧重于实际的标准测试方法

本文件范围广泛,旨在为反无人机行业、执法机构和政策制定者等不同利益相关方提供可操作的见解。

对反无人机行业的主要启示:

  • 深入了解最终用户的作战需求和性能要求,以指导反无人机解决方案的设计
  • 一种用于测试和传达其产品性能规格与能力的标准化方法

对最终用户的主要启示:

  • 深入了解反无人机领域态势
  • 一种用于开发和验证需求规格的方法,以便做出更好的采购决策
  • 一种性能测量的标准化方法,以便更好地将选定的反无人机解决方案与作战需求相匹配

对政策制定者的主要启示:

  • 深入了解反无人机领域态势
  • 通过标准化测试方法,更好地理解反无人机系统的能力

成为VIP会员查看完整内容
30

技术革命已将人类带入数字时代,新技术在其应用的领域带来了重大进步。全球安全环境在力量极的层面正经历重大变化,势力范围和军事行动随着新兴颠覆性技术的使用而演进。配备最新技术发展的军事能力已在数字或物理战场上取得了重大胜利。因此,军方作为国家实体,已成为人工智能、太空技术、自主与高超音速载具、大数据与高级分析、战场物联网的"测试者",并对民用特定研究和工业产生重大影响。军事环境通过发展其能力并部署新兴颠覆性技术,正在为当今的工业革命做出贡献,这表明军民关系在现代军队中至关重要。本文旨在论证人工智能对军事行动的影响,研究方法包括利用兰彻斯特定律计算所涉部队的军力,从而对军事行动进行数学建模。

人工智能近期的发展史与人类发展和技术进步密切相关,同时也与人们渴望从耗时活动或敌对环境中得到替代的意愿相关。武装力量不断适应国家和区域的安全风险、威胁和脆弱性,而新兴颠覆性技术则彻底改变了军事行动的进行方式,极大地影响了战略、战术甚至战争的性质。国防工业充分利用了技术革命,生产出在体能上比战场部队更强、更快的武器装备。

当前冲突突显了一个新的战争范式,即一个主权国家或非国家行为体的军力与技术变革和科学成就密切相关,科技进步使得国防工业能够发展新的领域,从而确保军事行动规划与实施的成功。此外,技术的指数级发展正在重塑军事行动,新的混合威胁类型被添加到常规战争要素中,这要求在所有作战层面规划与实施军事行动时,必须实现流程精简和适应,以便军队能够履行其宪法和法律使命。人工智能革命将实现"机器的认知化,创造出在特定任务上比人类更聪明、更快速的机器"。将新兴、颠覆性和融合性技术引入现代军事能力,已显著改变了战斗人员与非战斗人员之间的关系。在近期的冲突中,武装力量以最少的人际互动执行军事行动,但对作战环境产生了重大影响。在技术发展的推动下,当代世界至少在中期内,将成为一个相互关联的风险与威胁显现的空间,这将增加全球安全环境的复杂性、不确定性和多变性。除了这些趋势,军事体系的相关性及其对社会的影响也日益增加。在发展和使用配备人工智能的军事能力的背景下,军方组织以及国防、公共秩序和国家安全体系的结构,需要关注将其与技术进步相连接的必要性,以"发展现代化、高度可用的、与盟国和伙伴国部队完全互操作的能力,从而确保完成宪法赋予的使命"。

北约《科学与技术2023-2043——第一卷:概述》提出了人工智能的定义,将其描述为"机器执行通常需要人类智能的任务的能力——例如,识别模式、从经验中学习、得出结论、做出预测或采取行动——无论是在数字领域,还是作为自主物理系统背后的智能软件"。配备人工智能的军事能力将感知作战环境,并在技术帮助下与军事行动交互、推理和学习,最终在作战环境中采取行动以塑造之。在减少人类对人工智能赋能军事能力的控制以及提高战场决策效率和速度的同时,人类控制问题仍有待讨论,至少在那些对国家安全有重大战略影响或为防止军事行动失控升级的关键决策中。文章第一部分概述了人工智能的演进,随后是文献综述,审视了人工智能应用的关键领域,特别强调当前的军事能力。接下来的部分概述了研究方法,其中根据兰彻斯特定律采用了数学建模。最后给出结论,对人工智能融入现代军事能力进行批判性评估,并提出未来研究的潜在方向。

成为VIP会员查看完整内容
26

智能体强化学习(Agentic Reinforcement Learning,Agentic RL)的兴起标志着相较于传统应用于大语言模型的强化学习(LLM RL)的一次范式转变。该转变将大语言模型从被动的序列生成器,重新塑造成嵌入于复杂、动态世界中的自主决策智能体。本文通过对比 LLM-RL 中退化的单步马尔可夫决策过程(Markov Decision Process,MDP)与刻画 Agentic RL 的时间扩展型部分可观测马尔可夫决策过程(Partially Observable Markov Decision Process,POMDP),对这一概念性转变进行了形式化阐述。 在此基础上,我们提出了一套全面的双重分类体系:其一围绕智能体的核心能力展开,包括规划、工具使用、记忆、推理、自我改进与感知;其二则依据这些能力在多样化任务领域中的应用进行组织。本文的核心论点在于,强化学习是将上述能力从静态、启发式的功能模块转化为自适应、鲁棒的智能体行为的关键机制。 为支持并加速未来研究,我们系统整合了当前开放源代码环境、基准测试与研究框架,形成了一份具有实践价值的资源汇编。通过综合分析五百余篇近期研究工作,本文勾勒出这一快速演进领域的整体轮廓,并揭示了将塑造可扩展、通用型人工智能智能体发展的机遇与挑战。

1 引言

大语言模型(Large Language Models,LLMs)与强化学习(Reinforcement Learning,RL)的快速融合,引发了语言模型在概念建模、训练范式与实际部署方式上的根本性变革。早期的 LLM-RL 范式主要将大语言模型视为静态的条件生成器,通过优化单轮输出以对齐人类偏好或提升基准测试成绩。尽管此类方法在对齐(alignment)与指令跟随方面取得了显著成功,但它们忽视了现实交互场景中所固有的、更广泛的序列决策问题。 这些局限性促使研究视角发生转变:近期工作不再将 LLM 视为被动的文本生成器,而是 increasingly 将其建模为智能体(Agents)——即能够在部分可观测、动态环境中,跨越较长时间尺度进行感知、推理、规划、工具调用、记忆维护以及策略自适应的自主决策主体。我们将这一新兴范式定义为智能体强化学习(Agentic Reinforcement Learning,Agentic RL)。 为更加清晰地区分本文所研究的 Agentic RL 与传统强化学习范式,我们给出如下定义: 智能体强化学习(Agentic RL)是指一种范式:在该范式中,大语言模型不再被视为为单轮输出对齐或基准性能而优化的静态条件生成器,而是被概念化为嵌入于序列决策闭环中的可学习策略。强化学习赋予其规划、推理、工具使用、记忆维护与自我反思等自主智能体能力,从而使其能够在部分可观测、动态环境中涌现出长时程的认知与交互行为。 在第 2 节中,我们将基于形式化符号,对 Agentic RL 与传统 RL 之间的区别进行更加严格的刻画。


相关研究脉络

与 Agentic RL 相关的既有研究大体可划分为两条相互补充的研究主线:RL 与 LLM 的协同研究,以及 LLM 智能体

**RL 与 LLM 的协同(Synergy between RL and LLMs)

第二条研究主线关注强化学习算法如何被用于提升或对齐大语言模型。其中,一项主要方向是用于训练 LLM 的强化学习(RL for training LLMs),该方向采用在策略方法(如近端策略优化 PPO(Schulman et al., 2017)与群体相对策略优化 GRPO(Shao et al., 2024b))以及离策略方法(如 actor–critic、Q-learning(Mnih et al., 2013)),以增强模型在指令跟随、伦理对齐与代码生成等方面的能力(Srivastava & Aggarwal, 2025;Wang et al., 2025m;2024c)。 互补的研究方向是用于强化学习的 LLM(LLMs for RL),该方向探讨将 LLM 部署为规划器、奖励设计器、目标生成器或信息处理模块,以提升控制环境中的样本效率、泛化能力与多任务规划能力,其系统性分类可参见 Cao et al. (2025c)。 此外,RL 已被广泛融入 LLM 的整个生命周期:从数据生成(Guo et al., 2025b;Wan et al., 2025a)、预训练(Dong et al., 2025a),到后训练与推理阶段(Chow et al., 2025),相关综述可参见 Guo & Wang (2025)。其中最具代表性的方向是后训练对齐,尤其是基于人类反馈的强化学习(RLHF)(Christiano et al., 2017),以及其扩展形式,如基于 AI 反馈的强化学习(RLAIF)(Bai et al., 2022)和直接偏好优化(DPO)(Rafailov et al., 2023)(Wang et al., 2024j;Xiao et al., 2024;Liu et al., 2025k;Srivastava & Aggarwal, 2025)。

**LLM 智能体(LLM Agents)

基于 LLM 的智能体代表了一种新兴范式,在该范式中,LLM 作为自主或半自主的决策实体(Wang et al., 2025d;Li et al., 2025r),能够围绕复杂目标进行推理、规划与行动执行。近期多项综述从不同视角对该研究版图进行了系统梳理。 例如,Luo et al. (2025a) 提出了以方法论为中心的分类体系,关联了架构基础、协作机制与演化路径;Plaat et al. (2025) 则强调推理、行动与交互是智能体型 LLM 的核心能力。工具使用(包括检索增强生成 RAG 与 API 调用)是其中的关键范式,已在 Li (2025) 中得到系统讨论,并由 Wang et al. (2024k) 进行了进一步的概念化。 规划与推理策略构成另一支柱性方向,Masterman et al. (2024) 与 Kumar et al. (2025) 等综述总结了诸如“规划–执行–反思”循环等常见设计模式;Tao et al. (2024) 则将该框架拓展至自演化(self-evolution),使智能体能够在较少人类干预的情况下迭代式地改进知识与策略。其他研究方向还涵盖协作式、跨模态与具身化场景,包括多智能体系统(Aratchige & Ilmini, 2025)、多模态融合(Durante et al., 2024),以及融合记忆与感知的类脑架构(Liu et al., 2025a)。


研究空白与本文贡献

近期关于 LLM 智能体与 RL 增强型 LLM 的研究激增,体现了两种互补视角:一类关注大语言模型作为自主智能体核心所能实现的能力,另一类则聚焦强化学习如何优化其行为。然而,尽管相关工作数量庞大,一种将 LLM 明确建模为嵌入于序列决策过程中的策略优化智能体的统一 Agentic RL 框架仍然缺失。 现有研究往往聚焦于孤立的能力、特定任务领域或定制化环境,且术语使用与评测协议不统一,使得系统性比较与跨领域泛化面临困难。为弥合这一鸿沟,本文提出了一种连贯的综合性视角,将理论基础、算法方法与实际系统紧密连接。 具体而言,我们通过马尔可夫决策过程(MDP)与部分可观测马尔可夫决策过程(POMDP)抽象,对 Agentic RL 进行形式化建模,以区分其与经典 LLM-RL 范式的本质差异;并提出一种以能力为中心的分类体系,将规划、工具使用、记忆、推理、反思(自我改进)与交互等视为可由 RL 优化的核心组件。此外,我们系统整理了支持智能体型 LLM 训练与评测的代表性任务、环境、框架与基准,并在文末讨论了开放挑战与面向可扩展、通用型智能体智能的未来研究方向。 总体而言,本文旨在进一步明确本综述的研究范围: 主要关注:

✔ 强化学习如何在动态环境中赋能基于 LLM 的智能体(或具备智能体特征的 LLM) 不在讨论范围之内(但可能偶有提及):

✗ 面向人类价值对齐的 RL(如用于有害请求拒绝的 RL); ✗ 非基于 LLM 的传统强化学习算法(如 MARL(Huh & Mohapatra, 2024)); ✗ 仅用于提升静态基准测试性能的 RL 方法。


文章结构

本文的组织结构旨在从概念基础逐步构建对 Agentic RL 的统一理解,并延伸至实际系统实现。第 2 节从 MDP/POMDP 视角形式化刻画向 Agentic RL 的范式转变;第 3 节从能力维度分析 Agentic RL,对规划、推理、工具使用、记忆、自我改进、感知等关键模块进行分类;第 4 节探讨其在搜索、GUI 操作、代码生成、数学推理与多智能体系统等领域的应用;第 5 节整合支撑实验与基准评测的开源环境与强化学习框架;第 6 节讨论开放挑战与未来研究方向;第 7 节对全文进行总结。整体结构如图 1 所示。

成为VIP会员查看完整内容
29

随着人工智能技术不断发展,我们理解和引导这些技术的框架也必须与时俱进。公共政策必须与创新保持同步,确保新兴技术服务于集体福祉而非狭隘利益。学术界必须持续产出批判性知识,以审视人工智能中蕴含的预设与权力结构。公民社会必须在技术治理中要求透明度、问责制与公正。而技术专家自身也必须反思其工作的伦理维度,认识到他们不仅是系统的工程师,更是未来的共同创造者。

成为VIP会员查看完整内容
27

自 2023 年 11 月以来,英国人工智能安全研究所(UK AI Security Institute,AISI)持续对前沿人工智能系统开展评测,覆盖国家安全与公共安全等关键领域。本报告首次公开呈现我们对所观察到趋势的系统性分析,旨在以可理解、数据驱动的方式揭示前沿 AI 能力的发展态势,并促进政府、产业界与公众之间形成共同认知。 在所有被测试的领域中,AI 能力正以极快速度提升。在部分方向上,性能大约每八个月翻一番,并迅速超越专家级基线水平。 见图 1。在网络安全(cyber)领域,AI 模型如今在平均 50% 的情况下能够完成学徒级任务,而在 2024 年初这一比例仅略高于 10%(图 10)。在 2025 年,我们首次测试到能够成功完成专家级任务的模型——这些任务通常需要人类从业者 10 年以上的经验才能完成。模型在无需人工辅助的情况下所能完成的网络任务长度(以人类专家所需时间衡量)大约每八个月翻一番(图 3)。在其他用于评估自主性技能的任务中,我们测试到的最先进系统已经能够自主完成通常需要人类专家 一小时以上的软件任务(图 2)。 在化学与生物领域,AI 模型在某些细分专业能力上已显著超越博士(PhD)级专家。它们在 2024 年首次达到我们针对开放式问题设定的专家基线,目前已高出该基线 最高达 60%(图 5)。模型在提供实时实验室支持方面的能力也在不断增强;我们在 2024 年末首次观察到能够生成、并被判定为准确的科学实验流程(protocol)的模型(图 7),且这些流程随后已被证明可以在湿实验室中实际实施。当前系统在湿实验故障排查支持方面的表现,也已比人类专家高出最多 90%(图 8)。 模型安全防护正在改进,但漏洞依然存在。

具备最强防护机制的模型,在某些恶意请求类别下需要更长时间、更高复杂度的攻击才能被“越狱”(jailbreak)。我们发现,两款相隔六个月发布的模型之间,在专家层面所需的越狱攻击投入存在 40 倍差异(图 13)。然而,不同模型之间防护效果差异明显——并且我们在所有测试过的系统中都发现了不同形式的漏洞。 部分可能使 AI 模型规避人类控制的能力正在提升。

理解这些能力对于确保日益自主化的系统始终可靠地服务于人类目标至关重要。我们测试了一些被视为“规避控制前置条件”的能力,包括自我复制以及策略性低性能表现(sandbagging,即模型在评测中刻意压低表现)。在自我复制评测中,成功率从 2023 年的 5% 提升至 2025 年的 60%(图 16)。我们还发现,在明确提示的情况下,模型有时能够进行策略性低性能表现。然而,目前尚未发现模型会自发尝试进行低性能隐藏或自我复制。 AI 更广泛的社会影响已初现端倪。

我们观察到,AI 在政治议题研究中的使用不断增加,同时其说服能力也在增强(图 18)。我们还注意到 AI 对用户情感层面的早期影响迹象:超过三分之一的英国公民曾使用 AI 进行情感支持或社会互动(图 21)。此外,我们的研究表明,AI 智能体正越来越多地被托付以高风险活动,例如资产转移(图 23)。 开源模型与闭源模型之间的性能差距在过去两年中显著缩小。

历史上,专有模型在性能上一直领先于开源模型(后者的代码、参数和训练数据通常可自由获取)。然而,根据外部数据,这一差距在过去两年持续收敛,目前已缩小至 约 4–8 个月(图 24、图 25)。 关键能力里程碑:

化学与生物:模型在开放式问题、实验流程生成以及实验室级故障排查等方面,已整体超越博士级专家。 * 网络安全:模型在 2025 年开始完成专家级任务(通常需要 10 年以上经验),相比之下,2023 年仅能完成学徒级任务(<1 年经验)。 * 自主性技能:模型如今能够以 超过 40% 的成功率完成耗时一小时以上的软件任务,而在 2023 年末该成功率仍低于 5%。

图 1. AISI 评测中前沿模型在关键能力领域的表现:阶梯线表示“截至当前的最佳模型”。 * 网络安全:从新手到网络安全专家四个难度等级上的任务表现,详见图 10。 * 自主性技能:覆盖三类风险导向的自主性任务表现,包括前置能力(危险能力上游技能)、简化 AI 研发(AI 显著加速 AI 自身发展)以及简化自我复制(AI 在算力环境中的自主复制)。关于自主性任务的更多说明见第 5 节。 * 化学与生物:在不同实验室应用场景下,模型在实验流程生成任务中相对于博士级专家的表现,详见图 7。各领域所展示的任务均为完整评测体系中的代表性子集。

图 1. AISI 评测中前沿模型在关键能力领域的表现:阶梯线表示截至当前表现最优的模型。 * 网络安全(Cyber):模型在网络任务上的表现,覆盖从新手到网络安全专家的四个难度等级。更多细节见图 10。 * 自主性技能(Autonomy skills):模型在三类风险相关自主性任务上的表现,包括: (1)前置能力(Precursors):位于潜在危险能力上游的基础技能; (2)简化的 AI 研发(Simplified AI R&D):AI 显著提升 AI 自身研发速度的能力; (3)简化的自我复制(Simplified self-replication):AI 在计算资源环境中的自主复制能力。 关于自主性任务的更多说明见第 5 节。 * 化学与生物(Chemistry & Biology):模型在不同实验室应用场景下执行化学与生物实验流程生成任务时,相对于博士(PhD)级专家的表现。更多细节见图 7。各领域所展示的任务均为完整评测任务集合中的代表性子集。

成为VIP会员查看完整内容
29

大型语言模型(Large Language Models,LLMs)通过实现从自然语言描述到可执行代码的直接转换,从根本上重塑了自动化软件开发范式,并推动了包括 GitHub Copilot(Microsoft)、Cursor(Anysphere)、Trae(字节跳动)以及 Claude Code(Anthropic)等工具的商业化落地。尽管该领域已从早期的基于规则的方法演进至以 Transformer 为核心的架构,但其性能提升依然十分显著:在 HumanEval 等基准测试上的成功率已从个位数提升至 95% 以上。 在本文中,我们围绕代码大模型(code LLMs)提供了一份全面的综合综述与实践指南,并通过一系列分析性与探测性实验,系统性地考察了模型从数据构建到后训练阶段的完整生命周期。具体而言,我们涵盖了数据整理、高级提示范式、代码预训练、监督微调、强化学习,以及自主编码智能体等关键环节。 我们系统分析了通用大语言模型(如 GPT-4、Claude、LLaMA)与代码专用大语言模型(如 StarCoder、Code LLaMA、DeepSeek-Coder 和 QwenCoder)的代码能力,并对其所采用的技术手段、设计决策及相应权衡进行了深入评估。 进一步地,本文明确指出了学术研究与实际部署之间的研究—实践鸿沟:一方面,学术研究通常聚焦于基准测试与标准化任务;另一方面,真实世界的软件开发场景则更加关注代码正确性、安全性、大规模代码库的上下文感知能力,以及与现有开发流程的深度集成。基于此,我们系统梳理了具有应用潜力的研究方向,并将其映射到实际工程需求之中。 最后,我们通过一系列实验,对代码预训练、监督微调与强化学习进行了全面分析,涵盖尺度定律(scaling law)、训练框架选择、超参数敏感性、模型结构设计以及数据集对比等多个关键维度。

1 引言

大型语言模型(Large Language Models,LLMs)[66, 67, 192, 424, 435, 750, 753, 755, 756] 的出现引发了自动化软件开发领域的范式转变,从根本上重塑了人类意图与可执行代码之间的关系 [1306]。现代 LLM 在多种代码相关任务中展现出卓越能力,包括代码补全 [98]、代码翻译 [1158]、代码修复 [619, 970] 以及代码生成 [139, 161]。这些模型有效地将多年积累的编程经验提炼为可遵循指令的通用工具,使不同技能水平的开发者都能够基于 GitHub、Stack Overflow 及其他代码相关网站中的数据进行使用和部署。 在众多 LLM 相关任务中,代码生成无疑是最具变革性的方向之一。它使自然语言描述能够直接转化为可运行的源代码,从而消解了领域知识与技术实现之间的传统壁垒。这一能力已不再局限于学术研究,而是通过一系列商业化与开源工具成为现实,包括:(1) GitHub Copilot(Microsoft)[321],在集成开发环境中提供智能代码补全;(2) Cursor(Anysphere)[68],一款支持对话式编程的 AI 原生代码编辑器;(3) CodeGeeX(智谱 AI)[24],支持多语言代码生成;(4) CodeWhisperer(Amazon)[50],与 AWS 服务深度集成;以及 (5) Claude Code(Anthropic)[194] / Gemini CLI(Google)[335],二者均为命令行工具,允许开发者直接在终端中将编码任务委托给 Claude 或 Gemini [67, 955],以支持智能体化(agentic)的编码工作流。这些应用正在重塑软件开发流程,挑战关于编程生产力的传统认知,并重新界定人类创造力与机器辅助之间的边界。 如图 1 所示,代码生成技术的演进轨迹揭示了一条清晰的技术成熟与范式变迁路径。早期方法受限于启发式规则和基于概率文法的框架 [42, 203, 451],在本质上较为脆弱,仅适用于狭窄领域,且难以泛化到多样化的编程场景。Transformer 架构的出现 [291, 361] 并非简单的性能提升,而是对问题空间的根本性重构:通过注意力机制 [997] 与大规模训练,这类模型能够捕获自然语言意图与代码结构之间的复杂关联。更为引人注目的是,这些模型展现出了涌现式的指令遵循能力,这一能力并非显式编程或直接优化的目标,而更像是规模化学习丰富表征的自然结果。这种通过自然语言使非专业用户也能生成复杂程序的“编程民主化”趋势 [138, 864],对 21 世纪的劳动力结构、创新速度以及计算素养的本质产生了深远影响 [223, 904]。 当前代码 LLM 的研究与应用格局呈现出一种通用模型与专用模型并行发展的双轨结构,二者各具优势与权衡。通用大模型,如 GPT 系列 [747, 750, 753]、Claude 系列 [66, 67, 192] 以及 LLaMA 系列 [690, 691, 979, 980],依托包含自然语言与代码在内的超大规模语料,具备对上下文、意图及领域知识的深度理解能力。相较之下,代码专用大模型(如 StarCoder [563]、Code LLaMA [859]、DeepSeek-Coder [232]、CodeGemma [1295] 和 QwenCoder [435, 825])则通过在编程导向数据上的聚焦式预训练与任务特定的架构优化,在代码基准测试中取得了更优性能。诸如 HumanEval [161] 等标准化基准上从个位数到 95% 以上成功率的跃迁,既体现了算法层面的创新,也反映了对代码与自然语言在组合语义与上下文依赖方面共性的更深刻理解。 尽管相关研究与商业应用发展迅速,现有文献中仍然存在创新广度与系统性分析深度之间的显著鸿沟。现有综述多采取全景式视角,对代码相关任务进行宽泛分类,或聚焦于早期模型阶段,未能对最新进展形成系统整合。尤其值得注意的是,最先进系统所采用的数据构建与筛选策略仍缺乏深入探讨——这些策略在数据规模与数据质量之间进行权衡,并通过指令微调方法使模型行为与开发者意图对齐。相关对齐技术包括引入人类反馈以优化输出、高级提示范式(如思维链推理与小样本学习)、具备多步问题分解能力的自主编码智能体、基于检索增强生成(Retrieval-Augmented Generation, RAG)的事实约束方法,以及超越简单二值正确性、从代码质量、效率与可维护性角度进行评估的新型评价框架。 如图 2 所示,Kimi-K2 [957]、GLM-4.5/4.6 [25, 1248]、Qwen3Coder [825]、Kimi-Dev [1204]、Claude [67]、DeepSeek-V3.2-Exp [234] 以及 GPT-5 [753] 等最新模型集中体现了上述创新方向,但其研究成果分散于不同文献之中,尚缺乏统一、系统的整合。表 1 对多篇与代码智能或 LLM 相关的综述工作进行了比较,从八个维度进行评估:研究领域、是否聚焦代码、是否使用 LLM、是否涉及预训练、监督微调(SFT)、强化学习(RL)、代码 LLM 的训练配方,以及应用场景。这些综述覆盖了通用代码生成、生成式 AI 驱动的软件工程、代码摘要以及基于 LLM 的智能体等多个方向。尽管多数工作关注代码与应用层面,但在技术细节覆盖上差异显著,尤其是强化学习方法在现有综述中鲜有系统讨论。 为此,本文对面向代码智能的大语言模型研究进行了全面而前沿的系统综述,对模型的完整生命周期展开分析,涵盖从初始数据构建、指令调优到高级代码应用与自主编码智能体开发等关键阶段。 为了从代码基础模型出发,系统性地覆盖智能体与应用层面,本文进一步提供了一份贯通理论基础与工程实现的详细实践指南(见表 1)。本文的主要贡献包括: 1. 提出统一的代码 LLM 分类体系,系统梳理其从早期 Transformer 模型到具备涌现式推理能力的指令调优模型的发展脉络; 1. 系统分析从数据构建与预处理、预训练目标与架构创新,到监督指令微调与强化学习等高级微调方法的完整技术流水线; 1. 深入探讨定义当前最优性能的前沿范式,包括提示工程技术(如思维链推理 [1174])、检索增强生成方法,以及能够执行复杂多步问题求解的自主编码智能体; 1. 批判性评估现有基准与评测方法,讨论其优势与局限,并重点分析从功能正确性扩展到代码质量、可维护性与效率评估所面临的挑战; 1. 综合分析最新突破性模型(如 GPT-5、Claude 4.5 等),提炼新兴趋势与开放问题,为下一代代码生成系统的发展提供方向; 1. 通过大规模实验,从尺度定律、训练框架、超参数、模型架构与数据集等多个维度,对代码预训练、监督微调与强化学习进行系统性分析。

成为VIP会员查看完整内容
25

https://karpathy.bearblog.dev/year-in-review-2025/

2025 年是大语言模型(LLM)进步显著、同时也颇多事件的一年。下面列出一些我个人认为重要、且略带惊喜的“范式变化”(paradigm changes)——它们在概念层面改变了格局,让我印象深刻。

1. 可验证奖励强化学习(Reinforcement Learning from Verifiable Rewards, RLVR)

在 2025 年初,几乎所有实验室的 LLM 量产技术栈大致长这样: * 预训练(Pretraining,类似 2020 年的 GPT-2/3) * 监督微调(Supervised Finetuning,SFT,类似 2022 年的 InstructGPT) * 基于人类反馈的强化学习(Reinforcement Learning from Human Feedback,RLHF,约 2022)

这套配方稳定、有效,并在一段时间内被反复验证能训练出可用于生产的高质量 LLM。到了 2025 年,可验证奖励强化学习(RLVR)成为事实上的新主阶段,被加入到这条流水线里。其核心是:让 LLM 在多个环境中针对可自动验证的奖励信号进行训练(比如数学/代码类谜题),于是模型会自发涌现出一些在人类看来像“推理”的策略——学会把问题拆分成若干中间计算步骤,也学会一系列来回试探、反复校验的解题策略(可参考 DeepSeek R1 论文里的例子)。在此前的范式里,要得到这些策略非常困难,因为我们并不清楚对 LLM 来说“最优的推理轨迹与恢复路径”应是什么样;它必须通过对奖励信号的优化,自己摸索出对它有效的方式。 与 SFT 和 RLHF(两者都相对“薄”、训练时长短、计算上更像小幅微调)不同,RLVR 针对的是客观(且不可被投机取巧)的奖励函数,这使得优化可以持续更久。实践结果是:跑 RLVR 的能力/成本比(capability/$)很高,于是它吞掉了原本计划给预训练的算力。因此,2025 年的大部分能力进展,更多来自于各家实验室消化这套新阶段带来的“算力堆叠空间”:我们看到的往往不是“模型体量显著变大”,而是“RL 跑得更久”。另外,这个新阶段还带来了一个全新的旋钮(以及相应的缩放规律):通过生成更长的推理轨迹、增加“思考时间”,在测试时算力维度上直接调控能力。OpenAI o1(2024 年末)是 RLVR 模型的最早展示,但到了 o3(2025 年初)发布时,你能明显感到那是一个拐点——直觉上就能体会差异。

2. 幽灵 vs. 动物 / 锯齿状智能(Jagged Intelligence)

2025 年,我(也包括我认为行业里的很多人)第一次更直观地内化了 LLM 智能的“形状”。我们不是在“进化/培育动物”,我们是在“召唤幽灵”。LLM 的整个技术栈都与人类完全不同(神经架构、训练数据、训练算法,尤其是优化压力),所以我们得到的是智能空间中非常不同的实体,用“动物”视角去理解它们并不合适。从监督信息量(bits)角度看,人类神经网络是为丛林里部落生存而优化;LLM 的神经网络则是为模仿人类文本、在数学谜题里拿奖励、在 LM Arena 上赢得人类点赞而优化。随着可验证领域支持 RLVR,LLM 的能力会在这些领域附近“尖刺式”暴涨,并呈现出非常有趣的锯齿状性能特征:它可以同时是天才的博学者、又像困惑且认知受限的小学生;上一秒还在高维推理,下一秒就可能被越狱提示诱骗而把你的数据外泄。

(图:人类智能:蓝色,AI 智能:红色。我喜欢这个梗图版本(抱歉我找不到 X 上原帖引用了),因为它指出人类智能本身也有另一种“锯齿”。) 与此相关的是:2025 年我对基准测试(benchmarks)普遍变得冷淡,甚至不太信任。核心原因在于:基准测试几乎天然就是可验证环境,因此会立刻受到 RLVR 及其更弱形式(例如合成数据生成训练)的影响。在常见的“刷榜(benchmaxxing)”流程里,LLM 实验室团队不可避免地会围绕基准在嵌入空间里占据的小区域,构造邻近环境,长出一圈圈锯齿去覆盖它们。在测试集上训练,正在成为一种新艺术。 那么问题来了:把所有基准都碾压了,但仍然没有得到 AGI,会是什么样? 关于这一节,我写了更多内容(略): * Animals vs. Ghosts * Verifiability * The Space of Minds

3. Cursor / LLM 应用的新一层

Cursor 最值得我注意的(除了它今年的爆炸式增长之外)是:它令人信服地揭示了“LLM 应用”的一层新形态——人们开始谈论“Cursor for X”。正如我在今年 Y Combinator 演讲(含文字稿和视频)中强调的,像 Cursor 这样的 LLM 应用,会为某个垂直领域打包并编排 LLM 调用: * 做“上下文工程(context engineering)” * 在后台编排多次 LLM 调用,把它们串成越来越复杂的 DAG,同时精心平衡性能与成本 * 为“人在回路(human in the loop)”提供特定领域的 GUI * 提供“自主性滑杆(autonomy slider)”

2025 年围绕这层新应用层“有多厚”产生了大量讨论:LLM 实验室会吃掉所有应用,还是 LLM 应用仍有广阔空间?我个人倾向于:LLM 实验室会把通用能力推到“总体上能胜任的大学生”水平;而 LLM 应用会通过组织、微调,真正把一群这样的“大学生”编成垂直行业里的“在岗专业团队”——为它们接入私有数据、传感器与执行器(actuators),并建立反馈回路,让它们落地部署、持续迭代。

4. Claude Code / “住在你电脑上”的 AI

Claude Code(CC)是我见到的第一个真正令人信服的 LLM 智能体形态演示:它以一种“循环”的方式,把工具使用与推理串起来,完成延展性的复杂问题求解。除此之外,CC 还特别在于它运行在你的电脑上,使用你的私有环境、数据与上下文。我觉得 OpenAI 在这里的早期路线选错了:他们把 codex/智能体的早期尝试重点放在云端容器里,由 ChatGPT 编排,而不是直接面向 localhost。尽管“云端跑智能体集群”很像 AGI 终局,但在我们所处的这个能力锯齿且起飞不够快的中间阶段,更合理的是让智能体直接跑在开发者的电脑上。注意,关键区别并不在于 AI ops 跑在云端还是本地,而在于“其余的一切”:已经启动并配置好的电脑、安装环境、上下文、数据、密钥、配置,以及低延迟交互。Anthropic 把优先级顺序搞对了,并把 CC 打包成一个令人愉悦、极简的 CLI 形态,从而改变了 AI 的样子:它不只是一个像 Google 一样你去访问的网站,而是一个“住在你电脑上”的小精灵/幽灵。这是一种新的、独特的人机交互范式。

5. 氛围编程(Vibe coding)

2025 年是 AI 跨过一个关键能力阈值的年份:只用英文就能构建各种令人印象深刻的程序,甚至可以暂时“忘记代码本身存在”。有趣的是,我在那条随手的“淋浴思考”推文里造出了“vibe coding”这个词,完全没意识到它会传播得这么远。氛围编程让编程不再只属于受过严格训练的专业人士,而是任何人都能做的事。从这个意义上说,这又一次印证了我在《Power to the people: How LLMs flip the script on technology diffusion》里写过的观点:与以往几乎所有技术扩散路径形成鲜明对比,LLM 反而让普通人相对专业人士、公司与政府获益更多。 但氛围编程不仅赋能普通人接近编程,也赋能受过训练的专业人士写出大量本来永远不会被写出来的软件。在 nanochat 里,我用氛围编程在 Rust 中写了一个自定义、极高效的 BPE tokenizer,而不用采纳既有库或把 Rust 学到那种程度。今年我氛围编程做了很多项目,把“我希望存在的东西”迅速做成 demo(例如 menugen、llm-council、reader3、HN time capsule)。我甚至为了找一个 bug 临时氛围编程写过完整的一次性应用——反正为什么不呢?代码突然变得免费、短命、可塑、可丢弃,用一次就扔也无所谓。氛围编程会重塑软件生态,并改变岗位描述。

6. Nano banana / LLM 的 GUI

Google Gemini Nano banana 是 2025 年最不可思议、最具范式转移意义的模型之一。在我的世界观里,LLM 是下一代重大计算范式,类似 1970/80 年代的计算机革命。因此,我们将出于本质相同的原因看到类似类型的创新:个人计算的对应物、微控制器(认知内核)的对应物、以及“智能体互联网”的对应物等等。尤其是在 UI/UX 上,“和 LLM 聊天”有点像 80 年代对着计算机控制台下命令。文本是计算机(以及 LLM)偏好的原始数据表示,但它并不是人类偏好的格式,尤其在输入侧。人们其实不喜欢读长文本——慢且费力。相反,人们更喜欢以视觉与空间方式消费信息,这正是传统计算发明 GUI 的原因。类似地,LLM 也应该用人类偏好的方式和我们交流——图像、信息图、幻灯片、白板、动画/视频、Web 应用等。早期版本当然是 emoji 和 Markdown:用标题、加粗、斜体、列表、表格等让文本更“可视化”。但真正的 “LLM GUI” 会由谁来构建?在这个视角下,nano banana 是一个早期信号,提示这条路可能长什么样。并且关键不只是图像生成本身,而是文本生成、图像生成与世界知识在同一套权重里纠缠交织而来的联合能力。


TL;DR:2025 是 LLM 令人兴奋、也略带意外的一年。LLM 正在成为一种新的智能形态:同时比我预期的聪明得多,也比我预期的愚笨得多。无论如何,它们极其有用,而我认为行业至今连其潜力的 10% 都没发挥出来。与此同时,值得尝试的点子太多了,概念上这个领域仍然像一片广阔的开放空间。正如我今年早些时候在 Dwarkesh 播客里提到的,我同时(表面上看似矛盾地)相信:我们会看到快速且持续的进展,但也仍有大量工作要做。系好安全带。

成为VIP会员查看完整内容
28
登陆后查看更多精品内容
VIP会员
本周荟萃主题
区块链
区块链(Blockchain)是由节点参与的分布式数据库系统,它的特点是不可更改,不可伪造,也可以将其理解为账簿系统(ledger)。它是比特币的一个重要概念,完整比特币区块链的副本,记录了其代币(token)的每一笔交易。通过这些信息,我们可以找到每一个地址,在历史上任何一点所拥有的价值。
深度学习
机器学习的一个分支,它基于试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的一系列算法。
机器学习
“机器学习是近20多年兴起的一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。机器学习理论主要是设计和分析一些让 可以自动“ 学习”的算法。机器学习算法是一类从数据中自动分析获得规律,并利用规律对未知数据进行预测的算法。因为学习算法中涉及了大量的统计学理论,机器学习与统计推断学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。很多 推论问题属于 无程序可循难度,所以部分的机器学习研究是开发容易处理的近似算法。”

——中文维基百科
强化学习
强化学习(RL)是机器学习的一个领域,与软件代理应如何在环境中采取行动以最大化累积奖励的概念有关。除了监督学习和非监督学习外,强化学习是三种基本的机器学习范式之一。 强化学习与监督学习的不同之处在于,不需要呈现带标签的输入/输出对,也不需要显式纠正次优动作。相反,重点是在探索(未知领域)和利用(当前知识)之间找到平衡。 该环境通常以马尔可夫决策过程(MDP)的形式陈述,因为针对这种情况的许多强化学习算法都使用动态编程技术。经典动态规划方法和强化学习算法之间的主要区别在于,后者不假设MDP的确切数学模型,并且针对无法采用精确方法的大型MDP。
推荐系统
推荐系统,是指根据用户的习惯、偏好或兴趣,从不断到来的大规模信息中识别满足用户兴趣的信息的过程。推荐推荐任务中的信息往往称为物品(Item)。根据具体应用背景的不同,这些物品可以是新闻、电影、音乐、广告、商品等各种对象。推荐系统利用电子商务网站向客户提供商品信息和建议,帮助用户决定应该购买什么产品,模拟销售人员帮助客户完成购买过程。个性化推荐是根据用户的兴趣特点和购买行为,向用户推荐用户感兴趣的信息和商品。随着电子商务规模的不断扩大,商品个数和种类快速增长,顾客需要花费大量的时间才能找到自己想买的商品。这种浏览大量无关的信息和产品过程无疑会使淹没在信息过载问题中的消费者不断流失。为了解决这些问题,个性化推荐系统应运而生。个性化推荐系统是建立在海量数据挖掘基础上的一种高级商务智能平台,以帮助电子商务网站为其顾客购物提供完全个性化的决策支持和信息服务。
卷积神经网络
在深度学习中,卷积神经网络(CNN或ConvNet)是一类深度神经网络,最常用于分析视觉图像。基于它们的共享权重架构和平移不变性特征,它们也被称为位移不变或空间不变的人工神经网络(SIANN)。它们在图像和视频识别,推荐系统,图像分类,医学图像分析,自然语言处理,和财务时间序列中都有应用。
计算机网络
计算机网络( Computer Networks )指将地理位置不同的多台计算机及其外部设备,通过通信线路连接起来,在网络操作系统及网络通信协议的管理和协调下,实现资源共享和信息传递的计算机系统。
命名实体识别
命名实体识别(NER)(也称为实体标识,实体组块和实体提取)是信息抽取的子任务,旨在将非结构化文本中提到的命名实体定位和分类为预定义类别,例如人员姓名、地名、机构名、专有名词等。
机器翻译
机器翻译,又称为自动翻译,是利用计算机将一种自然语言(源语言)转换为另一种自然语言(目标语言)的过程。它是计算语言学的一个分支,是人工智能的终极目标之一,具有重要的科学研究价值。
计算机视觉
计算机视觉是一门研究如何使机器“看”的科学,更进一步的说,就是是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉,并进一步做图形处理,使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科,计算机视觉研究相关的理论和技术,试图建立能够从图像或者多维数据中获取‘信息’的人工智能系统。
微信扫码咨询专知VIP会员