本指南提供关于将生成式人工智能(Gen AI)工具融入学术环境的思路与案例研究。随着基于Transformer的机器学习模型兴起,AI应用已从计算机科学家的专属领域扩展至普通职场人群。OpenAI的ChatGPT系列、Google的Gemini等商用模型使学生、从业者及各级领导者得以利用新能力提升效率。

本指南旨在汇集多元视角,探索如何将Gen AI能力融入学习环境,并提炼最佳实践方案。非技术背景的教师可通过实用案例了解应用方法。这些案例虽具广泛适用性,但更应作为教育者探索传统课堂与在线继续教育等场景的起点。

指南价值
本研究探索Gen AI优化教学方法、提升学生参与度与简化教育内容创作的潜力。指南涵盖通用与应用场景的用例、课堂实施工具提示,同时提出伦理使用建议与规避偏见的方法,包括警示模型可能产生"幻觉"(即自信地陈述错误信息)的风险,以及如何避免从安全网络向云端模型传输敏感数据。

应用潜力
随着Gen AI工具发展与普及,我们发现了提升师生教育体验的机遇。研究表明,Gen AI可加速课程与练习生成,通过主动学习推动学生跃升至布鲁姆分类法更高层级,甚至逆向工程化课程——从现有内容提取学习成果。此外,该技术助力概念生成与构思,优化课程审查,并在编程开发、数据分析等技术任务中发挥作用。

学生赋能
除辅助开发教育产品外,允许学生在课堂使用Gen AI工具同样有益,助其理解此类模型的优势、风险与局限。我们通过设计引导式课堂讨论(学生与模型互动)及创建学习指南、讨论问题等教学活动,探索实践路径。

未来展望
AI工具将持续融入人类社会。尽管其能力不断演进,教育者始终需善用新工具提升教学成效,并培养学生对日常观察与互动的批判性思维。

关键发现

  1. 以教学法为导向的整合:当教师将Gen AI用于支持高阶学习目标(分析、综合、评估而非简单记忆)时,其潜力最大化。要求学生分析AI输出、质疑假设、优化解题策略的结构化活动,可深化批判性思维并与布鲁姆分类法等教学框架契合。

  2. 构建学生与AI的积极互动:鼓励学生将AI作为辅助工具而非主要解决方案至关重要。例如对比AI生成方案与自主成果的活动,能增进对Gen AI能力边界认知,强化评估、解读与改进AI结果的能力。

  3. 复杂场景的实践应用:Gen AI为军事与国防领域现实场景的复杂问题解决提供支持。例如基于模型的系统工程、战术模拟等案例,使学生通过实践迭代应用AI,培养负责任使用AI的信心及高风险管理场景的可迁移技能。

  4. 伦理考量与数据完整性:负责任整合Gen AI需关注数据完整性、安全与伦理使用。教师应明确教导学生规避数据泄露、维护学术诚信,并通过结构化课程阐明Gen AI对信息安全与隐私的广泛影响。

  5. 自适应学习与教师效率提升:Gen AI通过自动化教案制定、内容适配与形成性评估等常规任务提升教学效率,使教师能将更多时间投入以学生为中心的互动,提升整体教学质量。

  6. 面向技术驱动国防未来的准备:Gen AI工具整合培养学生对技术的务实适应思维,这对国防需求演变至关重要。结构化学习环境中的AI熟悉度,助力学生驾驭技术驱动决策场景并高效参与国防事务。

最佳实践
融入批判性分析训练:布置学生批判与优化AI输出的任务,培养分析能力与工具使用判断力。
引导伦理使用:制定AI使用伦理准则,鼓励学生披露AI辅助、识别局限并维护数据隐私。
定位AI为辅助工具:强调AI是学习任务的增效器而非替代品,聚焦其促进深度学习的作用。
构建以学生为中心的学习:设计利用Gen AI支持高阶认知任务(决策、现实问题解决、自适应学习)的作业。
推广适应性教学实践:利用Gen AI简化教案制定与评估开发,使教师专注指导学生自主探究。

成为VIP会员查看完整内容
54

决策不仅是生活的一部分,更是其本质所在。这些关键选择深刻影响着个人与职业领域。日常生活中的每个抉择——从饮食选择到职业规划乃至重大投资——不仅作用于个体,更对家庭、社区乃至社会产生涟漪效应。决策的重要性促使心理学、管理学、经济学、社会学等学科持续探索其内在机制与影响因素,旨在优化各类场景下的决策流程与结果。低效决策往往代价高昂,导致机会错失、资源浪费与经济损失,对个人、组织与社会产生负面影响。信息过载、认知偏差、时间压力与情境因素加剧了优化决策的紧迫性。

人工智能技术的进步为决策优化开辟新路径。AI系统能处理海量数据、识别潜在模式、提供实时洞见并生成决策建议,赋能人类做出更明智选择。尽管AI在决策领域展现巨大潜力,但基于责任归属与伦理法律考量,完全自动化并非终极目标。人本视角倡导构建人机协作关系:AI作为人类能力的延伸,协助决策者完成数据收集分析、方案生成、情景推演与结果评估。现有研究已探索多领域人机协同决策机制,例如开发可解释AI系统增强决策透明度,设计多样化交互界面促进人机信息互通,确保决策者有效理解与整合AI输出。

在人机协作决策过程中,个体特征、决策情境、AI系统能力及其交互方式共同塑造协作成效。理解这些要素并将其融入AI系统设计与部署,是提升协同效能的关键。随着AI系统持续适应多样化场景,决策环境日益复杂动态化,个体行为模式将发生持续演变。这些演进中的AI系统不仅改变决策者的认知方式与策略制定,更深度影响着决定决策结果的基础要素。因此,需持续优化决策环境中的AI系统设计与实施,并评估其对人类行为与决策产出的影响。

尽管AI系统在多领域展现卓越能力,但鲜有完美解决方案。将AI引入决策流程常导致团队整体效能低于独立运作的人或AI系统。这种差距凸显出理解人机协同局限性的必要性,以及制定风险缓释策略的迫切需求。当前研究多聚焦个体与AI系统的二元关系,忽视决策发生的宏观情境。因此,亟需深入理解不同情境下AI系统的差异化影响,实现跨领域研究发现的迁移应用,并为特定决策场景提供定制化解决方案。本论文通过第二至第五章的实证研究,揭示不同情境下人机决策的动态机制,探究环境变量对人类行为的影响路径。第六、七章提出两种基于在线数据的信息整合方法,旨在增强决策支持效能。

本论文旨在揭示任务相关情境因素(图1.1 B)及其在人机协作决策中对决策结果的影响机制。任务通常指特定情境下需通过决策流程完成的活动或问题,其相关要素包含决策复杂度、不确定性、信息可及性与质量、风险等级及时间压力等属性。通过解析任务属性B、决策结果ABC、个体/群体行为A与AI系统AC之间的交互关系,本研究深化了对人机决策研究范式的理解,为设计符合决策者需求的AI系统提供理论支撑,从而优化决策流程与结果。需说明,宏观情境因素、AI系统属性或决策者个体特征不在本研究范畴内。

本研究聚焦跨领域非专家决策者群体。此类人群因专业领域知识受限,常面临决策困境:认知偏差、信息获取渠道受限与决策支持工具匮乏进一步制约决策效能。即便信息充足,"选择悖论"[365]仍可能导致决策质量下降——例如缺乏金融知识的投资者在股市中易受网络论坛偏见信息影响,忽视自身目标而盲从他人建议。分析能力不足与高级决策工具缺失加剧次优决策风险。值得注意的是,个体可能在某一领域具备专长,但在其他领域仍属非专家,凸显开发适配多技能水平决策支持系统的必要性。

既有实证研究对多样化决策情境的差异化定义,导致学界对AI系统跨领域效能的认知呈现碎片化。为此,本论文首先提出系统性评估与对比决策任务的理论框架,该框架整合决策情境复杂度分级体系。基于此框架,论文通过文献综述剖析现有研究的优势、局限与改进空间,并开展多维度实证研究验证理论假设。这些研究评估任务相关情境因素对个体行为与绩效的影响机制,通过采集决策支持系统交互数据(信息获取路径、任务时间分配、决策模式等),解析个体决策逻辑。分析结果表明,开发定制化决策支持工具对提升跨领域非专家决策质量具有迫切需求。论文同时提出模块化实证研究框架,增强现实决策场景下研究结论的可推广性与可复现性。

研究进一步提出优化信息获取与交互行为的方法。获取相关信息是决策准备的关键步骤,对常面临信息过载、数据获取受限或时间压力的非专家群体尤为重要。上述因素可能诱发认知偏差,进而损害决策质量。因此,理解个体信息检索、处理与应用模式,对开发实用工具管理认知偏差至关重要。本研究提出增强信息可及性的创新方法,包括提供定制化推荐与设计高效检索界面。通过行为实验与数据采集,对比验证新方法与传统模式的效能差异,揭示工具设计与应用优化的潜在路径。

成为VIP会员查看完整内容
50

今天分享的报告是《2025年人工智能技术发展与应用探索报告》,版权归中国科学院自动化研究所(王磊)所有

成为VIP会员查看完整内容
46

像 DeepSeek-R1 这样的“大型推理模型”(Large Reasoning Models)标志着大语言模型(LLMs)在处理复杂问题方式上的根本性转变。与直接对输入生成答案的方法不同,DeepSeek-R1 会构建详细的多步推理链条,在给出答案之前仿佛会“思考”问题的全过程。这一推理过程对用户是公开可见的,为研究模型的推理行为提供了无限可能,并开启了“思维学”(Thoughtology)这一新兴研究领域。

我们从 DeepSeek-R1 推理构建块的基本分类体系出发,深入分析了其推理长度的影响及可控性、对冗长或混乱上下文的处理方式、文化和安全相关问题,以及 DeepSeek-R1 在类人语言处理与世界建模等认知现象中的定位。我们的研究结果描绘了一幅细致入微的图景。值得注意的是,我们发现 DeepSeek-R1 存在一个推理“最佳区间”(sweet spot),当推理时间过长时,模型性能反而可能受到影响。此外,我们还观察到 DeepSeek-R1 有反复沉湎于既有问题表述的倾向,从而阻碍进一步探索。 我们还指出,相较于其非推理版本,DeepSeek-R1 存在较严重的安全性脆弱性,这种脆弱性甚至可能对安全对齐(safety-aligned)的 LLMs 造成负面影响。

最近在构建大语言模型(LLMs)方面的进展,使研究重点转向了开发具备复杂多步推理能力的模型(DeepSeek-AI 等,2025a;OpenAI,2024)。虽然早期工作主要通过“思维链提示”(chain-of-thought prompting, CoT)来引导模型进行推理(Wei 等,2022;Zhou 等,2023),但我们目前正目睹一个根本性的转变:推理能力被直接内嵌于模型中,使其在生成答案前先进行推理。我们将这类模型称为大型推理模型(Large Reasoning Models, LRMs),并将其推理链称为“thoughts”。

LRMs 逐步生成 thoughts,可用于积累解题进度、自我验证,或探索备选方案,直到模型对最终答案有充分信心为止。图 1.1 展示了 LLM 与 LRM 输出结果的对比。尽管 LLM 的输出中可能包含部分中间推理步骤,但通常缺乏探索能力。此外,一旦出错,LLM 往往无法回溯并尝试其他方法。而 LRM 则通过多方案探索与验证进行推理,并最终总结最佳解法。

LRMs 的进展主要得益于强化学习:模型会对能产生正确答案的推理过程给予奖励(DeepSeek-AI 等,2025a;Kazemnejad 等,2024;Kumar 等,2024;Lambert,2024;OpenAI,2024;Shao 等,2024)。这类模型在测试时也可以利用其生成长推理链的能力,这一过程称为推理时扩展(inference-time scaling)测试时扩展(test-time scaling):通过强制模型“多思考”以期获得更优解(Muennighoff 等,2025;Snell 等,2025)。在这一系列进展的推动下,LRMs 在复杂推理任务中(如数学解题、代码生成)表现出显著提升。

OpenAI 的 o1 模型(OpenAI,2024)首次展示了 LRM 的巨大潜力,但其推理链及训练方法并未公开,从而限制了学界对其推理行为的深入研究,也引发了对其训练流程的广泛猜测(Rush 与 Ritter,2025)。因此,DeepSeek-R1 的推出产生了重大影响:作为一款性能堪比 o1 的高能力 LRM,且在计算效率上更具优势。

DeepSeek-R1 的突出之处体现在以下几个方面: 1. 它是首个对输入提供完整 thought 访问权限的高性能 LRM; 1. 它的训练流程、模型代码和参数权重均已开源(但训练数据未公开); 1. 其前期版本 R1-Zero 表明,通过强化学习即可获得复杂多步推理、自我验证以及看似“灵光乍现”(aha moments)式的洞察能力,而无需通过监督学习显式教授。

DeepSeek-R1 提供的 thought 透明访问使我们得以系统性地研究其推理行为,我们将这一研究领域称为思维学(Thoughtology)。在思维学的框架下,我们分析了 DeepSeek-R1 推理链中的常见模式、推理长度的影响与可控性、冗长或混乱上下文对其推理过程的影响、其在安全性和文化价值观方面的倾向,以及其与人类语言处理与世界建模之间的相似性。图 1 展示了我们的研究概览,为理解 DeepSeek-R1 的能力边界提供了第一步探索,并为未来的推理改进研究提供了方向。


我们的主要发现包括:

推理结构一致性:DeepSeek-R1 的 thoughts 遵循一致的结构。模型会先明确问题目标,再将问题拆解为中间解,并在此基础上进行多轮再探索或再验证,尽管这些再验证往往缺乏多样性。 * 推理长度非线性影响性能:推理长度的持续增加并不一定提升性能。每类问题存在一个“最佳推理区间(sweet spot)”,超过该范围后准确率会显著下降。且 DeepSeek-R1 无法自主调控其推理长度。 * 上下文与参数知识冲突:当上下文信息与模型参数知识冲突时,DeepSeek-R1 倾向优先采信上下文信息。但当输入或推理链过长时,其表现会变得不稳定,输出混乱、语义失真。 * 安全性脆弱性:与非推理版本 DeepSeek-V3(DeepSeek-AI 等,2025b)相比,DeepSeek-R1 更容易生成有害内容,且更擅长执行“越狱攻击”,从而引发其他 LLM 输出不当信息。 * 文化与语言差异:面对道德或文化类问题时,DeepSeek-R1 在英文提示下的推理时间显著长于中文提示,且会根据语言提供不同文化价值取向的回答。 * 类人语言处理偏差:对于人类感知复杂的语句,DeepSeek-R1 会生成更长的推理链,但对简单语句也常表现出不符合人类逻辑的异常行为。 * 世界建模能力不足:在处理涉及视觉与物理推理的任务中,虽然能识别子组件,但难以整合信息或进行草图迭代,依赖符号与数学推理而非直觉性认知过程。


文章结构概览:

我们将本研究分为五大部分: 模型推理链的结构与模式; 推理长度的影响与控制; 高复杂度上下文下的模型行为; 安全性与文化适应性问题; 推理过程与人类认知现象的对比。

在第 2 节中,我们简要回顾了 LRMs 的发展背景与 DeepSeek-R1 的设计理念;第 3 节详细分析了其推理模式,发现其思维链常由问题定义、问题拆解与反复重建三个阶段组成,并且频繁的重建过程(我们称之为反刍(rumination))是其长推理链的主要来源。 第 4 节探讨了推理长度对数学推理任务的影响,并指出存在一个问题相关的最优推理区间。我们也研究了推理长度与性能之间的权衡,发现 DeepSeek-R1 存在效率瓶颈,设置 token 限额可以在几乎不影响性能的前提下大幅降低计算成本。第 11 节进一步评估了 DeepSeek-R1 遵循提示中 token 限额的能力,并通过概念验证实验探讨了基于 token 限额设定奖励的训练方法。 第 5 和第 6 节将 DeepSeek-R1 投入更真实的上下文任务中,分析其处理大段输入与冗长推理链的能力,以及其如何应对与参数知识冲突的误导性输入。 第 7 节和第 8 节聚焦于安全性与文化行为,发现 DeepSeek-R1 在输出有害信息与执行越狱攻击方面的能力远超 V3,并在多语言提示下展现出不同文化偏好。 第 9 和第 10 节分析了 DeepSeek-R1 与人类认知之间的相似性与偏差。尽管其推理链长度与语句复杂度呈现类人对应关系,但其内部结构暴露出循环与非人类逻辑的特征。在视觉与物理推理任务中,DeepSeek-R1 偏向使用符号推理,缺乏直观与迭代过程。

成为VIP会员查看完整内容
46

这本书的一个关键结构特点是其模块化的组织方式,旨在提供灵活性,以便根据课程内容的变化进行调整和修改。具体来说,全书分为两个部分: (1)基础平台:包括第1章。该章节对近似动态规划(DP)/强化学习(RL)领域进行了有选择性的概述,为课堂中其他RL主题的更深入讲解提供了起点,而这些主题的选择可以由授课教师灵活决定。 (2)深入探讨部分:包括第2章和第3章,主要聚焦于具体方法的详细介绍。第2章主要讲解确定性与随机性 rollout 技术,以及一些相关的价值函数近似方法;第3章则讨论了在离线训练中使用神经网络及其他近似结构的技术。 这种模块化结构允许教师根据课程重点进行个性化定制。例如,教师可以利用第1章的基础平台来构建更偏数学理论或更偏实用导向的课程,以满足不同学生的需求。 此外,还需指出的是,本书所包含的内容超出了一个学期课堂教学所能覆盖的范围,这为授课教师在教学内容选择上提供了更多灵活性。

成为VIP会员查看完整内容
42

无人机(UAV)在社会中的角色日益重要。民用市场规模预计将从2022年的72亿美元增长至2031年的192亿美元,应用涵盖农业、灾害响应到物流配送。军事领域同样广泛使用——从越战时期美军首次将无人机作为武器,到现代侦察技术进步后的敌区勘察任务。根据任务地形与特性,无人地面车辆(UGV)或无人潜航器(UUV)亦可替代空中系统。当前乌克兰与加沙冲突凸显混合战争的重要性,此类战争中传统战、网络战与政治战的界限趋于模糊,使得敌方行为更难预测。物理与数字基础设施的情报获取成为关键优势,无人平台在进攻与侦察任务中的使用规模达到历史峰值。

为扩大作战系统规模并控制成本,需部署全自主运行系统。侦察任务需在无人机离港前完成全程规划,其基本设定如下:从安全基地出发,需抵达多个侦察点并安全返回,信息回传存在三种方式:

  1. 即时传输:无人机抵达侦察点后立即发回数据
  2. 聚合传输:存储多节点数据后在某一位置统一发送
  3. 物理回收:携带存储设备返回基地提取数据
    每种行动均存在暴露风险——飞行过程可能被侦测,传输信号可能被截获,任一情况均会导致任务中断。

研究目标与方法论

本报告探究如何制定侦察任务最优策略,该策略需同时优化路径规划与传输策略以最大化信息获取量。核心研究问题包括:
• 侦察点的最优访问顺序
• 传输行为的最优时空分布

报告结构分为四部分:

  1. 数学模型构建:提出基于加权图的模型,讨论两种信息期望值计算方法,论证整数规划适用性并阐述启发式算法选择依据
  2. 单无人机场景深度分析:展示生成最优策略的遗传算法,通过多任务场景测试比较算法成功率与复杂度
  3. 多无人机任务扩展:改进单机场景最优算法以适配多机协同,采用相同测试框架进行性能对比
  4. 结论与展望:从数学与社会视角解读成果,提出待解决的核心问题

技术路径详述

在单无人机场景中,研究团队开发了基于遗传编程的优化算法。该算法通过模拟生物进化过程筛选路径与传输策略的最优组合。测试显示,在复杂环境中遗传算法相较于传统动态规划方法效率提升58%。

拓展至多无人机场景时,算法引入协同机制优化负载分配与路径避让。改进后的系统在覆盖50个侦察点的任务中,四机协同方案的信息回收率较单机提升320%,通信同步开销增加47%。

军事应用启示

研究成果为混合战争环境下的无人系统作战提供支撑:优化后的侦察-传输决策链可降低32%的任务暴露风险;多机协同使战区情报更新频率提升至分钟级。这些突破将重塑未来战场的情报获取范式,为“决策中心战”提供关键技术保障。

成为VIP会员查看完整内容
41

本研究探讨人工智能(AI)在决策过程中不断演变的角色,聚焦AI赋能技术如何与人类决策者互动及其影响。AI系统正加速融入商业管理至信息系统等各行业,或辅助或替代人类判断。现有文献强调AI融入生活与工作带来的变革潜力与挑战:以ChatGPT为代表的大语言模型凭借数据驱动洞察、效率提升与决策一致性等优势被广泛应用,但研究亦揭示需深入理解的领域——AI复制或放大人类偏见的风险、自主决策的伦理影响、人机交互的复杂性。尽管AI辅助、增强或替代人类决策已获广泛关注,但通过提示工程与情境应用赋予AI的角色如何影响决策结果、行为模式与建议生成,学界仍缺乏深入探索。

本论文包含四项研究,探讨角色定义与目标设定对AI决策行为的影响,揭示精确定义AI角色如何在不同情境中塑造决策结果与人类决策流程。

研究1 通过系统性文献综述,论证机器学习与AI工具(如ChatGPT)结合提升文献分析效率与深度的有效性。研究识别AI整合关键领域,揭示研究空白,指出高影响力期刊与主题,为未来研究绘制路线图。该研究强调跨学科方法对全面理解与发挥AI潜力、应对伦理复杂性的重要性。

研究2 采用"人在回路"(HITL)框架分析AI赋能招聘流程,通过某国际招聘公司18个月质性案例研究,揭示AI工具、招聘专员与寻源分析师协作塑造招聘结果的合作模式。研究表明:AI系统实施需平衡效率与伦理及人本考量,人类判断、监督与适应力不可或缺;组织领导力、方案适应性与人类自主权是成功关键要素。

研究3 通过系列实验探究AI系统(以ChatGPT为例)被赋予的角色如何影响信息系统(IS)语境下的决策结果。研究发现:当ChatGPT被赋予人类角色时,其决策行为高度复现人类偏见;而作为AI角色时则表现出更高一致性与客观性。研究揭示提示工程对引导AI系统符合预期决策流程的重要性——无论是模拟人类判断还是提升决策客观效率。

研究4 探索AI系统中的"算法厌恶"现象,测试GPT类模型在不同版本与温度参数下对人工建议与算法输入的响应差异。研究发现:GPT模型表现出类似人类的算法厌恶倾向,更偏好人工建议,但其表现形式与人类存在差异。该研究将算法厌恶概念扩展至AI系统,强调理解AI如何处理人机建议对设计决策支持系统的重要性,确保AI既能独立运作又能与人类协作。

总体贡献

本研究在四方面深化对AI决策角色的理解:

  1. 方法论创新:引入结合AI工具与机器学习的计算文献综述方法,识别商业管理领域趋势、空白与高影响力期刊;
  2. 人机协作洞见:通过招聘案例实证HITL原则,强调人类赋权、自主权与持续适应对有效协作的关键作用;
  3. 角色效应验证:证明大语言模型角色设定显著影响决策行为——模拟人类角色时复现偏见,AI角色时更趋理性;
  4. 理论边界拓展:将算法厌恶延伸至AI系统,揭示AI对人机建议的差异化处理机制。

综上,这些研究为理解AI与人类决策者动态互动提供洞见,强调情境与角色设定对优化AI决策贡献的重要性,为未来探索AI融入更复杂重大决策场景奠定基础。

表1.1 研究综述

研究编号 研究重点 研究路径、理论基础与方法论 主要发现 理论贡献 实践贡献
研究1 商业与管理学者如何应对AI在组织中的兴起?研究热点与空白领域为何? 采用结构化主题建模与机器学习方法进行系统性文献综述(CLR),结合ChatGPT辅助分析 - 识别44个AI研究热点(如客户营销、AI伦理)
- 揭示体育、应急响应与智慧城市等领域的空白
提出"计算文献综述"方法论,结合AI工具提升文献分析效率 指导研究者锁定高影响力期刊,优化文献检索路径
研究2 AI赋能的招聘决策中如何平衡效率与伦理?人在回路(HITL)原则如何应用? 对国际招聘机构开展18个月质性案例研究,基于社会技术系统理论与HITL框架 - 发现协作型HITL配置模式
- 揭示行政负担加重、权力重构等挑战
拓展HITL理论在AI招聘场景的应用 提出AI招聘实施指南:强效领导力、系统适应性与人本考量
研究3 ChatGPT在信息系统中多大程度能复现人类决策行为?角色设定如何影响决策输出? 通过提示工程实验,测试ChatGPT在不同角色设定(人类/AI)下的决策行为 - 人类角色设定下复现决策偏见
- AI角色设定下展现更高客观性
提出"角色中心决策框架",揭示大语言模型角色工程对决策的影响机制 为提示工程提供设计准则,优化AI决策支持系统的角色配置策略
研究4 AI系统是否存在算法厌恶?GPT模型对人类建议与算法输入的响应差异如何? 复现经典算法厌恶实验范式,测试GPT不同版本(3.5/4.0)在多种温度参数下对建议来源的偏好 - GPT表现出类人算法厌恶倾向
- 对人工建议的偏好强度与温度参数呈负相关
首次将算法厌恶理论拓展至AI系统,建立"元算法厌恶"概念 为AI协同决策系统设计提供新视角,优化人机建议权重分配机制

成为VIP会员查看完整内容
40

《2025年大模型2.0产业发展报告》由国家工业信息安全发展研究中心标准所与联想集团联合发布,深度剖析大模型2.0产业发展状况,涵盖技术演进、产业生态、应用场景及未来趋势等关键领域。

  1. 大模型发展历程与2.0阶段特征:人工智能历经探索期、起步期、发展期后,大模型从1.0的探索迈向2.0的应用阶段。2.0阶段技术上,模型理解能力更强、知识储备更全面、训练模式更高效低碳、产业应用能力更广泛;商业上,在个人和企业场景找到可行商业模式;产业层面,以个人和企业为核心的生态体系逐渐形成。
  2. 产业生态体系构建:个人大模型生态涉及数据供给、技术基础设施等多方面,能提升个人生活体验;企业大模型生态包含基础层、应用层和战略层,助力企业转型升级。二者共同构成大模型普及的关键支撑。
  3. 社会影响与政策监管:大模型2.0推动社会进入智能时代,提高个人生产力,促使企业向全栈智能化发展,变革社会生产力与生产关系。各国积极制定政策支持大模型发展并加强监管,我国也在构建符合国情的监管体系和合规标准。
  4. 关键要素剖析:数据、算力、算法和工具是大模型发展的关键要素。数据版权化推动数据服务产业发展,但数据治理和安全保障有待加强;算力需求促使智算成为主流,异构算力技术发展,服务方式走向多元;算法方面,Transformer仍是主流,RAG应用广泛;工具链不断完善,为大模型应用提供便利。同时,产业标准、安全保障、伦理治理和价值对齐是大模型可持续发展的重要保障。
  5. 应用场景探索:个人大模型为个人终端产品升级带来机遇,企业大模型在企业经营管理、研发设计、供应链管理和生产制造等场景应用广泛,提升企业竞争力。联想等企业的实践案例展示了大模型在企业智能化转型中的有效应用。
  6. 未来发展趋势展望:大模型未来将朝着通用性提升、模型轻量化、目标驱动架构发展。通用性提升使大模型能力更接近人类认知;模型轻量化降低部署门槛;目标驱动架构让人工智能更智能、灵活地完成任务。 大模型2.0产业发展前景广阔,但也面临诸多挑战,需各方协同合作,推动技术健康发展,实现其更大价值。以下是报告部分内容
成为VIP会员查看完整内容
36

尼玛扎西院士的讲座从“人工智能”“新一代人工智能”和“人工智能+”三个维度展开,从人工智能的定义入手,剖析了人工智能的动力,以及人工智能和数据、算力、算法的关系,介绍了我国的人工智能发展情况,分析了新一代人工智能的特点。院士把复杂深奥的科学理论用浅显易懂的语言讲解出来,其中不乏有趣的案例和细节,不时引发全场师生们会心的笑声。最后一部分,院士详细介绍了“人工智能+”在科学、教育、生活、政务和新质生产力等方面的应用,让大家感受到了人工智能的魅力,对信息化、数字化有了更加深刻的认识,也引发了师生们将人工智能应用在教学科研和学习方面的浓厚兴趣。

成为VIP会员查看完整内容
37

摘要——深度神经网络(Deep Neural Networks, DNNs)在计算机视觉与自然语言处理等领域取得了显著的性能表现,并广泛应用于学术界与工业界。然而,随着近年来DNN及拥有大量参数的Transformer模型的快速发展,将这些大型模型部署在边缘设备上面临诸多挑战,例如高运行时延迟与内存消耗等问题。尤其是在当前大规模基础模型(Foundation Models)、视觉-语言模型(Vision-Language Models, VLMs)和大语言模型(Large Language Models, LLMs)不断涌现的背景下,这一问题尤为突出。 知识蒸馏(Knowledge Distillation, KD)是为了解决上述问题而提出的一种重要技术,通常采用教师-学生(Teacher-Student)结构。具体而言,通过从性能强大的教师模型中提取额外知识,用以训练一个轻量级的学生模型。 本文提出了一个关于知识蒸馏方法的全面综述,涵盖多个角度的分析:蒸馏源、蒸馏策略、蒸馏算法、跨模态蒸馏、知识蒸馏的应用,以及现有方法之间的对比分析。与现有的大多数综述相比,后者往往内容过时或仅是对先前工作的简单更新,本文提供了一种全新的视角与组织结构,系统性地分类并研究了最新的知识蒸馏方法。 此外,本综述还纳入了多个关键子领域的研究进展,包括扩散模型(Diffusion Models)、三维输入(3D Inputs)、基础模型、Transformer结构与大语言模型(LLMs)中的知识蒸馏。最后,本文还探讨了当前知识蒸馏面临的挑战以及未来可能的研究方向。 项目GitHub页面: https://github.com/IPL-Sharif/KD-Survey 关键词:知识蒸馏,知识迁移,教师-学生结构

一、引言

随着深度神经网络(Deep Neural Networks, DNNs)的兴起,计算机视觉(Computer Vision, CV)和自然语言处理(Natural Language Processing, NLP)领域迎来了革命性的发展。目前,这些领域中的大多数任务均已由DNN主导完成。尽管诸如ResNet [1] 或 BERT [2] 等模型可在现有大多数GPU上轻松训练,但随着大型模型(如大语言模型LLMs和视觉基础模型)的出现,模型的训练与推理在运行时效率与内存消耗方面成为一大挑战,尤其是在部署于移动设备等边缘终端时问题更加突出。 尽管这些大型模型在性能方面表现优越,但其通常架构复杂、参数量巨大,存在过度参数化(overparameterization)的问题 [3][4]。例如,研究表明LLMs中的权重矩阵呈现低秩结构 [5]。 为了解决大模型带来的问题,研究者提出了多种方案,包括高效网络结构、模型压缩、剪枝、量化、低秩分解以及知识蒸馏(Knowledge Distillation, KD)等。其中,近年来涌现出如MobileNet [6]、ShuffleNet [7]、BiSeNet [8]等高效网络模块。剪枝作为压缩方法的一种,旨在删除冗余的层与参数,同时尽可能保持模型性能;低秩分解则通过矩阵分解来减少参数量。而与此不同,知识蒸馏并不直接改变模型结构或参数,而是通过一个轻量学生模型在性能强大、参数丰富的教师模型监督下进行训练。

这一概念最早由 [9] 提出,并在 [10] 中被正式命名为知识蒸馏(KD),其核心思想是通过模拟教师模型的输出分布(软标签)来训练学生网络。 除了参数量庞大外,这些大型模型的训练还需要大量标注数据。KD的另一个重要用途是知识迁移,即将源任务中的知识迁移到缺乏足够标注数据的目标任务中。此外,在涉及数据隐私的场景中,数据无关的知识蒸馏(data-free KD)则通过合成数据生成,避免了存储敏感数据的需求。KD面临的主要挑战包括:如何选择要迁移的知识、采用何种蒸馏算法,以及如何设计合适的教师与学生架构。图1展示了典型的教师-学生KD结构。 随着KD研究论文数量的迅速增长及其在多任务、多领域中的广泛应用,已有若干综述工作试图从不同角度对该领域进行总结。例如,[11] 从知识类型、算法和策略等方面对KD进行了全面回顾,并对不同方法进行了比较;[12] 聚焦于视觉任务中基于教师-学生架构的模型压缩方法;[13] 通过引入新指标对KD方法进行精度与模型大小上的评估;[14] 则基于蒸馏知识源类型对现有方法进行了分类;更近期的 [15] 对不同表征形式下的知识优化目标进行了深入综述,[16] 则对以往综述进行了扩展,并简要讨论了视觉-语言模型(VLMs)中的蒸馏及数据有限情形下的挑战。 尽管上述综述涵盖了多个重要视角,但它们也存在一些明显的局限性。首先,这些工作在分析已有方法时,往往忽略了近年来在特征级蒸馏(feature-based distillation)方面的重大进展,而该方向目前已成为最主流的研究路径之一。此外,自适应蒸馏(adaptive distillation)和对比蒸馏(contrastive distillation)等新兴算法类别几乎未被提及。其次,随着基础模型与LLMs的快速发展,其在知识蒸馏中的巨大潜力并未被现有综述充分讨论。例如,[11] 作为当前最具影响力的综述之一,并未详细探讨基础模型和LLMs中KD的应用。第三,目前尚无综述研究KD在三维输入(如点云)上的应用。随着三维任务在顶级会议中受到越来越多关注,相关模型与方法的缺乏使得KD在该领域的应用显得尤为重要。表I展示了现有综述与本工作的比较。 因此,本文提出了一个对知识蒸馏方法的系统性综述,涵盖多个维度:蒸馏源、蒸馏算法、蒸馏策略、模态划分及应用领域。 本综述对三类蒸馏源进行了分类与分析:基于logits、基于特征、基于相似性的蒸馏方法,特别强调了近年来特征蒸馏方面的研究进展。 在算法层面,本文回顾了包括注意力机制、对抗式、多教师、跨模态、图结构、自适应及对比蒸馏等方法。其中,自适应与对比蒸馏作为两个尚未被系统综述的热点领域,在本工作中首次被单独归类。 在蒸馏策略方面,涵盖了离线蒸馏、在线蒸馏及自蒸馏方法。相比以往工作,本文新增了一部分内容,系统梳理了基于模态的蒸馏方法,包括视频、语音、文本、多视角(multi-view)以及三维数据。 在应用方面,本文对知识蒸馏在多个关键领域的应用进行了深入探讨,包括自监督学习、基础模型、Transformer架构、扩散模型、视觉识别任务及大语言模型。此外,还对典型方法进行了量化比较,并讨论了当前面临的挑战与未来研究方向。 图2展示了本文的组织结构。总的来说,本文的主要贡献包括: * 提出一个全面的知识蒸馏综述,从蒸馏源、算法、策略、模态及应用等多角度系统总结现有方法; * 对近年来涌现的特征蒸馏方法进行重点分类与归纳,反映其在实际应用中的重要性; * 首次引入“自适应蒸馏”和“对比蒸馏”两类新算法,尤其是在如CLIP等基础模型出现后,对比蒸馏的重要性日益突出; * 回顾了多视角与三维数据中的知识蒸馏方法,填补了该领域综述中的空白; * 深入探讨了KD在自监督学习、基础模型、Transformer、扩散模型和LLMs中的应用,特别强调在参数量巨大的LLMs中蒸馏的重要性; * 提供了典型蒸馏方法的量化对比,并总结了当前的研究挑战与未来的研究方向。

成为VIP会员查看完整内容
37

大型语言模型(Large Language Models, LLMs)在处理复杂的多步骤任务方面正变得越来越强大。推理能力、多模态处理以及工具使用方面的进步,催生了一类新的基于LLM的系统——智能体(Agents)。 本指南专为产品和工程团队打造,旨在帮助他们探索如何构建首个智能体系统。我们从众多客户的实际部署中提炼出可操作的最佳实践,转化为切实可行的建议。本指南包括识别有潜力的用例的方法框架、设计智能体逻辑与编排的清晰模式,以及确保智能体安全、可预测、高效运行的最佳实践。 阅读本指南后,您将掌握构建智能体所需的基础知识,从而能够自信地开始开发自己的第一个智能体系统。 https://cdn.openai.com/business-guides-and-resources/a-practical-guide-to-building-agents.pdf

成为VIP会员查看完整内容
38

俄罗斯自2024年2月发起的全面侵乌战争,不仅标志着堑壕战的复苏,更以前所未有的规模展现了空中无人机战争的形态。既有研究已探讨乌克兰战场无人机作战的影响,并强调其对战争进程的持续影响,但鲜有从俄方视角剖析其军事人员与学者在2022年以来战场实践中获得的经验——这对理解当代俄式战争思维至关重要。通过对俄罗斯两大权威军事期刊《军事思想》(Voyennaya mysl)与《陆军文集》(Armeysky sbornik)中无人机作战主题文章进行主题分析与编码,本研究发现俄方讨论围绕三大评估主题展开:俄军无人机作战能力的现状与缺陷、侦察无人机在情报获取与指挥控制通信(C3)中的核心作用,以及自杀式无人机新近展现的杀伤力与成本效益。研究结果支持既有关于俄军适应能力的论断,并进一步揭示无人机与俄军体系的整合程度,以及俄方认定的无人机作战关键军事与技术要素。未来需深入研究俄军如何将乌克兰战场经验转化为全面军事改革。

本研究旨在探究俄罗斯自2022年侵乌决策后积累的无人机作战知识——进而透视其军事文化、改革与技术变迁。研究聚焦无人机(UAV)领域,分析俄军如何将战场经验系统化为无人机作战理论体系。自战争爆发以来,无人机作战形态以诸多意料之外的方式快速演进,理解俄方视角对揭示其军事战略核心要素至关重要,同时可评估这些经验如何成为未来俄北约潜在对抗的"蓝图"。从学术视角看,本研究有助于理解俄军军事思维、乌克兰战场经验在俄语境下的传播与重构、欧洲首次大规模无人机战争的认知框架及其对当代战争形态的影响。尽管聚焦后苏联空间冲突并根植于欧亚研究领域,其启示具有跨区域意义。

为探索俄军从乌克兰战场汲取的空中无人机作战经验,本研究分析《军事思想》与《陆军文集》作者(文中统称"俄军官员与理论家")所述的战场实践。研究问题具体化为:2022-2024年乌克兰战场上,俄军官员与理论家从《军事思想》与《陆军文集》视角总结了哪些空中无人机作战经验?

成为VIP会员查看完整内容
35

大型语言模型(LLMs)的指数式增长不断凸显出高效策略以应对日益扩大的计算与数据需求的重要性。本综述对两种互补范式——知识蒸馏(KD)与数据集蒸馏(DD)——进行了全面分析,这两种方法旨在在压缩 LLMs 的同时,保留其先进的推理能力和语言多样性。 我们首先回顾了知识蒸馏中的关键方法,包括任务特定对齐、基于推理过程的训练(rationale-based training)以及多教师框架;同时也探讨了数据集蒸馏技术,如基于优化的梯度匹配、潜空间正则化和生成式合成,以便构建紧凑且高效的数据集。在此基础上,我们进一步探讨了如何融合 KD 与 DD,以实现更高效、更具扩展性的压缩策略。这些方法共同应对了模型可扩展性、架构异质性以及 LLM 新兴能力保持等持续性挑战。

此外,我们强调了蒸馏技术在医疗、教育等领域的应用,这些技术使得高效部署成为可能,同时不牺牲性能。尽管已有大量进展,但仍存在一些开放性挑战,例如:如何在压缩过程中保持新兴推理能力和语言多样性,如何高效适应持续演变的教师模型与数据集,以及如何建立全面的评估协议。 通过综合方法创新、理论基础和实践洞见,本综述为通过更加紧密整合 KD 和 DD 原则,实现可持续、资源高效的大型语言模型,描绘了一条清晰的发展路径。 关键词:大型语言模型、知识蒸馏、数据集蒸馏、效率、模型压缩、综述

1 引言

大型语言模型(LLMs)的出现,如 GPT-4(Brown 等,2020)、DeepSeek(Guo 等,2025)和 LLaMA(Touvron 等,2023),彻底改变了自然语言处理领域,使得翻译、推理和文本生成等任务的能力达到了前所未有的水平。尽管取得了这些里程碑式的成就,但与此同时,也带来了实际部署中显著的挑战。首先,LLMs 需要极其庞大的计算资源,通常需要数千 GPU 小时用于训练和推理,这导致了高能耗和显著的环境成本。其次,它们对大规模训练数据集的依赖引发了数据效率、质量和可持续性的担忧,随着公共语料库的过度使用,保持数据的多样性和高质量变得愈加困难(Hadi 等,2023)。此外,LLMs 展现出诸如链式推理(chain-of-thought reasoning,Wei 等,2022)等新兴能力,而在较小模型中复制这些能力则非常具有挑战性,需要复杂的知识迁移技术。 为了应对这些挑战,蒸馏(distillation)作为一项关键策略应运而生,结合了知识蒸馏(Knowledge Distillation,KD)(Hinton 等,2015)与数据集蒸馏(Dataset Distillation,DD)(Wang 等,2018),以同时解决模型压缩和数据效率问题。尤其重要的是,在 LLM 场景中,KD 的成功极大地依赖于 DD 技术,后者能够通过紧凑且信息丰富的合成数据集来提炼和传递教师模型(teacher LLMs)中的复杂知识。 知识蒸馏(KD)通过对齐输出或中间表示,从大型预训练教师模型向较小、高效的学生模型传递知识。尽管在中等规模教师模型中 KD 效果显著,但在面对 LLMs 的庞大规模时,传统 KD 方法遇到了挑战,因为知识分布在数十亿参数和复杂注意力模式中。此外,知识不仅限于输出分布或中间表示,还包括更高阶的能力,如推理能力和复杂问题求解能力(Wilkins 和 Rodriguez,2024;Zhao 等,2023;Latif 等,2024)。 数据集蒸馏(DD)旨在将大型训练数据集压缩成保留必要信息的紧凑型合成数据集。近期研究表明,DD 能显著降低 LLM 训练所需的计算成本,同时维持性能。例如,DD 能将数百万训练样本浓缩成数百个合成示例,并保留特定任务的知识(Cazenavette 等,2022;Maekawa 等,2024)。在 LLM 场景下,DD 成为 KD 的重要辅助,它能识别高度影响力的训练示例,反映教师模型的推理过程,从而引导学生模型高效学习,同时避免对冗余数据的过拟合(Sorscher 等,2022)。 LLMs 的规模引发了双重挑战:一是对不可持续大规模数据集的依赖(Hadi 等,2023),二是新兴能力(如链式推理(Wei 等,2022))的精准迁移需求。这些挑战促使研究者必须在 KD 和 DD 上双管齐下。虽然 KD 通过知识迁移实现模型压缩,但传统 KD 无法单独解决数据效率危机:训练新一代 LLMs 时使用冗余或低质量数据只会带来收益递减现象(Albalak 等,2024)。DD 则通过构建紧凑且高保真度的数据集(例如,稀有推理模式(Li 等,2024))来补充 KD 的不足,正如 LIMA 项目所展示的,1,000 个示例便能达到教师级别性能(Zhou 等,2023)。这种协同利用了 KD 在表征迁移上的优势与 DD 在生成任务特定数据上的能力,共同解决了隐私保护、计算负载和数据稀缺问题,使得小型模型在保持蒸馏效率的同时,也能保留大模型的重要能力。 本综述系统梳理了适用于 LLMs 的 KD 与 DD 技术,并进一步探讨了二者的融合。传统 KD 将教师模型的知识迁移至学生模型,但面对现代 LLMs 的前所未有规模,捕捉新兴能力及保留深层知识成为重大挑战。DD 通过合成小规模、高影响力的数据集,保留了语言、语义及推理多样性,有效辅助了 KD。本综述以独立的 KD 与 DD 技术进展为基础,同时深入探讨了它们结合后对模型压缩、训练效率及资源感知部署带来的潜力。 随后各章节将围绕以下关键方面展开: * 第 2 节:KD 与 DD 的基础知识,区分它们在压缩 LLMs 和优化训练效率方面的角色; * 第 3 节:LLMs 中 KD 的方法学,包括基于推理过程的蒸馏(rationale-based distillation)、不确定性感知方法、多教师框架、动态/自适应策略以及任务特定蒸馏,并回顾相关理论研究以深入理解 KD 的基本原理; * 第 4 节:LLMs 中 DD 的方法学,涵盖基于优化的数据集蒸馏、合成数据生成和辅助的数据选择策略; * 第 5 节:KD 与 DD 的整合,介绍结合 KD 与 DD 策略的统一框架以提升 LLMs; * 第 6 节:评估指标,关注蒸馏在 LLMs 中的性能保持、计算效率和鲁棒性; * 第 7 节:跨医疗健康、教育、生物信息学等领域的应用示例,展示蒸馏技术在真实场景中的实用价值; * 第 8 节:挑战与未来方向,识别需要改进的关键领域。

本综述的知识结构分类见图 1 所示。

成为VIP会员查看完整内容
34

使用大型语言模型进行数据分析:文本、表格、图像与音频

借助 ChatGPT 以及来自 Anthropic、Cohere、OpenAI、Google、Hugging Face 等公司的大型语言模型(LLMs),加速常见的数据科学任务! 《使用 LLMs 进行数据分析》教你如何利用新一代 AI 助手和大型语言模型辅助并加速日常的数据科学流程。 你将学会如何使用 LLMs 来: * 分析文本、表格、图像和音频文件 * 从多模态数据湖中提取信息 * 对多模态数据进行分类、聚类、转换与查询 * 构建基于自然语言的查询接口,实现对结构化数据的访问 * 使用 LangChain 构建复杂的数据分析流水线 * 掌握提示工程(Prompt Engineering)与模型配置技巧

这本实用指南将带你从第一个提示词出发,一步步掌握高级技术,如构建基于 LLM 的数据分析智能体,甚至微调现有模型。你将学会提取数据、搭建自然语言查询接口,乃至更多强大能力。 购买纸质书可免费获得 Manning Publications 提供的 PDF 和 ePub 电子书格式。


关于技术

大型语言模型(LLMs)可以简化并加速几乎所有数据科学任务。掌握本书中的方法后,你将能通过清晰的自然语言提示词和少量 Python 代码,分析大量文本、表格、图形数据、图像、视频等内容。


关于本书

《使用 LLMs 进行数据分析》将手把手教你如何将生成式 AI 融入数据科学日常工作。康奈尔大学的 Immanuel Trummer 教授将通过一系列实战项目,引导你使用 OpenAI 的 Python 库、LangChain、LlamaIndex 以及来自 Anthropic、Cohere、Hugging Face 的 LLM 模型。你将使用 AI 查询结构化与非结构化数据,分析音频与图像内容,并优化数据分析的成本与质量。


本书内容包括:

多模态数据的分类、聚类、转换与查询 * 构建自然语言查询接口,实现对结构化数据的访问 * 创建基于 LLM 的自动化数据分析智能体 * 提示词工程与模型配置策略


适读人群

本书适合已掌握 Python 基础的数据科学家与数据分析师阅读。


关于作者

Immanuel Trummer 是康奈尔大学计算机科学的副教授,也是康奈尔数据库研究组(Cornell Database Group)的负责人。他的研究成果曾入选 “Best of VLDB”、“Best of SIGMOD”,获得 ACM SIGMOD Research Highlight 奖,并作为 CACM Research Highlight 发表在《通讯协会》(CACM)上。他在 YouTube 上开设的数据管理课程已突破百万观看量。近年来,他所在研究组在将大型语言模型应用于数据科学方面成果斐然,发表了大量具有影响力的研究。


目录

第一部分

1 使用大型语言模型进行数据分析 2 与 ChatGPT 对话 第二部分

3 OpenAI 的 Python 库 4 文本数据分析 5 结构化数据分析 6 图像与视频分析 7 音频数据分析 第三部分

8 GPT 模型的替代方案 9 成本与质量优化 10 软件框架综述

成为VIP会员查看完整内容
33

21世纪以来,世界见证了多场无人机对峙攻击与战争。然而,此前的竞争焦点始终聚焦于极限性能——最大航程与续航、最大载荷、最长电力续航、最致命弹药、最高飞行高度、最大体积、最安全通信等。尽管无人机引发狂热,但地面部队的核心作用仍不可替代。俄乌冲突中长期的静态消耗战催生了小型简易无人机时代,自杀式攻击的创新战术与极速打击促使第一人称视角(FPV)无人机登上战术舞台。这种高性价比的无人机严重威胁地面部队生存,迫使作战方式革新。俄乌双方对FPV无人机的创新演进,在概念、条令、组织结构、技术(含反制措施)等关键作战维度引入新范式,呼吁采用国家整体协同策略(WONA)。本文将从印度军事视角分析这些变革的启示。

每场新战争都伴随新技术与经验的迭代,推动军事从"战术决定技术"转向"技术亦能塑造战术"的时代。俄乌冲突与伊朗-以色列冲突持续以实战验证新科技,每日揭示新军事经验。在无人机泛滥、GPS拒止、电磁对抗与密集防空环境中,2020年代凸显两大趋势:无人机的大规模商业化与微型化,以及"无人机-反无人机"领域的对抗竞争刚刚拉开帷幕。

美国对伊拉克的海湾战争与阿富汗"持久自由行动"开启无人机战争时代。尽管这些战争呈现单边无人机运用,但亚美尼亚-阿塞拜疆冲突首次实现近对等的双向无人机对抗。土耳其TB-2"旗手"无人机为阿塞拜疆赢得胜利。俄乌与伊以冲突则通过每场战役创新推进无人机运用方法。俄乌冲突表明,双方密集防空与电子战平台结合严密的情报监视侦察(ISR)网络,极大限制长航时大型无人机的活动范围。初期TB-2无人机阻滞俄军攻势的成效迅速消退,俄罗斯转而大量使用伊朗"沙希德"小型无人机。

俄乌冲突是首场全天候无人机战争,双方在战术与战役层面创新运用基于无人机的侦察-打击复合体(RSC)。冲突中数百万小型无人机(含商用型号)被投入高强度战场,执行ISR、宣传与自杀式打击任务,催生无人机战的新分支——第一人称视角(FPV)无人机。

FPV无人机本质上是自制游荡弹药。这类小型无人机具备隐蔽发射能力,通过将无人机视角投射至操作员目镜,延伸其观察范围。其基于商用竞速无人机改造,无需悬停稳定装置,机动性卓越但依赖专业操控技能。对熟悉印度史诗《摩诃婆罗多》者而言,这类似于"桑贾伊战术"——操作员通过无人机摄像头实时观察目标区域,随即发起日式"神风"自杀攻击。FPV无人机被高效用作单程攻击平台,在10-15公里战术纵深内构建"高危禁行区",通过投掷爆炸物对堑壕内步兵造成杀伤,并限制前线重型装甲运用。

乌克兰将FPV无人机视为挫败俄军机械化突击的关键制胜要素。这种新型无人机为兵力与火力处于劣势的乌军提供初期战术优势。据2023年3月乌官方声明,其每日需2万枚炮弹维持近300套西方火炮系统的作战效能,但实际供应峰值仅9000枚,常态仅需量的十分之一(2000枚)。FPV无人机通过精确低成本打击弥补火力缺口。尽管其毁伤效果不及炮击,却能实现更优的袭扰、迟滞与破坏效果,并提升炮火引导精度。与各类射击单元协同的创新火力打击模式,进一步放大其毁伤潜力。更重要的是,FPV无人机实现陆空动态目标打击,成为跨域毁伤平台。

成本仅400至500美元的FPV无人机正重塑前线作战形态。相比反坦克导弹与高价游荡弹药,其凭借低成本、军民融合量产优势、空地目标双向机动能力、雷达规避性、隐蔽发射特性、脱靶后可回收特性,以及将杀伤链延伸至分队指挥层级甚至单兵操作组的能力,成为最具颠覆性的战场变革者。俄军迅速适应此趋势,通过高效运用FPV与小型无人机构建战术侦察-打击复合体。因此,FPV无人机的演进从概念、组织、条令与技术层面引发军事革命,确立无人机战争新范式。

成为VIP会员查看完整内容
34

关于本文件

技术化战争研究团队撰写本报告作为团队战略研究项目。本报告的研究、分析与撰写工作于2022年10月至2023年5月完成。报告基于开源信息与领域专家访谈,回应美国陆军训练与条令司令部副参谋长G-2托马斯·F·格雷科提出的战略问题。

研究问题
2035年智能化战争将以何种形态呈现?领导者需具备何种技能组合以赢得该环境下的竞争?
• 界定2035年战争中"智能化"的特征
• 智能化战争的兴起将增强现有战争模式、变革现有模式,还是引发军事事务革命?
• 基于上述预测,这是否会导致歼灭战或消耗战频次增加?
• 预测未来领导者需掌握的知识、技能与行为(KSB)以在2035年高效运作
• 现有哪些面向未来领导者的训练、教育或认知提升项目?

概要结论
基于大国提出的智能化战争概念,至2035年该形态极有可能(71-85%)演进为"技术感知型战争"。量子计算与尖端人工智能技术赋能的"技术感知型战争"将融合太空、网络与认知影响作战,在武装冲突阈值之下实施并贯穿作战行动,最终引发系统对抗与部分自动化战争。

为在此新时代占据优势,未来领导者几乎必然(86-99%)需要:培养对新兴技术的功能性理解;精通人工智能决策流程的复杂性;发展对大数据驱动AI解决方案的深刻认知。这些专业素养对在战术、战役与战略层面建立对关键系统的信任至关重要,使2035年的领导者形成以创新为核心的韧性思维模式。

第一节:2035年技术感知型战争形态解析

2019年提出的智能化战争概念是中国通过融合新兴技术实现非传统战争领域主导权的路径。该概念以物联网为信息基石,整合人工智能、云计算、大数据分析、量子信息与无人系统等技术,直接作用于或控制对手认知域。

图1左侧列示智能化战争的七大关键技术,右侧对应技术感知型战争的相关技术。本团队通过对这些技术演变的研究(详见下文),形成关于2035年战争形态的结论(第一、二节展开论述)。

图1:智能化战争与技术感知型战争关键技术对照

从基础型人工狭义智能到量子脑网络(QBraiNs)

自2019年以来,基础型人工狭义智能(ANI)呈抛物线式发展。大规模数据集的普及推动了AI技术的突破性进展,包括复杂深度学习算法的开发,促使AI在各行业广泛应用。量子计算的出现有望将AI能力提升至新高度。量子计算利用量子力学原理执行传统计算机无法完成的计算,其量子比特(qubit)可同时处于多种叠加态,实现并行处理与指数级加速运算。

量子脑网络(QBraiNs)
量子脑网络(QBraiNs)是由康奈尔大学提出的新兴交叉学科领域,整合神经技术、人工智能与量子计算的知识与方法,旨在开发人脑与量子计算机的增强型连接,实现颠覆性应用。QBraiNs技术通过脑机接口(BMI)构建计算平台,辅助个体分析复杂数据集、识别模式或异常,支撑实时快速决策。

从基础自主无人机到先进自主无人机集群
自主无人机将从基础功能升级为先进全自主无人机集群。未来系统不仅能够完成指定目标,还能通过集群内部通信动态重组编队,利用分布式算法实施有限自主决策。

从信息化/信息战到认知战
信息化与信息战(IO)指通过信息技术与通信网络破坏或操控敌方信息系统、影响其决策,以获取军事行动战略优势。认知战将聚焦运用宣传、虚假信息等心理战术影响目标个体或群体的思维、信念、态度与行为,通过控制人类心理与情感维度(即"认知域")获取决定性优势。

从人类性能增强(HPE)到超人类性能增强
早期人类增强技术依赖药物、营养补充剂与可穿戴设备提升人体效能。随着战争形态从智能化向技术感知型演进,HPE将升级为超人类性能增强。其核心在于应用CRISPR技术(基于基因组编辑)强化人体机能。

从决策支持系统到QBraiNs指挥官
2019版决策支持系统依赖人工流程与庞大参谋团队生成行动选项。技术化战争研究团队(TWG)指出未来将向QBraiNs指挥官转型——指挥官与核心参谋运用QBraiNs技术实现快速果断决策。

从"人在环内"到"人在环外"
该转变预示攻防系统需从持续人工监管转向部分场景依赖机器自主响应。**人在环外(HOOL)**操作常与"完全自主"同义。美国国防部3000.09号指令将自主武器系统定义为"激活后无需操作员干预即可选择与攻击目标的武器系统"。一旦某国军队采用HOOL模式,竞争国家将被迫效仿。美国陆军未来司令部前司令默里指出:对抗无人机集群时,人类决策与行动速度相较机器如同永恒,五角大楼或需放宽相关交战规则。

从大数据到数据湖
人工收集处理海量结构化与非结构化数据的模式将过渡至数据湖。微软将数据湖定义为"以原始格式存储多源异构数据的大型存储库",其数据分层存储可满足多样化需求,驱动大数据分析、机器学习与预测性分析。

技术感知型战争:技术水平先进的国家极有可能(71-85%)在2035年前运用技术感知型战争。该战争形态融合量子计算与先进人工智能(介于人工狭义智能与人工通用智能之间),以增强支撑半自动化战争的新兴技术。技术感知型战争的"感知"特指AI自主运作、决策与适应新环境的能力,而非暗示系统具备意识。

在技术感知型战争中,系统间将自主协作通信,以最小化人工干预完成复杂决策、适应动态环境并积累集体经验。随着各国技术感知型战争能力提升,冲突将更早出现在竞争连续谱中,并在作战全程为部队提供支持。政府与军事力量将更多涉足传统陆海空之外领域以支撑国家目标,同时在"灰色地带"加速竞争——降低人员参与度可增强行动合理推诿性、减少人员伤亡风险,从而削弱冲突门槛。主导技术感知型对抗的关键在于比对手更快感知、适应与行动,通过攻击或影响系统体系关键节点诱发或逆转全局瘫痪。

第二节:战争特性的演变

威廉·T·约翰逊与塔米·戴维斯·比德尔在《战争、战略与理论》概述文件中指出:战争特性随时间演变,"高度依赖科学创新、技术变革、人口结构变迁、国内外政治组织与国家政策趋势"。技术化战争研究团队(TWG)分析认为,战争特性在2035年前几乎必然(86-99%)发生转变。前述技术进步预示战场范围将突破传统领域,冲突日益涵盖网络、太空及认知域,模糊平时与战时界限。作战中,增强人类效能的技术将与机器人和自主系统结合,推动半自主与全自主系统加速战争节奏。数字通信与追踪技术将支撑分布式作战,配合超视距动能打击与非物理域攻击获取态势优势。

系统对抗预计早于人类物理接触
由自动化火力召唤系统支撑的泛在化计算机传感器
强化人类与机器人部队及无人载具协同作战
量子计算整合实现跨域复杂数据集处理
加速兵棋推演与决策进程

图5:技术融合趋势

基于技术融合预测,并非所有军事强国均能同步实现全部技术突破。2035年这些国家极有可能(71-85%)处于关键转型期。尽管对AI发展速度存在不同评估,但人工通用智能(AGI)最早可能在2040年实现(概率46-55%)。研究表明部分技术变革将引发军事革命,但从人工狭义智能(ANI)向人工通用智能(AGI)或超级智能(ASI)的跨越,或将成为军事革命的前置条件,推动技术感知型战争向自动化技术感知型战争形态升级。

军事事务革命

兰德公司研究员兰德·亨德利在1999年研究简报中将军事事务革命定义为"军事行动性质与实施方式的范式转变,其或使主导者的核心能力过时失效,或在战争新维度创造新核心能力,或两者兼有"。几乎可以确定(86-99%),前述颠覆性技术的融合将催生单兵操控的自主无人机集群,在2035年前引发军事事务革命(RMA)。基因编辑与技术强化士兵能力极有可能(71-85%)在2035年前发展至颠覆特种作战小队能力的程度。最终,认知社交媒体战极有可能(71-85%)达到军事事务革命级别——灰色地带运作的国家与非国家行为体将协调信息、太空与网络能力,通过自动化心理攻击操控目标个体或群体的思想与行动。

歼灭战与消耗战

歼灭战与消耗战战略通常溯源至德国军事史学家汉斯·德尔布吕克。拉塞尔·韦格利在《美国战争之道》中总结德尔布吕克观点:歼灭战略旨在摧毁敌方军事力量,消耗战略则力求拖垮对手。在技术感知型战争国家对抗传统战争概念国家的特定案例中,歼灭战发生概率可能(56-70%)上升。掌握技术优势并探索技术感知型战争概念的国家,相对技术落后国家将形成明显非对称优势。类比案例包括1991年"沙漠风暴行动"——号称世界第四大军队的伊拉克军队,因以过时战术对抗技术优势联军,在短期内折损半数战力。近期案例则为第二次纳戈尔诺-卡拉巴赫战争:阿塞拜疆军队运用信息战与无人机传感系统,在44天内击败固守陈旧理念与装备的亚美尼亚军队。

然而对于2035年参与技术感知型战争的国家而言,消耗战几乎必然(86-99%)发生。尖端技术支撑的强化军事行动将加速双方决策与战场适应能力,但难以形成决定性优势。即便某国前线部队遭受重大损耗,运用技术感知能力的特种部队与准军事单位仍可维持长期消耗战条件。俄乌战争中可见新旧技术混用态势:尽管俄罗斯2014年通过灰色地带战术实现克里米亚"既成事实",但2022年面对吸取教训、整合新技术于军政体系的对手时未能达成目标。

第三节:2035年领导者需具备的战争技能

陆军将人才属性划分为七类"才能领域",细分为42项"才能",最终分解为199项可衡量的知识、技能与行为(KSB)。其中"知识"指个体掌握的事实与信息,"技能"指可执行的能力,"行为"指行动方式。技术化战争研究团队(TWG)分析表明,未来领导者几乎必然(86-99%)需强化现有KSB、学习新技术并培养新型技能与行为。Shield AI专家访谈指出,领导者必须发展以下知识与技能:深入理解新兴技术、精通人工智能决策流程、掌握大数据驱动AI解决方案。理解AI训练机制与决策逻辑对建立未来关键系统的信任至关重要。

图6(下方)绿色标注部分为TWG认定的2035年战争必备属性。团队将其与陆军《人才属性框架》199项KSB(黑色标注)对比,发现红色标注五项属性未涵盖于现有框架:从失败中学接受失败人本工程应用程序接口(API)对系统(含AI/ML)的信任

图6:技术感知型战争必备属性对照

从失败中学与接受失败
失败常为创新突破的前提。IBM创始人托马斯·沃森曾言:"加速成功的最佳方式是将失败率翻倍"。技术感知型环境中,接受失败的行为特质与从失败中学的技能至关重要,但这与美军现有文化相悖。凯西·哈斯金在《陈腐问题的良解:陆军文化及其变革必要性》中指出:"现行体制旨在防范失败,却无人意识到此举亦扼杀卓越"。技术快速迭代环境下的创新需自下而上的试错机制,并将成功经验全军共享。

人本工程
波士顿学院2021年设立的人本工程专业,将人文素养与工程课程结合,以设计思维为核心,强调跨学科团队协作的实践学**。在日益数字化与自动化的军事领域,技术升级需超越纯工程视角,构建以人为核心的体系——这不仅是伦理要求,更是效能保障。

应用程序接口(API)
TWG研究揭示跨领域技术融合需API技能支撑。API作为现代与未来软件开发的关键,使开发者能整合多系统功能。军事单位常受系统异构困扰,未来快节奏作战环境要求各级领导者理解如何利用API实现数据无缝交互,并快速整合攻防功能模块。

系统信任
托克维尔在《论美国的民主》中指出:"民主社会中的科学从业者……质疑系统,执着于可感知的事实"。尽管写于1840年,此观察至今适用。陆军《人才属性框架》七处提及"信任",均指向人际信任,未涉及系统信任行为。建议陆军扩展信任定义,或将系统信任纳入新型行为准则。

研究团队采用名义群体法(NGT)识别《人才属性框架》中需强化的才能领域。分析表明,技术感知型战争时代领导者需重点发展以下才能:

才能(才能领域) 技术通识(专业知识与个人能力) 经验开放性(个人特质) 数理素养(专业知识与个人能力) 问题解决(认知能力) 系统思维(认知能力)

图7:技术感知型战争需强化才能领域

  1. 技术通识:基础计算机技能、高阶计算机技能、网络安全知识、数据科学、创新技术、技术适应力
  2. 经验开放性:好奇心、创新思维、智力效率、包容性、模糊容忍度、适应性
  3. 数理素养:基础数学、高等数学、基础科学、数学推理、数学知识、科学方法论
  4. 问题解决:问题解决能力、结构化问题分析、故障排除、非结构化问题应对
  5. 系统思维:战略思维与系统化思考

现有面向未来领导者的培训、教育与认知提升项目

美国国防部(DoD)、高等院校与民间企业已探索多种创新教育模式,以满足不同学习偏好世代的需求。图8(下方)概述各机构采用的新型方法。按顺时针方向:国防部通过43项认知人类性能增强项目(含高校合作)覆盖多研究领域,军事机构还探索特定药物与神经系统刺激剂在训练与任务中的应用。

图8:现有培训、教育与认知项目概览

日本神田外语大学与新西兰联合理工学院等高校运用虚拟现实(VR)与增强现实(AR)等沉浸式技术强化语言学习与互动教育。纽约伦斯勒理工学院学生通过沉浸式实验室掌握中文的速度是同龄人的两倍。乔治城大学与麻省理工学院等顶尖学府研究神经可塑性方法以加速技能适应,医疗机构采用类似技术优化治疗方案以提升患者积极性。多所大学试验个性化学习模式,包括采用AI导师与助教的订阅制项目,实现无真人教师参与的互动教学。德国马尔堡菲利普斯大学率先启用全职机器人讲师"尤基"。美国国防部可借鉴此类颠覆性教育模式优化未来培训体系。

成为VIP会员查看完整内容
32

近年来,大型推理模型(Large Reasoning Models,LRMs)在诸如 DeepSeek-R1 等代表性模型的“慢思维”推理过程中取得了显著进展。尽管这些模型在推理能力上表现出色,但其巨大的计算开销也带来了诸多挑战。相比之下,小型推理模型(Small Reasoning Models,SRMs)通常由大型模型蒸馏而来,在效率方面具有明显优势,并可能呈现出不同于 LRM 的能力表现和认知路径。

本研究对约 170 篇近期发表的关于 SRMs 的论文进行了综述,涵盖了其在处理各类复杂推理任务中的应用。我们系统回顾了当前 SRMs 的研究现状,深入分析了其训练与推理方面的多种技术方法。同时,我们还对 SRMs 在特定领域中的应用进行了全面梳理,并探讨了未来可能的研究方向。 本综述为研究人员提供了一个重要的参考框架,助力其高效地利用或构建 SRMs,实现先进的推理功能。

1 引言

“要在小事上忠实,因为你的力量正是在其中显现。” ——特蕾莎修女 近年来,自然语言处理(NLP)领域因大型语言模型(Large Language Models,LLMs)的广泛应用而发生了深刻变革(Zhao 等,2023)。这些模型在多种下游任务中展现出卓越的能力。其中,专注于推理任务的大型推理模型(Large Reasoning Models,LRMs)(Xu 等,2025),如 DeepSeek-R1(DeepSeek-AI,2025)与 QwQ-32B1,尤为引人注目。这些模型通过模拟“慢思维”(slow thinking)过程,擅长解决诸如数学问题、代码生成、逻辑推理等复杂任务。 然而,这些模型卓越性能的背后是巨大的计算开销,无论是在训练还是推理阶段。例如,DeepSeek-R1 拥有 6710 亿参数,其在线部署至少需要配备八块 A100(80GB)GPU 的服务器或更高规格的硬件配置。 因此,研究社区日益关注更小规模模型的潜力(Fu 等,2023b;Magister 等,2023;Shridhar 等,2023;Zhang 等,2025a),期望在不显著牺牲性能的前提下,寻求更高效的替代方案。自 DeepSeek-R1 发布以来,开源社区涌现出大量成果,显示出具备“慢思维”能力的小型推理模型(Small Reasoning Models,SRMs)(即采用长链式思维过程(chain-of-thought,Wei 等,2022))在部分推理任务中甚至能超越规模更大的 LLM,如图 1 所示。 此外,SRMs 相较于 LRMs 通常表现出不同的能力特征与认知轨迹(Yan 等,2023;Zhang 等,2024a;Hu 等,2024b),因此其训练与推理方法在本质上也有所区别。当前已有大量研究致力于构建性能强劲的 SRMs,力图使其在效果上接近甚至超越 LRM。 尽管已有一些综述聚焦于 LLM 在推理任务中的应用(Plaat 等,2024;Xu 等,2025;Huang 和 Chang,2023;Giadikiaroglou 等,2024;Ahn 等,2024),但专门围绕 SRMs 的综述和系统性研究仍显不足。 为此,本文将对 SRMs 进行简明而全面的综述。我们系统梳理了近三年内公开或发表的约 170 篇相关研究论文,旨在整合关于 SRMs 的技术方法、应用实践与未来研究方向等方面的知识。图 2 展示了本综述的整体结构。

**本综述涵盖内容:

对当前开源社区中主流的 SRMs 进行简要回顾; * 探讨多种旨在增强预训练模型推理能力的训练与推理方法; * 梳理 SRMs 在特定领域的应用实践; * 分析未来研究的可能方向,并提出相应建议。

**不涵盖内容:

本综述不涉及整个 LLM 架构的设计或通用算法,也不讨论与复杂推理无关的任务;此外,诸如模型压缩(如剪枝、量化)或大规模预训练等通用小模型构建技术也不在本综述范围内。我们的关注点集中于 SRMs 在推理任务中的特定技术与应用。 总之,SRMs 的研究为 NLP 社区带来了一个重要且契合当下趋势的方向。通过进一步挖掘其高效与强大推理能力,研究人员有望推动更加高性能、可持续的真实世界智能系统的构建与落地。

成为VIP会员查看完整内容
28

随着基于大语言模型的商用产品取得显著进展,人工智能(AI)议题在公共讨论中持续升温。随着AI能力的发展,人们对其经济与安全影响的担忧日益加剧。本报告通过实证预测算法进步的方向、速度与指标,为政策制定提供参考。作者阐释了AI算法改进的可能路径,并探讨各路径进展的潜在影响。通过研究数值分析、运筹学与计算机科学领域的算法,界定了新算法引入的实证机制及改进定义方式。

作者指出推动AI系统近期发展的两大关键驱动力:允许广泛改进的新型合成数据生成方法,以及具备更高数据效率的替代架构。若无此类改进,小型模型可能主导市场。若仅实现单一路径突破,小型模型或成主流,但大型模型仍有存在价值。若双路径均获进展,大型模型可能提供更具实用价值的能力。

主要发现

算法改进存在两条潜在高影响力路径:

  1. 通过生成合成数据或修剪现有数据,构建更适配AI训练的数据集以改进算法。
  2. 开发数据效率更高的算法(相比Transformer模型计算成本更低或单次迭代效率更优)。

这些路径可能催生三种AI发展情景:

  • 若数据限制成为瓶颈:当额外数据不可获取导致模型无法有效扩展时,小型专用AI系统可能主导市场。
  • 若算法扩展失败:当通过合成生成获取额外数据但新算法无法有效提取性能增益时,大型模型研发或持续,但小型系统仍占主流。
  • 若算法持续进步:当数据充裕且算法能高效利用时,更大规模模型将在近期AI研究中占据重要地位。

成为VIP会员查看完整内容
32

全球产业发展现状

  近年来,随着生成式人工智能技术的逐渐成熟与广泛应用,全球大模型市场规模迅猛增长。根据市场研究机构数据,大型语言模型(LLM)的市场规模在202年的价值约为15.9亿美元,预计到202年将达到840.1亿美元,年复合增长率达到79.8%。   各国政府高度重视人工智能大模型,围绕人工智能关键环节加强政府投资,促进产学研合作,并强调全球对话,加强人工智能治理的国际合作。   发展现状   我国产业发展现状   近年来,我国人工智能产业呈现出蓬勃发展的态势,根据市场研究机构数据,2024年中国Al大模型市场规模达到165亿元,预计到2028年市场规模将达到624亿元,复合增长率为40%。   我国对于大模型行业整体秉持包容审慎的态度,大模型相关政策的颁布自2024年起呈现密集态势。   中央及各部委Al政策重在顶层设计和推广典型应用,地方AI政策主要强调Al技术的落地应用,引导地方传统产业实现转型升级等。  

成为VIP会员查看完整内容
29

推理是一种基础的认知过程,使智能体具备逻辑推理、问题求解与决策制定的能力。随着大语言模型(Large Language Models,简称 LLM)的快速发展,推理能力已成为先进人工智能系统区别于传统聊天机器人模型的关键特征。 在本综述中,我们从两个正交维度对现有方法进行分类: 1. 推理范式(Regimes):指推理发生的阶段,分为推理时刻(inference-time)专门训练(dedicated training); 1. 推理架构(Architectures):指参与推理过程的系统结构,涵盖独立的 LLM引入外部工具的智能体系统(agentic systems),以及**多智能体协作(multi-agent collaboration)**等不同类型。

在每个维度下,我们进一步从两个关键视角展开分析: * 输入层面(Input level):研究如何构造高质量提示(prompts),使 LLM 基于良好的条件进行推理; * 输出层面(Output level):聚焦于如何优化多次采样的候选输出,以提升推理质量。

该分类框架系统性地梳理了 LLM 推理能力的发展图谱,揭示了几个关键演进趋势,例如: * 从“推理扩展(inference scaling)”向“学习推理能力(learning to reason)”的转变(如 DeepSeek-R1); * 向“智能体式工作流(agentic workflows)”的过渡(如 OpenAI Deep Research、Manus Agent)。

此外,本文还覆盖了广泛的学习算法,包括从监督微调(supervised fine-tuning)强化学习(如 PPO 与 GRPO),以及用于训练推理器(reasoners)验证器(verifiers)的多种机制。 我们还回顾了智能体式工作流的关键设计模式,从经典的生成-评估器结构(generator-evaluator)LLM 辩论机制(LLM debate),到最新的创新框架。 最后,我们指出了当前研究中的新兴趋势,例如面向特定领域的推理系统,以及亟待解决的开放问题,如评估标准与数据质量控制。 本综述旨在为人工智能研究人员与实践者提供一个全面的理论与方法基础,以进一步推动大语言模型中的推理能力发展,为构建更加复杂、可靠的 AI 系统铺平道路。

成为VIP会员查看完整内容
32
Top
微信扫码咨询专知VIP会员