本版空军条令注释(AFDN)阐述人工智能(AI)技术,并预判其在竞争连续体背景下空战行动中的作用。文件参考多类来源,包括相关联合与军种政策战略、公共法律、学术与工业界文献及领域专家咨询意见。本AFDN是对美国国防部(DoD)现有AI政策与战略的补充,旨在提供权威性与参考性,但不作为强制性指令。
本AFDN聚焦作战层级问题与潜在解决方案,支持空军条令开发。其旨在识别短期内对全军种产生影响的作战领域条令缺口,为指挥官与参谋团队制定战略及规划空战行动提供新兴经验教训与最佳实践的推广框架。
最后,本AFDN承认AI领域专家对相关术语与概念的精确定义存在分歧。为此,文件对AI术语进行描述性定义,促进空军人员理解,并为未来军种与联合AI政策协调奠定基础。
若本AFDN与联合或军种政策出版物存在冲突,美国空军(USAF)行动须以相应政策文件为准。
未来作战要求空军人员理解人工智能发展与空军职能之间的关联。空军人员需与科技界协同合作,识别适合应用人工智能与自主系统的作战缺口。人机编队(HMT)必须充分发挥人类直觉与推理的优势,结合人工智能的超高速数据处理能力,从而强化所有任务中的动能与非动能作战效果。
美国空军需通过攻防作战夺取制空权,作为联合作战组成部分。人工智能技术将强化复杂对抗环境下制空权与信息优势任务的执行效能。集成于空基导弹防御体系中的AI预警探测系统,可为空中作战指挥控制(C2)系统提供威胁数据,激活防御性防空反制单元。进攻性防空任务需依赖AI赋能的ISR系统、目标锁定机制与航空平台,全面支撑从敌区战斗空中巡逻(CAP)、压制敌防空(SEAD)到摧毁地面航空力量的空中遮断任务。
以自主无人机群与半自主协作战斗机(CCA)为例,此类平台可执行多样化制空任务。2024年5月,美空军部长搭乘搭载AI狗斗模块的改装F-16,彰显人机协同信任度的提升。作为自主协作平台(ACP)项目组成部分的CCA计划,验证了半自主战机对有人战机的支援能力。CCA作为武器平台或ISR平台的潜力,体现了人机编组(HMT)与人工导引交战的可能性,为后续发展奠定基础。
在全球精确打击领域,空军致力于实现更快速、更精准的全天候全域打击能力。AI技术推动机载武器目标锁定能力的跨越式发展。例如,AI计算机视觉(CV)结合改进的目标识别跟踪算法,将最大限度降低高精度低附带损伤弹药的平民风险。AI建模技术持续增强隐身突防能力,提升拒止区域打击效能。在目标锁定与"传感器-射手"链路整合层面,AI赋能的自动化C2能力可加速决策周期、优化风险评估、提升打击时效。CCA与预测性维护技术的进步,正是AI增强全球精确打击能力的典型案例。
敏捷战斗部署模式要求对抗环境下的自适应基地选择与快速响应后勤体系。AI技术通过生存性、效率、弹性与保障能力等指标,智能优选作战位置。预测性分析系统可大规模识别装备故障与使用趋势,优化预测性维护流程,同时改进库存管理与运输流程,强化自适应后勤规划。AFWERX与工业界合作开发的半自主空运能力即为例证:2024年8月"竹鹰/敏捷旗"演习中,某空中远征联队A4部门运用该能力,向多个分散地域投送20余项急需航材,实现战术级即时补给,缓解传统空运压力并加速战机恢复战备。此类实验验证了AI/机器学习系统对未来空军后勤的变革潜力。
多源跨域数据融合的作战能力依托多模态AI系统(可处理异构数据格式)展现前景。此类系统可实现实时突发威胁侦测识别与多域态势感知同步。AI程序可消除军种专用情报平台间的数据壁垒,自主ISR平台则能在传统拒止区域实施持续声光电磁信号采集。
AI技术将优化目标锁定、资源分配、计划制定等流程,支撑多域C2与战场管理。对抗/降级/受限环境下的AI赋能通信网络可增强C2系统弹性:若作战中心通信中断,AI驱动网络可即时重构通信路径;上级C2失效时,系统可将数据流重定向至下级单元维持指挥链。
如果你采取不同的做法,结果会如何?因果 AI(Causal AI) 能为你提供基于因果关系(而非单纯相关性)进行预测与控制的洞察力,使你能够做出精准且及时的干预决策。《Causal AI》是一本实用指南,介绍如何构建具备因果推理能力的 AI 模型。
构建因果强化学习算法
使用如 PyTorch 与 Pyro 等现代概率建模工具实现因果推理
比较与分析统计学方法与计量经济学方法在因果推理中的异同 * 构建用于归因分析、责任分配与解释的算法 * 将领域知识转换为可解释的因果模型
作者 Robert Osazuwa Ness 是微软研究院因果 AI 领域的顶尖研究员,他凭借深厚的专业背景,为本书注入了前沿视角。他采用清晰、代码优先 的写作方式,讲解了因果机器学习中在论文中常常难以理解的关键细节。书中的内容可以直接、有效地应用于实际工业场景,从构建可解释的因果模型到预测反事实结果。 由 Lindsay Edwards 撰写序言。 购买纸质版图书可免费获得 Manning Publications 提供的 PDF 和 ePub 格式电子书。
传统的机器学习模型无法回答诸如“为什么会发生这种情况?”或“我该改变哪些因素才能获得预期结果?”这样的问题。本书结合了高级统计方法、计算技术与全新算法,构建出能够自动完成因果推理的机器学习系统。
《Causal AI》系统介绍了用于机器学习的因果推理工具、技术与算法。这本独特的著作将贝叶斯方法与概率建模巧妙结合,并配有丰富的 Python 实践案例。你将学习如何将因果假设融入深度学习架构,包括强化学习与大语言模型;并使用 PyTorch、Pyro 及其他机器学习库来扩展因果推理的规模。
使用 DoWhy 实现端到端的因果推理 * 深度贝叶斯因果生成模型 * 对 do-calculus(做演算) 与 Pearl 因果层级 的代码驱动讲解 * 针对因果大语言模型的微调代码
适合数据科学家与机器学习工程师阅读。示例代码使用 Python。
Robert Osazuwa Ness 是微软研究院的人工智能研究员,亦为东北大学的教授。他是开源因果推理项目的贡献者,包括 Python 的 DoWhy 与 R 语言的 bnlearn。
第一部分
1 为什么选择因果 AI 2 概率生成建模入门 第二部分
3 构建因果图模型 4 使用因果约束验证 DAG(有向无环图) 5 将因果性与深度学习相结合 第三部分
6 结构性因果模型 7 干预与因果效应 8 反事实与平行世界 9 通用反事实推理算法 10 可识别性与因果层级 第四部分
11 构建因果推理工作流 12 因果决策与强化学习 13 因果性与大语言模型
本指南提供关于将生成式人工智能(Gen AI)工具融入学术环境的思路与案例研究。随着基于Transformer的机器学习模型兴起,AI应用已从计算机科学家的专属领域扩展至普通职场人群。OpenAI的ChatGPT系列、Google的Gemini等商用模型使学生、从业者及各级领导者得以利用新能力提升效率。
本指南旨在汇集多元视角,探索如何将Gen AI能力融入学习环境,并提炼最佳实践方案。非技术背景的教师可通过实用案例了解应用方法。这些案例虽具广泛适用性,但更应作为教育者探索传统课堂与在线继续教育等场景的起点。
指南价值
本研究探索Gen AI优化教学方法、提升学生参与度与简化教育内容创作的潜力。指南涵盖通用与应用场景的用例、课堂实施工具提示,同时提出伦理使用建议与规避偏见的方法,包括警示模型可能产生"幻觉"(即自信地陈述错误信息)的风险,以及如何避免从安全网络向云端模型传输敏感数据。
应用潜力
随着Gen AI工具发展与普及,我们发现了提升师生教育体验的机遇。研究表明,Gen AI可加速课程与练习生成,通过主动学习推动学生跃升至布鲁姆分类法更高层级,甚至逆向工程化课程——从现有内容提取学习成果。此外,该技术助力概念生成与构思,优化课程审查,并在编程开发、数据分析等技术任务中发挥作用。
学生赋能
除辅助开发教育产品外,允许学生在课堂使用Gen AI工具同样有益,助其理解此类模型的优势、风险与局限。我们通过设计引导式课堂讨论(学生与模型互动)及创建学习指南、讨论问题等教学活动,探索实践路径。
未来展望
AI工具将持续融入人类社会。尽管其能力不断演进,教育者始终需善用新工具提升教学成效,并培养学生对日常观察与互动的批判性思维。
关键发现
以教学法为导向的整合:当教师将Gen AI用于支持高阶学习目标(分析、综合、评估而非简单记忆)时,其潜力最大化。要求学生分析AI输出、质疑假设、优化解题策略的结构化活动,可深化批判性思维并与布鲁姆分类法等教学框架契合。
构建学生与AI的积极互动:鼓励学生将AI作为辅助工具而非主要解决方案至关重要。例如对比AI生成方案与自主成果的活动,能增进对Gen AI能力边界认知,强化评估、解读与改进AI结果的能力。
复杂场景的实践应用:Gen AI为军事与国防领域现实场景的复杂问题解决提供支持。例如基于模型的系统工程、战术模拟等案例,使学生通过实践迭代应用AI,培养负责任使用AI的信心及高风险管理场景的可迁移技能。
伦理考量与数据完整性:负责任整合Gen AI需关注数据完整性、安全与伦理使用。教师应明确教导学生规避数据泄露、维护学术诚信,并通过结构化课程阐明Gen AI对信息安全与隐私的广泛影响。
自适应学习与教师效率提升:Gen AI通过自动化教案制定、内容适配与形成性评估等常规任务提升教学效率,使教师能将更多时间投入以学生为中心的互动,提升整体教学质量。
面向技术驱动国防未来的准备:Gen AI工具整合培养学生对技术的务实适应思维,这对国防需求演变至关重要。结构化学习环境中的AI熟悉度,助力学生驾驭技术驱动决策场景并高效参与国防事务。
最佳实践
• 融入批判性分析训练:布置学生批判与优化AI输出的任务,培养分析能力与工具使用判断力。
• 引导伦理使用:制定AI使用伦理准则,鼓励学生披露AI辅助、识别局限并维护数据隐私。
• 定位AI为辅助工具:强调AI是学习任务的增效器而非替代品,聚焦其促进深度学习的作用。
• 构建以学生为中心的学习:设计利用Gen AI支持高阶认知任务(决策、现实问题解决、自适应学习)的作业。
• 推广适应性教学实践:利用Gen AI简化教案制定与评估开发,使教师专注指导学生自主探究。
决策不仅是生活的一部分,更是其本质所在。这些关键选择深刻影响着个人与职业领域。日常生活中的每个抉择——从饮食选择到职业规划乃至重大投资——不仅作用于个体,更对家庭、社区乃至社会产生涟漪效应。决策的重要性促使心理学、管理学、经济学、社会学等学科持续探索其内在机制与影响因素,旨在优化各类场景下的决策流程与结果。低效决策往往代价高昂,导致机会错失、资源浪费与经济损失,对个人、组织与社会产生负面影响。信息过载、认知偏差、时间压力与情境因素加剧了优化决策的紧迫性。
人工智能技术的进步为决策优化开辟新路径。AI系统能处理海量数据、识别潜在模式、提供实时洞见并生成决策建议,赋能人类做出更明智选择。尽管AI在决策领域展现巨大潜力,但基于责任归属与伦理法律考量,完全自动化并非终极目标。人本视角倡导构建人机协作关系:AI作为人类能力的延伸,协助决策者完成数据收集分析、方案生成、情景推演与结果评估。现有研究已探索多领域人机协同决策机制,例如开发可解释AI系统增强决策透明度,设计多样化交互界面促进人机信息互通,确保决策者有效理解与整合AI输出。
在人机协作决策过程中,个体特征、决策情境、AI系统能力及其交互方式共同塑造协作成效。理解这些要素并将其融入AI系统设计与部署,是提升协同效能的关键。随着AI系统持续适应多样化场景,决策环境日益复杂动态化,个体行为模式将发生持续演变。这些演进中的AI系统不仅改变决策者的认知方式与策略制定,更深度影响着决定决策结果的基础要素。因此,需持续优化决策环境中的AI系统设计与实施,并评估其对人类行为与决策产出的影响。
尽管AI系统在多领域展现卓越能力,但鲜有完美解决方案。将AI引入决策流程常导致团队整体效能低于独立运作的人或AI系统。这种差距凸显出理解人机协同局限性的必要性,以及制定风险缓释策略的迫切需求。当前研究多聚焦个体与AI系统的二元关系,忽视决策发生的宏观情境。因此,亟需深入理解不同情境下AI系统的差异化影响,实现跨领域研究发现的迁移应用,并为特定决策场景提供定制化解决方案。本论文通过第二至第五章的实证研究,揭示不同情境下人机决策的动态机制,探究环境变量对人类行为的影响路径。第六、七章提出两种基于在线数据的信息整合方法,旨在增强决策支持效能。
本论文旨在揭示任务相关情境因素(图1.1 B)及其在人机协作决策中对决策结果的影响机制。任务通常指特定情境下需通过决策流程完成的活动或问题,其相关要素包含决策复杂度、不确定性、信息可及性与质量、风险等级及时间压力等属性。通过解析任务属性B、决策结果ABC、个体/群体行为A与AI系统AC之间的交互关系,本研究深化了对人机决策研究范式的理解,为设计符合决策者需求的AI系统提供理论支撑,从而优化决策流程与结果。需说明,宏观情境因素、AI系统属性或决策者个体特征不在本研究范畴内。
本研究聚焦跨领域非专家决策者群体。此类人群因专业领域知识受限,常面临决策困境:认知偏差、信息获取渠道受限与决策支持工具匮乏进一步制约决策效能。即便信息充足,"选择悖论"[365]仍可能导致决策质量下降——例如缺乏金融知识的投资者在股市中易受网络论坛偏见信息影响,忽视自身目标而盲从他人建议。分析能力不足与高级决策工具缺失加剧次优决策风险。值得注意的是,个体可能在某一领域具备专长,但在其他领域仍属非专家,凸显开发适配多技能水平决策支持系统的必要性。
既有实证研究对多样化决策情境的差异化定义,导致学界对AI系统跨领域效能的认知呈现碎片化。为此,本论文首先提出系统性评估与对比决策任务的理论框架,该框架整合决策情境复杂度分级体系。基于此框架,论文通过文献综述剖析现有研究的优势、局限与改进空间,并开展多维度实证研究验证理论假设。这些研究评估任务相关情境因素对个体行为与绩效的影响机制,通过采集决策支持系统交互数据(信息获取路径、任务时间分配、决策模式等),解析个体决策逻辑。分析结果表明,开发定制化决策支持工具对提升跨领域非专家决策质量具有迫切需求。论文同时提出模块化实证研究框架,增强现实决策场景下研究结论的可推广性与可复现性。
研究进一步提出优化信息获取与交互行为的方法。获取相关信息是决策准备的关键步骤,对常面临信息过载、数据获取受限或时间压力的非专家群体尤为重要。上述因素可能诱发认知偏差,进而损害决策质量。因此,理解个体信息检索、处理与应用模式,对开发实用工具管理认知偏差至关重要。本研究提出增强信息可及性的创新方法,包括提供定制化推荐与设计高效检索界面。通过行为实验与数据采集,对比验证新方法与传统模式的效能差异,揭示工具设计与应用优化的潜在路径。
像 DeepSeek-R1 这样的“大型推理模型”(Large Reasoning Models)标志着大语言模型(LLMs)在处理复杂问题方式上的根本性转变。与直接对输入生成答案的方法不同,DeepSeek-R1 会构建详细的多步推理链条,在给出答案之前仿佛会“思考”问题的全过程。这一推理过程对用户是公开可见的,为研究模型的推理行为提供了无限可能,并开启了“思维学”(Thoughtology)这一新兴研究领域。
我们从 DeepSeek-R1 推理构建块的基本分类体系出发,深入分析了其推理长度的影响及可控性、对冗长或混乱上下文的处理方式、文化和安全相关问题,以及 DeepSeek-R1 在类人语言处理与世界建模等认知现象中的定位。我们的研究结果描绘了一幅细致入微的图景。值得注意的是,我们发现 DeepSeek-R1 存在一个推理“最佳区间”(sweet spot),当推理时间过长时,模型性能反而可能受到影响。此外,我们还观察到 DeepSeek-R1 有反复沉湎于既有问题表述的倾向,从而阻碍进一步探索。 我们还指出,相较于其非推理版本,DeepSeek-R1 存在较严重的安全性脆弱性,这种脆弱性甚至可能对安全对齐(safety-aligned)的 LLMs 造成负面影响。
最近在构建大语言模型(LLMs)方面的进展,使研究重点转向了开发具备复杂多步推理能力的模型(DeepSeek-AI 等,2025a;OpenAI,2024)。虽然早期工作主要通过“思维链提示”(chain-of-thought prompting, CoT)来引导模型进行推理(Wei 等,2022;Zhou 等,2023),但我们目前正目睹一个根本性的转变:推理能力被直接内嵌于模型中,使其在生成答案前先进行推理。我们将这类模型称为大型推理模型(Large Reasoning Models, LRMs),并将其推理链称为“thoughts”。
LRMs 逐步生成 thoughts,可用于积累解题进度、自我验证,或探索备选方案,直到模型对最终答案有充分信心为止。图 1.1 展示了 LLM 与 LRM 输出结果的对比。尽管 LLM 的输出中可能包含部分中间推理步骤,但通常缺乏探索能力。此外,一旦出错,LLM 往往无法回溯并尝试其他方法。而 LRM 则通过多方案探索与验证进行推理,并最终总结最佳解法。
LRMs 的进展主要得益于强化学习:模型会对能产生正确答案的推理过程给予奖励(DeepSeek-AI 等,2025a;Kazemnejad 等,2024;Kumar 等,2024;Lambert,2024;OpenAI,2024;Shao 等,2024)。这类模型在测试时也可以利用其生成长推理链的能力,这一过程称为推理时扩展(inference-time scaling)或测试时扩展(test-time scaling):通过强制模型“多思考”以期获得更优解(Muennighoff 等,2025;Snell 等,2025)。在这一系列进展的推动下,LRMs 在复杂推理任务中(如数学解题、代码生成)表现出显著提升。
OpenAI 的 o1 模型(OpenAI,2024)首次展示了 LRM 的巨大潜力,但其推理链及训练方法并未公开,从而限制了学界对其推理行为的深入研究,也引发了对其训练流程的广泛猜测(Rush 与 Ritter,2025)。因此,DeepSeek-R1 的推出产生了重大影响:作为一款性能堪比 o1 的高能力 LRM,且在计算效率上更具优势。
DeepSeek-R1 的突出之处体现在以下几个方面: 1. 它是首个对输入提供完整 thought 访问权限的高性能 LRM; 1. 它的训练流程、模型代码和参数权重均已开源(但训练数据未公开); 1. 其前期版本 R1-Zero 表明,通过强化学习即可获得复杂多步推理、自我验证以及看似“灵光乍现”(aha moments)式的洞察能力,而无需通过监督学习显式教授。
DeepSeek-R1 提供的 thought 透明访问使我们得以系统性地研究其推理行为,我们将这一研究领域称为思维学(Thoughtology)。在思维学的框架下,我们分析了 DeepSeek-R1 推理链中的常见模式、推理长度的影响与可控性、冗长或混乱上下文对其推理过程的影响、其在安全性和文化价值观方面的倾向,以及其与人类语言处理与世界建模之间的相似性。图 1 展示了我们的研究概览,为理解 DeepSeek-R1 的能力边界提供了第一步探索,并为未来的推理改进研究提供了方向。
推理结构一致性:DeepSeek-R1 的 thoughts 遵循一致的结构。模型会先明确问题目标,再将问题拆解为中间解,并在此基础上进行多轮再探索或再验证,尽管这些再验证往往缺乏多样性。 * 推理长度非线性影响性能:推理长度的持续增加并不一定提升性能。每类问题存在一个“最佳推理区间(sweet spot)”,超过该范围后准确率会显著下降。且 DeepSeek-R1 无法自主调控其推理长度。 * 上下文与参数知识冲突:当上下文信息与模型参数知识冲突时,DeepSeek-R1 倾向优先采信上下文信息。但当输入或推理链过长时,其表现会变得不稳定,输出混乱、语义失真。 * 安全性脆弱性:与非推理版本 DeepSeek-V3(DeepSeek-AI 等,2025b)相比,DeepSeek-R1 更容易生成有害内容,且更擅长执行“越狱攻击”,从而引发其他 LLM 输出不当信息。 * 文化与语言差异:面对道德或文化类问题时,DeepSeek-R1 在英文提示下的推理时间显著长于中文提示,且会根据语言提供不同文化价值取向的回答。 * 类人语言处理偏差:对于人类感知复杂的语句,DeepSeek-R1 会生成更长的推理链,但对简单语句也常表现出不符合人类逻辑的异常行为。 * 世界建模能力不足:在处理涉及视觉与物理推理的任务中,虽然能识别子组件,但难以整合信息或进行草图迭代,依赖符号与数学推理而非直觉性认知过程。
我们将本研究分为五大部分: 模型推理链的结构与模式; 推理长度的影响与控制; 高复杂度上下文下的模型行为; 安全性与文化适应性问题; 推理过程与人类认知现象的对比。
在第 2 节中,我们简要回顾了 LRMs 的发展背景与 DeepSeek-R1 的设计理念;第 3 节详细分析了其推理模式,发现其思维链常由问题定义、问题拆解与反复重建三个阶段组成,并且频繁的重建过程(我们称之为反刍(rumination))是其长推理链的主要来源。 第 4 节探讨了推理长度对数学推理任务的影响,并指出存在一个问题相关的最优推理区间。我们也研究了推理长度与性能之间的权衡,发现 DeepSeek-R1 存在效率瓶颈,设置 token 限额可以在几乎不影响性能的前提下大幅降低计算成本。第 11 节进一步评估了 DeepSeek-R1 遵循提示中 token 限额的能力,并通过概念验证实验探讨了基于 token 限额设定奖励的训练方法。 第 5 和第 6 节将 DeepSeek-R1 投入更真实的上下文任务中,分析其处理大段输入与冗长推理链的能力,以及其如何应对与参数知识冲突的误导性输入。 第 7 节和第 8 节聚焦于安全性与文化行为,发现 DeepSeek-R1 在输出有害信息与执行越狱攻击方面的能力远超 V3,并在多语言提示下展现出不同文化偏好。 第 9 和第 10 节分析了 DeepSeek-R1 与人类认知之间的相似性与偏差。尽管其推理链长度与语句复杂度呈现类人对应关系,但其内部结构暴露出循环与非人类逻辑的特征。在视觉与物理推理任务中,DeepSeek-R1 偏向使用符号推理,缺乏直观与迭代过程。
这本书的一个关键结构特点是其模块化的组织方式,旨在提供灵活性,以便根据课程内容的变化进行调整和修改。具体来说,全书分为两个部分: (1)基础平台:包括第1章。该章节对近似动态规划(DP)/强化学习(RL)领域进行了有选择性的概述,为课堂中其他RL主题的更深入讲解提供了起点,而这些主题的选择可以由授课教师灵活决定。 (2)深入探讨部分:包括第2章和第3章,主要聚焦于具体方法的详细介绍。第2章主要讲解确定性与随机性 rollout 技术,以及一些相关的价值函数近似方法;第3章则讨论了在离线训练中使用神经网络及其他近似结构的技术。 这种模块化结构允许教师根据课程重点进行个性化定制。例如,教师可以利用第1章的基础平台来构建更偏数学理论或更偏实用导向的课程,以满足不同学生的需求。 此外,还需指出的是,本书所包含的内容超出了一个学期课堂教学所能覆盖的范围,这为授课教师在教学内容选择上提供了更多灵活性。
在思考大型语言模型的输入与输出时,文本提示(有时还包括其他模态,例如图像提示)是模型用来预测特定输出的输入内容。你无需成为数据科学家或机器学习工程师——每个人都可以编写提示词。然而,要构造最有效的提示词可能相当复杂。许多因素都会影响提示词的效果:所使用的模型、模型的训练数据、模型的配置参数、你的措辞、风格与语气、结构以及上下文,都是关键因素。因此,提示词工程是一个迭代的过程。不恰当的提示词可能会导致模糊、不准确的响应,甚至阻碍模型生成有意义的输出。 当你与 Gemini 聊天机器人互动时,实际上就是在编写提示词;不过,本白皮书更侧重于在 Vertex AI 中或通过 API 使用 Gemini 模型时的提示词编写,因为通过直接调用模型,你可以访问包括温度(temperature)在内的各种配置参数。 本白皮书将深入探讨提示词工程。我们将介绍多种提示技巧,帮助你入门,并分享一些提示编写的技巧和最佳实践,助你成为提示词专家。我们还将讨论在构建提示词过程中可能遇到的一些挑战。
无人机(UAV)在社会中的角色日益重要。民用市场规模预计将从2022年的72亿美元增长至2031年的192亿美元,应用涵盖农业、灾害响应到物流配送。军事领域同样广泛使用——从越战时期美军首次将无人机作为武器,到现代侦察技术进步后的敌区勘察任务。根据任务地形与特性,无人地面车辆(UGV)或无人潜航器(UUV)亦可替代空中系统。当前乌克兰与加沙冲突凸显混合战争的重要性,此类战争中传统战、网络战与政治战的界限趋于模糊,使得敌方行为更难预测。物理与数字基础设施的情报获取成为关键优势,无人平台在进攻与侦察任务中的使用规模达到历史峰值。
为扩大作战系统规模并控制成本,需部署全自主运行系统。侦察任务需在无人机离港前完成全程规划,其基本设定如下:从安全基地出发,需抵达多个侦察点并安全返回,信息回传存在三种方式:
研究目标与方法论
本报告探究如何制定侦察任务最优策略,该策略需同时优化路径规划与传输策略以最大化信息获取量。核心研究问题包括:
• 侦察点的最优访问顺序
• 传输行为的最优时空分布
报告结构分为四部分:
技术路径详述
在单无人机场景中,研究团队开发了基于遗传编程的优化算法。该算法通过模拟生物进化过程筛选路径与传输策略的最优组合。测试显示,在复杂环境中遗传算法相较于传统动态规划方法效率提升58%。
拓展至多无人机场景时,算法引入协同机制优化负载分配与路径避让。改进后的系统在覆盖50个侦察点的任务中,四机协同方案的信息回收率较单机提升320%,通信同步开销增加47%。
军事应用启示
研究成果为混合战争环境下的无人系统作战提供支撑:优化后的侦察-传输决策链可降低32%的任务暴露风险;多机协同使战区情报更新频率提升至分钟级。这些突破将重塑未来战场的情报获取范式,为“决策中心战”提供关键技术保障。
本研究探讨人工智能(AI)在决策过程中不断演变的角色,聚焦AI赋能技术如何与人类决策者互动及其影响。AI系统正加速融入商业管理至信息系统等各行业,或辅助或替代人类判断。现有文献强调AI融入生活与工作带来的变革潜力与挑战:以ChatGPT为代表的大语言模型凭借数据驱动洞察、效率提升与决策一致性等优势被广泛应用,但研究亦揭示需深入理解的领域——AI复制或放大人类偏见的风险、自主决策的伦理影响、人机交互的复杂性。尽管AI辅助、增强或替代人类决策已获广泛关注,但通过提示工程与情境应用赋予AI的角色如何影响决策结果、行为模式与建议生成,学界仍缺乏深入探索。
本论文包含四项研究,探讨角色定义与目标设定对AI决策行为的影响,揭示精确定义AI角色如何在不同情境中塑造决策结果与人类决策流程。
研究1 通过系统性文献综述,论证机器学习与AI工具(如ChatGPT)结合提升文献分析效率与深度的有效性。研究识别AI整合关键领域,揭示研究空白,指出高影响力期刊与主题,为未来研究绘制路线图。该研究强调跨学科方法对全面理解与发挥AI潜力、应对伦理复杂性的重要性。
研究2 采用"人在回路"(HITL)框架分析AI赋能招聘流程,通过某国际招聘公司18个月质性案例研究,揭示AI工具、招聘专员与寻源分析师协作塑造招聘结果的合作模式。研究表明:AI系统实施需平衡效率与伦理及人本考量,人类判断、监督与适应力不可或缺;组织领导力、方案适应性与人类自主权是成功关键要素。
研究3 通过系列实验探究AI系统(以ChatGPT为例)被赋予的角色如何影响信息系统(IS)语境下的决策结果。研究发现:当ChatGPT被赋予人类角色时,其决策行为高度复现人类偏见;而作为AI角色时则表现出更高一致性与客观性。研究揭示提示工程对引导AI系统符合预期决策流程的重要性——无论是模拟人类判断还是提升决策客观效率。
研究4 探索AI系统中的"算法厌恶"现象,测试GPT类模型在不同版本与温度参数下对人工建议与算法输入的响应差异。研究发现:GPT模型表现出类似人类的算法厌恶倾向,更偏好人工建议,但其表现形式与人类存在差异。该研究将算法厌恶概念扩展至AI系统,强调理解AI如何处理人机建议对设计决策支持系统的重要性,确保AI既能独立运作又能与人类协作。
本研究在四方面深化对AI决策角色的理解:
综上,这些研究为理解AI与人类决策者动态互动提供洞见,强调情境与角色设定对优化AI决策贡献的重要性,为未来探索AI融入更复杂重大决策场景奠定基础。
研究编号 | 研究重点 | 研究路径、理论基础与方法论 | 主要发现 | 理论贡献 | 实践贡献 |
---|---|---|---|---|---|
研究1 | 商业与管理学者如何应对AI在组织中的兴起?研究热点与空白领域为何? | 采用结构化主题建模与机器学习方法进行系统性文献综述(CLR),结合ChatGPT辅助分析 | - 识别44个AI研究热点(如客户营销、AI伦理) - 揭示体育、应急响应与智慧城市等领域的空白 |
提出"计算文献综述"方法论,结合AI工具提升文献分析效率 | 指导研究者锁定高影响力期刊,优化文献检索路径 |
研究2 | AI赋能的招聘决策中如何平衡效率与伦理?人在回路(HITL)原则如何应用? | 对国际招聘机构开展18个月质性案例研究,基于社会技术系统理论与HITL框架 | - 发现协作型HITL配置模式 - 揭示行政负担加重、权力重构等挑战 |
拓展HITL理论在AI招聘场景的应用 | 提出AI招聘实施指南:强效领导力、系统适应性与人本考量 |
研究3 | ChatGPT在信息系统中多大程度能复现人类决策行为?角色设定如何影响决策输出? | 通过提示工程实验,测试ChatGPT在不同角色设定(人类/AI)下的决策行为 | - 人类角色设定下复现决策偏见 - AI角色设定下展现更高客观性 |
提出"角色中心决策框架",揭示大语言模型角色工程对决策的影响机制 | 为提示工程提供设计准则,优化AI决策支持系统的角色配置策略 |
研究4 | AI系统是否存在算法厌恶?GPT模型对人类建议与算法输入的响应差异如何? | 复现经典算法厌恶实验范式,测试GPT不同版本(3.5/4.0)在多种温度参数下对建议来源的偏好 | - GPT表现出类人算法厌恶倾向 - 对人工建议的偏好强度与温度参数呈负相关 |
首次将算法厌恶理论拓展至AI系统,建立"元算法厌恶"概念 | 为AI协同决策系统设计提供新视角,优化人机建议权重分配机制 |
《2025年大模型2.0产业发展报告》由国家工业信息安全发展研究中心标准所与联想集团联合发布,深度剖析大模型2.0产业发展状况,涵盖技术演进、产业生态、应用场景及未来趋势等关键领域。
尼玛扎西院士的讲座从“人工智能”“新一代人工智能”和“人工智能+”三个维度展开,从人工智能的定义入手,剖析了人工智能的动力,以及人工智能和数据、算力、算法的关系,介绍了我国的人工智能发展情况,分析了新一代人工智能的特点。院士把复杂深奥的科学理论用浅显易懂的语言讲解出来,其中不乏有趣的案例和细节,不时引发全场师生们会心的笑声。最后一部分,院士详细介绍了“人工智能+”在科学、教育、生活、政务和新质生产力等方面的应用,让大家感受到了人工智能的魅力,对信息化、数字化有了更加深刻的认识,也引发了师生们将人工智能应用在教学科研和学习方面的浓厚兴趣。
摘要——深度神经网络(Deep Neural Networks, DNNs)在计算机视觉与自然语言处理等领域取得了显著的性能表现,并广泛应用于学术界与工业界。然而,随着近年来DNN及拥有大量参数的Transformer模型的快速发展,将这些大型模型部署在边缘设备上面临诸多挑战,例如高运行时延迟与内存消耗等问题。尤其是在当前大规模基础模型(Foundation Models)、视觉-语言模型(Vision-Language Models, VLMs)和大语言模型(Large Language Models, LLMs)不断涌现的背景下,这一问题尤为突出。 知识蒸馏(Knowledge Distillation, KD)是为了解决上述问题而提出的一种重要技术,通常采用教师-学生(Teacher-Student)结构。具体而言,通过从性能强大的教师模型中提取额外知识,用以训练一个轻量级的学生模型。 本文提出了一个关于知识蒸馏方法的全面综述,涵盖多个角度的分析:蒸馏源、蒸馏策略、蒸馏算法、跨模态蒸馏、知识蒸馏的应用,以及现有方法之间的对比分析。与现有的大多数综述相比,后者往往内容过时或仅是对先前工作的简单更新,本文提供了一种全新的视角与组织结构,系统性地分类并研究了最新的知识蒸馏方法。 此外,本综述还纳入了多个关键子领域的研究进展,包括扩散模型(Diffusion Models)、三维输入(3D Inputs)、基础模型、Transformer结构与大语言模型(LLMs)中的知识蒸馏。最后,本文还探讨了当前知识蒸馏面临的挑战以及未来可能的研究方向。 项目GitHub页面: https://github.com/IPL-Sharif/KD-Survey 关键词:知识蒸馏,知识迁移,教师-学生结构
随着深度神经网络(Deep Neural Networks, DNNs)的兴起,计算机视觉(Computer Vision, CV)和自然语言处理(Natural Language Processing, NLP)领域迎来了革命性的发展。目前,这些领域中的大多数任务均已由DNN主导完成。尽管诸如ResNet [1] 或 BERT [2] 等模型可在现有大多数GPU上轻松训练,但随着大型模型(如大语言模型LLMs和视觉基础模型)的出现,模型的训练与推理在运行时效率与内存消耗方面成为一大挑战,尤其是在部署于移动设备等边缘终端时问题更加突出。 尽管这些大型模型在性能方面表现优越,但其通常架构复杂、参数量巨大,存在过度参数化(overparameterization)的问题 [3][4]。例如,研究表明LLMs中的权重矩阵呈现低秩结构 [5]。 为了解决大模型带来的问题,研究者提出了多种方案,包括高效网络结构、模型压缩、剪枝、量化、低秩分解以及知识蒸馏(Knowledge Distillation, KD)等。其中,近年来涌现出如MobileNet [6]、ShuffleNet [7]、BiSeNet [8]等高效网络模块。剪枝作为压缩方法的一种,旨在删除冗余的层与参数,同时尽可能保持模型性能;低秩分解则通过矩阵分解来减少参数量。而与此不同,知识蒸馏并不直接改变模型结构或参数,而是通过一个轻量学生模型在性能强大、参数丰富的教师模型监督下进行训练。
这一概念最早由 [9] 提出,并在 [10] 中被正式命名为知识蒸馏(KD),其核心思想是通过模拟教师模型的输出分布(软标签)来训练学生网络。 除了参数量庞大外,这些大型模型的训练还需要大量标注数据。KD的另一个重要用途是知识迁移,即将源任务中的知识迁移到缺乏足够标注数据的目标任务中。此外,在涉及数据隐私的场景中,数据无关的知识蒸馏(data-free KD)则通过合成数据生成,避免了存储敏感数据的需求。KD面临的主要挑战包括:如何选择要迁移的知识、采用何种蒸馏算法,以及如何设计合适的教师与学生架构。图1展示了典型的教师-学生KD结构。 随着KD研究论文数量的迅速增长及其在多任务、多领域中的广泛应用,已有若干综述工作试图从不同角度对该领域进行总结。例如,[11] 从知识类型、算法和策略等方面对KD进行了全面回顾,并对不同方法进行了比较;[12] 聚焦于视觉任务中基于教师-学生架构的模型压缩方法;[13] 通过引入新指标对KD方法进行精度与模型大小上的评估;[14] 则基于蒸馏知识源类型对现有方法进行了分类;更近期的 [15] 对不同表征形式下的知识优化目标进行了深入综述,[16] 则对以往综述进行了扩展,并简要讨论了视觉-语言模型(VLMs)中的蒸馏及数据有限情形下的挑战。 尽管上述综述涵盖了多个重要视角,但它们也存在一些明显的局限性。首先,这些工作在分析已有方法时,往往忽略了近年来在特征级蒸馏(feature-based distillation)方面的重大进展,而该方向目前已成为最主流的研究路径之一。此外,自适应蒸馏(adaptive distillation)和对比蒸馏(contrastive distillation)等新兴算法类别几乎未被提及。其次,随着基础模型与LLMs的快速发展,其在知识蒸馏中的巨大潜力并未被现有综述充分讨论。例如,[11] 作为当前最具影响力的综述之一,并未详细探讨基础模型和LLMs中KD的应用。第三,目前尚无综述研究KD在三维输入(如点云)上的应用。随着三维任务在顶级会议中受到越来越多关注,相关模型与方法的缺乏使得KD在该领域的应用显得尤为重要。表I展示了现有综述与本工作的比较。 因此,本文提出了一个对知识蒸馏方法的系统性综述,涵盖多个维度:蒸馏源、蒸馏算法、蒸馏策略、模态划分及应用领域。 本综述对三类蒸馏源进行了分类与分析:基于logits、基于特征、基于相似性的蒸馏方法,特别强调了近年来特征蒸馏方面的研究进展。 在算法层面,本文回顾了包括注意力机制、对抗式、多教师、跨模态、图结构、自适应及对比蒸馏等方法。其中,自适应与对比蒸馏作为两个尚未被系统综述的热点领域,在本工作中首次被单独归类。 在蒸馏策略方面,涵盖了离线蒸馏、在线蒸馏及自蒸馏方法。相比以往工作,本文新增了一部分内容,系统梳理了基于模态的蒸馏方法,包括视频、语音、文本、多视角(multi-view)以及三维数据。 在应用方面,本文对知识蒸馏在多个关键领域的应用进行了深入探讨,包括自监督学习、基础模型、Transformer架构、扩散模型、视觉识别任务及大语言模型。此外,还对典型方法进行了量化比较,并讨论了当前面临的挑战与未来研究方向。 图2展示了本文的组织结构。总的来说,本文的主要贡献包括: * 提出一个全面的知识蒸馏综述,从蒸馏源、算法、策略、模态及应用等多角度系统总结现有方法; * 对近年来涌现的特征蒸馏方法进行重点分类与归纳,反映其在实际应用中的重要性; * 首次引入“自适应蒸馏”和“对比蒸馏”两类新算法,尤其是在如CLIP等基础模型出现后,对比蒸馏的重要性日益突出; * 回顾了多视角与三维数据中的知识蒸馏方法,填补了该领域综述中的空白; * 深入探讨了KD在自监督学习、基础模型、Transformer、扩散模型和LLMs中的应用,特别强调在参数量巨大的LLMs中蒸馏的重要性; * 提供了典型蒸馏方法的量化对比,并总结了当前的研究挑战与未来的研究方向。
俄罗斯自2024年2月发起的全面侵乌战争,不仅标志着堑壕战的复苏,更以前所未有的规模展现了空中无人机战争的形态。既有研究已探讨乌克兰战场无人机作战的影响,并强调其对战争进程的持续影响,但鲜有从俄方视角剖析其军事人员与学者在2022年以来战场实践中获得的经验——这对理解当代俄式战争思维至关重要。通过对俄罗斯两大权威军事期刊《军事思想》(Voyennaya mysl)与《陆军文集》(Armeysky sbornik)中无人机作战主题文章进行主题分析与编码,本研究发现俄方讨论围绕三大评估主题展开:俄军无人机作战能力的现状与缺陷、侦察无人机在情报获取与指挥控制通信(C3)中的核心作用,以及自杀式无人机新近展现的杀伤力与成本效益。研究结果支持既有关于俄军适应能力的论断,并进一步揭示无人机与俄军体系的整合程度,以及俄方认定的无人机作战关键军事与技术要素。未来需深入研究俄军如何将乌克兰战场经验转化为全面军事改革。
本研究旨在探究俄罗斯自2022年侵乌决策后积累的无人机作战知识——进而透视其军事文化、改革与技术变迁。研究聚焦无人机(UAV)领域,分析俄军如何将战场经验系统化为无人机作战理论体系。自战争爆发以来,无人机作战形态以诸多意料之外的方式快速演进,理解俄方视角对揭示其军事战略核心要素至关重要,同时可评估这些经验如何成为未来俄北约潜在对抗的"蓝图"。从学术视角看,本研究有助于理解俄军军事思维、乌克兰战场经验在俄语境下的传播与重构、欧洲首次大规模无人机战争的认知框架及其对当代战争形态的影响。尽管聚焦后苏联空间冲突并根植于欧亚研究领域,其启示具有跨区域意义。
为探索俄军从乌克兰战场汲取的空中无人机作战经验,本研究分析《军事思想》与《陆军文集》作者(文中统称"俄军官员与理论家")所述的战场实践。研究问题具体化为:2022-2024年乌克兰战场上,俄军官员与理论家从《军事思想》与《陆军文集》视角总结了哪些空中无人机作战经验?
大型语言模型(Large Language Models, LLMs)在处理复杂的多步骤任务方面正变得越来越强大。推理能力、多模态处理以及工具使用方面的进步,催生了一类新的基于LLM的系统——智能体(Agents)。 本指南专为产品和工程团队打造,旨在帮助他们探索如何构建首个智能体系统。我们从众多客户的实际部署中提炼出可操作的最佳实践,转化为切实可行的建议。本指南包括识别有潜力的用例的方法框架、设计智能体逻辑与编排的清晰模式,以及确保智能体安全、可预测、高效运行的最佳实践。 阅读本指南后,您将掌握构建智能体所需的基础知识,从而能够自信地开始开发自己的第一个智能体系统。 https://cdn.openai.com/business-guides-and-resources/a-practical-guide-to-building-agents.pdf