美国白宫新颁布关于人工智能的行政命令要求建立人工智能评估生态系统,以在整个军队(包括太空军)推广生成式人工智能奠定基准。
国防部门应当持续评估源自生成式人工智能的情报产品。作战人员需要以类似驾驶者控制汽车的方式来看待生成式人工智能的运作。商业领域的大型语言模型供应商正按照国防部门预期工作构建安全与质量控制体系。
一年前,美国防部宣布与ScaleAI达成协议,将人工智能基准测试引入军队。
作战人员此刻就需要在战术层面获得这些能力。若将生成式人工智能交予那些未持续维护大语言模型输出质量的“无证”团队操作,该系统必将偏离正轨并彻底失效——正如缺乏维护的车辆注定故障频发。
缺乏战术层面质量控制的不可靠人工智能输出可能导致有缺陷的情报评估,从而在对抗环境中引发战略误判与非预期局势升级。
为何使用生成式人工智能时评估与基准测试至关重要?不可靠的人工智能将危及任务成功与人员安全。评估与基准测试不仅关键——对于生成式人工智能系统的操作完整性与可靠性而言,它们是不可妥协的要素。若缺乏持续测试以及与既定标准的严格比对,这些模型的输出在得到验证前均不可信任——尤其对于精度至关重要的任务而言。未能持续评估其性能将必然导致系统退化。这将使强大工具转化为可能为关键军事行动带来灾难性错误的负担。这种全面且严格的审查不仅是最佳实践——更是获取并保持决定性优势的基本要求,以防止可能让我们付出一切代价的战略脆弱性。
需要明确的是,由于没有任何整体评估系统能涵盖所有持续演变的战术任务用例,质量保障需要融入操作员规划与执行近距离机动的流程。即时工程是目前实现这一目标的最佳工具。当由领域专家在小队行动层面明智运用时,它能在评估生态系统中克服大型语言模型的问题。
国防部门已在依赖生成式人工智能与大型语言模型。但当大型语言模型更新时会发生什么?操作员如何评估使用新模型是否能提供与旧版本模型成果相同的精度与准确度?操作员如何知晓自己是否在一段时间内维持了质量响应?
健全的评估生态系统可解决这些挑战。但当卫士们将其生成式人工智能工作操作化时,自然语言处理与人工智能工作的基准测试在战术层面大多缺失。
存在一种可创建可行、高效且低成本解决方案的方法,以在使用大型语言模型时评估与保持成果一致性。事实上,由于军事垂直数据的多样性与特性,将其外包给第三方确实具有挑战性:当紧贴收集情报的领域专家团队时,其效果最佳。这些是军队能在内部培养并运用于整个国防部门的技能。
为保持操作完整性并确保从大规模大型语言模型驱动数据摄取中获取可执行洞察,小型团队应指定一名操作员担任“质量保障哨兵”。“质量保障哨兵”这几个字准确体现了对质量保持警惕并确保其维持不变的职责。在公司中,质量保障哨兵被称为搜索分析师或洞察分析师。此人在战术层面充当提示性能、模型可靠性及输出保真度的核心权威。质量保障哨兵负责对生成式人工智能输出进行端到端监督,并确保偏移、退化或幻觉不会损害关键任务情报产品。
质量保障哨兵无需精通算法,但应对自身工作领域有出色把握。若他们专注于光谱测定数据,则应能分辨所查看数据是电离层数据还是重力测量数据。若负责导航工作,那么期望他们能识别两行元素集。作为质量保障哨兵的新任务是对模型进行二次猜测与监督,因此他们必须是该领域的专家。这是将此类细分但关键的任务外包给第三方可能并非好主意的重要原因。
质量保障哨兵的首要职责是为生成式人工智能用例建立基线操作框架。无论是文档摘要、信号提取、情报融合还是情感分诊,所有任务均应明确界定成功标准。此过程可能需要数周,因为质量保障哨兵需与主管及团队成员商讨如何定义成功任务。这包括事实准确性、延迟与幻觉率等硬性指标,以及相关性、清晰度与语调等软性指标。
质量保障哨兵维护主“评估控制表”,跟踪所有模型交互、输入、输出与分数,该表实行版本控制并对整个团队开放。评估控制表可简易电子表格形式存在。评分可由团队临时创建。若目标是降本增效,则无需巨额花费。
随后,质量保障哨兵构建代表关键任务场景的静态测试集(每个用例约20-50个样本)。该测试集定期运行或在模型或提示更新时运行。质量保障哨兵执行不同模型变体(如GPT-4o对比Claude 3)的A/B测试,并依据预定指标对响应评分。所有模型行为、提示结构或性能退化的变化均应记录并处理。质量保障哨兵应不断自问:“与之前相比有何变化?输出质量是改善还是恶化?”
为防止提示偏移并保持配置控制,质量保障哨兵在版本控制(Git或等效系统)下维护集中式提示存储库。每个提示编辑、模型参数变更与输出偏差均应记录在案。质量保障哨兵标记异常并在输出质量下降时执行回滚。在商业领域,该存储库是宝贵知识产权,迅速成为从看似分散数据中提炼价值的秘密配方。
偏移与异常通过每用例简明的红/黄/绿状态指示符跟踪。质量保障哨兵主持每周“质量保障站会”,提交关于大型语言模型性能的态势报告。这些向团队成员与领导的简报确保团队其余人员清晰了解哪些操作可行、哪些需要重新校准。
质量保障哨兵还建立并维护经验教训存储库,以捕捉模型行为特性、有效提示策略与既往故障。这可采用简易电子表格或持续更新的文本文档。重要的是,这将成为机构知识,确保持续生存能力与可重复性,即使在人员更替或高操作节奏下亦然。若电子表格过于简陋,且可轻松获取高端平台订阅,则SharePoint或Confluence是该存储库的理想位置。
质量保障哨兵还应尝试推动每个模型的边界,尤其是现成商业模型。“商业护栏在某些军事场景中既不必要甚至危险”,因此质量保障哨兵应理解如何突破大型语言模型的隐喻性转速限制。设想团队参与信息战需要模型输出本被视为不安全的数据,或网络中队希望输入恶意代码以快速发现模式或痕迹的场景。质量保障哨兵应通过红队测试理解如何突破这些限制。
团队其余成员则专注于摄取、标注与探索性分析,而质量保障哨兵充当情报分发或用于决策循环前的最终守门人。所有用于简报、产品或分发的输出均需通过质量保障哨兵验证。卫士们可将其视作行动前的装备检查。
底线是:在小型生成式人工智能单元中,质量保障哨兵成为模型性能、提示规范与质量控制的标杆。这种去中心化但受控的结构使团队能够快速运作而不牺牲对输出的信任。团队行动迅速,但质量保障哨兵确保他们不会盲目行动。
在任何团队中使用质量保障哨兵有助于维持质量成果。随着资金与组织需求增长,可引入执行部分质量跟踪的第三方平台。但在缺乏这些工具时,质量保障哨兵是优异且低成本的角色补充。
生成式人工智能在军队企业环境内具有更直接的应用场景。对于任务环境,这些系统依赖其他类型的人工智能,如计算机视觉、传感器融合、机器人技术与无人系统。但生成式人工智能正迅速成为这些其他人工智能领域的用户界面,因此借助来自提示工程与质量保障哨兵流程的经验,评估生态系统将扩展至这些其他领域。
质量保障哨兵提供的稳健基准测试通过向操作员提供高置信度输出而优化操作节奏,实现更快决策与更果断行动。它是商业人工智能工具包的重要组成部分,对军用物资也应如此。质量保障哨兵的角色终将被淘汰,并且毫不反讽的是,人工智能将取代它。届时,人工智能将在几乎无需人工干预或监督的情况下确保监控自身进展。它将成为未来算法战争构想中的又一齿轮。
但在那之前,对于受生成式人工智能输出影响、从事关键任务系统的小型团队,人类应当保持介入。
参考来源:War On The Rocks