《学习型系统的测试与评估》 - 专知VIP

会员服务 ·

41

测试与评估 · 智能自主系统（IAS） · AI与军事 ·

2023 年 3 月 12 日

《学习型系统的测试与评估》

专知会员服务

专知，提供专业可信的知识分发服务，让认知协作更快更好！

目前的测试和评估（T&E）方法包括以黑盒方式处理系统，即向系统提供样本输入，观察相应的输出，并将其与期望值进行比较。虽然这种方法对传统的静态系统很有效，但由于智能体的动态环境、单个智能体的适应性学习行为、智能体和操作环境之间的复杂互动、测试黑盒机器学习（ML）模型的困难，以及快速发展的ML模型和人工智能算法，自主智能系统的测试和评估提出了艰巨的挑战[1, 2]。

这项研究的目的是开发设计测试和评估（T&E）计划以及为基于学习的系统获取数据/模型的方法。主要目标是了解增加政府对系统设计中使用的模型和学习代智能体（人工智能算法）的访问可能会减少测试的需要和费用，并增加对结果的信心。在这个孵化器项目中研究的主要假设是，如果我们能够获得模型本身（数学或软件），那么测试人工智能/ML模型达到可接受的可靠程度所需的样本数量可以减少，如果我们也能获得用于训练模型的算法和数据，则可以进一步减少，如果我们也能获得系统模型和数字工程过程的其他工件，则可以进一步减少。因此，如果T&E计划是基于获得人工智能/ML系统的技术数据/算法的成本和测试这些系统的成本之间的最佳平衡，那么采购的成本可以大大降低。

这个项目建立了理论和方法，以探索T&E要求如何能够和应该作为测试团队对人工智能系统的技术规格知识的功能而改变。项目开发了基于系统的理论，通过系统形态的概念来捕捉系统的变化和它所处的状态空间。洋葱模型描述了不同层次的系统知识和定义系统抽象的背景。该项目通过两个试点场景进行实验，以展示多个测试阶段如何促进对人工智能系统的评估。最后，我们提出了贝叶斯的分析框架，用于结合多个测试阶段的信息。这个分析框架也反映了不断变化的系统配置和背景。总之，这项工作基本上构成了在未来阶段调查现实系统的测试数据收集的成本效益的基石。

进行人工智能系统研究的一个主要挑战是，在T&E研究中需要物理实现。未来的工作可以利用Silverfish测试平台，该平台是在SERC先前的任务下开发的，并将测试平台扩展到物理实现。除了MBSE表示的物理实现，还可以在Silverfish测试平台上直接执行一个T&E程序。未来的工作还应该包括有目的地改变系统知识（基于洋葱模型），系统的复杂性和它的操作环境（形态的数量），并确定作为这些变量的函数的最小充分测试。

成为VIP会员查看完整内容

58

相关内容

测试与评估

测试与评估

《文献综述：军用航空领域应用认知负荷评估》47页报告，美国陆军

《文献综述：军用航空领域应用认知负荷评估》47页报告，美国陆军

专知会员服务

56+阅读 · 2023年4月6日

《调整美国防部机器学习（深度学习）系统的测试与评估、验证 (TEVV) 业务》36页报告

《调整美国防部机器学习（深度学习）系统的测试与评估、验证 (TEVV) 业务》36页报告

专知会员服务

87+阅读 · 2023年3月7日

《人工智能和自主系统的测试与评估：综述》美国国防分析研究所，177页报告

《人工智能和自主系统的测试与评估：综述》美国国防分析研究所，177页报告

专知会员服务

186+阅读 · 2023年3月6日

《北约分布式仿真架构与设计、合规性测试与认证》72页报告

《北约分布式仿真架构与设计、合规性测试与认证》72页报告

专知会员服务

66+阅读 · 2023年3月3日

《将无人机载作战系统引入未来威胁场景：机遇与挑战》14页报告

《将无人机载作战系统引入未来威胁场景：机遇与挑战》14页报告

专知会员服务

124+阅读 · 2023年3月1日

《AI系统对抗性测试与评估的反人工智能工具系统设计》2022论文，美国西点军校

《AI系统对抗性测试与评估的反人工智能工具系统设计》2022论文，美国西点军校

专知会员服务

86+阅读 · 2023年1月22日

《全自适应雷达建模和仿真开发》美国空军49页技术报告

《全自适应雷达建模和仿真开发》美国空军49页技术报告

专知会员服务

66+阅读 · 2023年1月2日

推荐！《空中平台自主性测试与评估》美国空军84页技术手册

推荐！《空中平台自主性测试与评估》美国空军84页技术手册

专知会员服务

101+阅读 · 2022年12月21日

《学习型系统的保证性》美国空军研究实验室2022最新56页技术报告

《学习型系统的保证性》美国空军研究实验室2022最新56页技术报告

专知会员服务

35+阅读 · 2022年11月22日

《美国陆军ARL 22财年工业自主技术评估（IATA）关于安全性和移动性的最终报告》2022最新46页技术报告，美国陆军研究实验室（ARL）

《美国陆军ARL 22财年工业自主技术评估（IATA）关于安全性和移动性的最终报告》2022最新46页技术报告，美国陆军研究实验室（ARL）

专知会员服务

26+阅读 · 2022年10月25日

《美国国防部（DoD）联合能力集成与开发系统（JCIDS）报告》

《美国国防部（DoD）联合能力集成与开发系统（JCIDS）报告》

专知

30+阅读 · 2023年4月13日

《文献综述：军用航空领域应用认知负荷评估》47页报告，美国陆军

《文献综述：军用航空领域应用认知负荷评估》47页报告，美国陆军

专知

9+阅读 · 2023年4月7日

《半机械士兵2050：人机融合及其对美国防部未来的影响》美国陆军研究实验室42页技术报告

《半机械士兵2050：人机融合及其对美国防部未来的影响》美国陆军研究实验室42页技术报告

专知

25+阅读 · 2022年11月20日

《军事行动自动化》【译文】2022最新报告

《军事行动自动化》【译文】2022最新报告

专知

64+阅读 · 2022年11月13日

《确保美国防御系统作战优势的必要美国防部射程能力：对未来战斗的测试》美国国家科学院151页报告

《确保美国防御系统作战优势的必要美国防部射程能力：对未来战斗的测试》美国国家科学院151页报告

专知

43+阅读 · 2022年11月12日

《数字孪生仿真赋能要素及其在国防领域信息优势中的应用》2022最新16页技术报告，北约STO

《数字孪生仿真赋能要素及其在国防领域信息优势中的应用》2022最新16页技术报告，北约STO

专知

29+阅读 · 2022年10月26日

推荐！【美国国防分析顶点报告】《机器人和自主系统：有人/无人组队(RAS-MUM-T)》107页报告

推荐！【美国国防分析顶点报告】《机器人和自主系统：有人/无人组队(RAS-MUM-T)》107页报告

专知

29+阅读 · 2022年9月12日

推荐！【中文版】《人工智能和仿真技术在军事决策中的作用》北约技术报告

推荐！【中文版】《人工智能和仿真技术在军事决策中的作用》北约技术报告

专知

105+阅读 · 2022年8月20日

推荐！【中文版】瑞典国防研究局《可解释人工智能：探索XAI技术在军事深度学习中的应用》56页技术报告

推荐！【中文版】瑞典国防研究局《可解释人工智能：探索XAI技术在军事深度学习中的应用》56页技术报告

专知

17+阅读 · 2022年7月8日

《面向军事应用的数据驱动的行为建模》荷兰应用科学研究组织（NTO）

《面向军事应用的数据驱动的行为建模》荷兰应用科学研究组织（NTO）

专知

38+阅读 · 2022年6月2日

航天器嵌入式操作系统内存管理系统的形式化建模及验证研究

国家自然科学基金

0+阅读 · 2015年12月31日

机载监视雷达地面运动目标跟踪技术研究

国家自然科学基金

7+阅读 · 2014年12月31日

面向空间分布式星群的组网与传输控制技术研究

国家自然科学基金

1+阅读 · 2013年12月31日

针对片上多处理器系统中软错误的高效系统级容错技术研究

国家自然科学基金

0+阅读 · 2013年12月31日

云存储系统中重复数据删除技术研究

国家自然科学基金

0+阅读 · 2013年12月31日

数据和模型混合驱动的虚拟人群行为仿真技术研究及其在军事中的应用

国家自然科学基金

9+阅读 · 2011年12月31日

支持协同产品开发的项目管理框架及关键技术研究

国家自然科学基金

1+阅读 · 2011年12月31日

基于SOAR认知架构的交通诱导服从行为研究

国家自然科学基金

0+阅读 · 2009年12月31日

基于资源重构的制造系统调度与路径优化研究

国家自然科学基金

0+阅读 · 2008年12月31日

支持多信息融合的装备体系作战效能评估方法研究

国家自然科学基金

35+阅读 · 2008年12月31日

Sebis at SemEval-2023 Task 7: A Joint System for Natural Language Inference and Evidence Retrieval from Clinical Trial Reports

Sebis at SemEval-2023 Task 7: A Joint System for Natural Language Inference and Evidence Retrieval from Clinical Trial Reports

Arxiv

0+阅读 · 2023年5月2日

Sim2real and Digital Twins in Autonomous Driving: A Survey

Arxiv

1+阅读 · 2023年5月2日

Sustainability Competencies and Skills in Software Engineering: An Industry Perspective

Sustainability Competencies and Skills in Software Engineering: An Industry Perspective

Arxiv

0+阅读 · 2023年5月2日

Understanding the Generalization Ability of Deep Learning Algorithms: A Kernelized Renyi's Entropy Perspective

Arxiv

0+阅读 · 2023年5月2日

Evaluating Adversarial Robustness on Document Image Classification

Arxiv

0+阅读 · 2023年5月1日

Robustified Learning for Online Optimization with Memory Costs

Arxiv

0+阅读 · 2023年5月1日

Posterior Sampling for Deep Reinforcement Learning

Arxiv

0+阅读 · 2023年4月30日

Psychometric Instruments in Software Engineering Research on Personality: Status Quo After Fifty Years

Arxiv

0+阅读 · 2023年4月29日

Reflections on Surrogate-Assisted Search-Based Testing: A Taxonomy and Two Replication Studies based on Industrial ADAS and Simulink Models

Arxiv

0+阅读 · 2023年4月28日

已删除

Arxiv

32+阅读 · 2020年3月23日

VIP会员

相关主题

测试与评估

智能自主系统（IAS）

相关VIP内容

《文献综述：军用航空领域应用认知负荷评估》47页报告，美国陆军

《文献综述：军用航空领域应用认知负荷评估》47页报告，美国陆军

专知会员服务

56+阅读 · 2023年4月6日

《调整美国防部机器学习（深度学习）系统的测试与评估、验证 (TEVV) 业务》36页报告

《调整美国防部机器学习（深度学习）系统的测试与评估、验证 (TEVV) 业务》36页报告

专知会员服务

87+阅读 · 2023年3月7日

《人工智能和自主系统的测试与评估：综述》美国国防分析研究所，177页报告

《人工智能和自主系统的测试与评估：综述》美国国防分析研究所，177页报告

专知会员服务

186+阅读 · 2023年3月6日

《北约分布式仿真架构与设计、合规性测试与认证》72页报告

《北约分布式仿真架构与设计、合规性测试与认证》72页报告

专知会员服务

66+阅读 · 2023年3月3日

《将无人机载作战系统引入未来威胁场景：机遇与挑战》14页报告

《将无人机载作战系统引入未来威胁场景：机遇与挑战》14页报告

专知会员服务

124+阅读 · 2023年3月1日

《AI系统对抗性测试与评估的反人工智能工具系统设计》2022论文，美国西点军校

《AI系统对抗性测试与评估的反人工智能工具系统设计》2022论文，美国西点军校

专知会员服务

86+阅读 · 2023年1月22日

《全自适应雷达建模和仿真开发》美国空军49页技术报告

《全自适应雷达建模和仿真开发》美国空军49页技术报告

专知会员服务

66+阅读 · 2023年1月2日

推荐！《空中平台自主性测试与评估》美国空军84页技术手册

推荐！《空中平台自主性测试与评估》美国空军84页技术手册

专知会员服务

101+阅读 · 2022年12月21日

《学习型系统的保证性》美国空军研究实验室2022最新56页技术报告

《学习型系统的保证性》美国空军研究实验室2022最新56页技术报告

专知会员服务

35+阅读 · 2022年11月22日

《美国陆军ARL 22财年工业自主技术评估（IATA）关于安全性和移动性的最终报告》2022最新46页技术报告，美国陆军研究实验室（ARL）

《美国陆军ARL 22财年工业自主技术评估（IATA）关于安全性和移动性的最终报告》2022最新46页技术报告，美国陆军研究实验室（ARL）

专知会员服务

26+阅读 · 2022年10月25日

热门VIP内容

开通专知VIP会员享更多权益服务

【ICML2025】用于持续多模态指令微调的动态课程化LoRA专家混合机制

生成模型中持续学习的综合综述

【斯坦福博士论文】通过以人为本的自然语言界面拓展 AI 的可及性

【新书】《LangChain生成式AI实战：使用 Python 与 LangGraph 构建大语言模型应用与高级智能体》

相关资讯

《美国国防部（DoD）联合能力集成与开发系统（JCIDS）报告》

《美国国防部（DoD）联合能力集成与开发系统（JCIDS）报告》

专知

30+阅读 · 2023年4月13日

《文献综述：军用航空领域应用认知负荷评估》47页报告，美国陆军

《文献综述：军用航空领域应用认知负荷评估》47页报告，美国陆军

专知

9+阅读 · 2023年4月7日

《半机械士兵2050：人机融合及其对美国防部未来的影响》美国陆军研究实验室42页技术报告

《半机械士兵2050：人机融合及其对美国防部未来的影响》美国陆军研究实验室42页技术报告

专知

25+阅读 · 2022年11月20日

《军事行动自动化》【译文】2022最新报告

《军事行动自动化》【译文】2022最新报告

专知

64+阅读 · 2022年11月13日

《确保美国防御系统作战优势的必要美国防部射程能力：对未来战斗的测试》美国国家科学院151页报告

《确保美国防御系统作战优势的必要美国防部射程能力：对未来战斗的测试》美国国家科学院151页报告

专知

43+阅读 · 2022年11月12日

《数字孪生仿真赋能要素及其在国防领域信息优势中的应用》2022最新16页技术报告，北约STO

《数字孪生仿真赋能要素及其在国防领域信息优势中的应用》2022最新16页技术报告，北约STO

专知

29+阅读 · 2022年10月26日

推荐！【美国国防分析顶点报告】《机器人和自主系统：有人/无人组队(RAS-MUM-T)》107页报告

推荐！【美国国防分析顶点报告】《机器人和自主系统：有人/无人组队(RAS-MUM-T)》107页报告

专知

29+阅读 · 2022年9月12日

推荐！【中文版】《人工智能和仿真技术在军事决策中的作用》北约技术报告

推荐！【中文版】《人工智能和仿真技术在军事决策中的作用》北约技术报告

专知

105+阅读 · 2022年8月20日

推荐！【中文版】瑞典国防研究局《可解释人工智能：探索XAI技术在军事深度学习中的应用》56页技术报告

推荐！【中文版】瑞典国防研究局《可解释人工智能：探索XAI技术在军事深度学习中的应用》56页技术报告

专知

17+阅读 · 2022年7月8日

《面向军事应用的数据驱动的行为建模》荷兰应用科学研究组织（NTO）

《面向军事应用的数据驱动的行为建模》荷兰应用科学研究组织（NTO）

专知

38+阅读 · 2022年6月2日

相关基金

航天器嵌入式操作系统内存管理系统的形式化建模及验证研究

国家自然科学基金

0+阅读 · 2015年12月31日

机载监视雷达地面运动目标跟踪技术研究

国家自然科学基金

7+阅读 · 2014年12月31日

面向空间分布式星群的组网与传输控制技术研究

国家自然科学基金

1+阅读 · 2013年12月31日

针对片上多处理器系统中软错误的高效系统级容错技术研究

国家自然科学基金

0+阅读 · 2013年12月31日

云存储系统中重复数据删除技术研究

国家自然科学基金

0+阅读 · 2013年12月31日

数据和模型混合驱动的虚拟人群行为仿真技术研究及其在军事中的应用

国家自然科学基金

9+阅读 · 2011年12月31日

支持协同产品开发的项目管理框架及关键技术研究

国家自然科学基金

1+阅读 · 2011年12月31日

基于SOAR认知架构的交通诱导服从行为研究

国家自然科学基金

0+阅读 · 2009年12月31日

基于资源重构的制造系统调度与路径优化研究

国家自然科学基金

0+阅读 · 2008年12月31日

支持多信息融合的装备体系作战效能评估方法研究

国家自然科学基金

35+阅读 · 2008年12月31日

相关论文

Sebis at SemEval-2023 Task 7: A Joint System for Natural Language Inference and Evidence Retrieval from Clinical Trial Reports

Sebis at SemEval-2023 Task 7: A Joint System for Natural Language Inference and Evidence Retrieval from Clinical Trial Reports

Arxiv

0+阅读 · 2023年5月2日

Sim2real and Digital Twins in Autonomous Driving: A Survey

Arxiv

1+阅读 · 2023年5月2日

Sustainability Competencies and Skills in Software Engineering: An Industry Perspective

Sustainability Competencies and Skills in Software Engineering: An Industry Perspective

Arxiv

0+阅读 · 2023年5月2日

Understanding the Generalization Ability of Deep Learning Algorithms: A Kernelized Renyi's Entropy Perspective

Arxiv

0+阅读 · 2023年5月2日

Evaluating Adversarial Robustness on Document Image Classification

Arxiv

0+阅读 · 2023年5月1日

Robustified Learning for Online Optimization with Memory Costs

Arxiv

0+阅读 · 2023年5月1日

Posterior Sampling for Deep Reinforcement Learning

Arxiv

0+阅读 · 2023年4月30日

Psychometric Instruments in Software Engineering Research on Personality: Status Quo After Fifty Years

Arxiv

0+阅读 · 2023年4月29日

Reflections on Surrogate-Assisted Search-Based Testing: A Taxonomy and Two Replication Studies based on Industrial ADAS and Simulink Models

Arxiv

0+阅读 · 2023年4月28日

已删除

Arxiv

32+阅读 · 2020年3月23日

微信扫码咨询专知VIP会员