This paper introduces a dynamic and actionable framework for securing agentic AI systems in enterprise deployment. We contend that safety and security are not merely fixed attributes of individual models but also emergent properties arising from the dynamic interactions among models, orchestrators, tools, and data within their operating environments. We propose a new way of identification of novel agentic risks through the lens of user safety. Although, for traditional LLMs and agentic models in isolation, safety and security has a clear separation, through the lens of safety in agentic systems, they appear to be connected. Building on this foundation, we define an operational agentic risk taxonomy that unifies traditional safety and security concerns with novel, uniquely agentic risks, including tool misuse, cascading action chains, and unintended control amplification among others. At the core of our approach is a dynamic agentic safety and security framework that operationalizes contextual agentic risk management by using auxiliary AI models and agents, with human oversight, to assist in contextual risk discovery, evaluation, and mitigation. We further address one of the most challenging aspects of safety and security of agentic systems: risk discovery through sandboxed, AI-driven red teaming. We demonstrate the framework effectiveness through a detailed case study of NVIDIA flagship agentic research assistant, AI-Q Research Assistant, showcasing practical, end-to-end safety and security evaluations in complex, enterprise-grade agentic workflows. This risk discovery phase finds novel agentic risks that are then contextually mitigated. We also release the dataset from our case study, containing traces of over 10,000 realistic attack and defense executions of the agentic workflow to help advance research in agentic safety.


翻译:本文提出了一种动态且可操作的框架,用于保障企业部署中智能体人工智能系统的安全。我们认为,安全与防护不仅是单个模型的固定属性,也是模型、编排器、工具和数据在其运行环境中动态交互所产生的涌现特性。我们提出了一种通过用户安全视角识别新型智能体风险的新方法。尽管对于传统的孤立大语言模型和智能体模型而言,安全与防护有明确的区分,但从智能体系统的安全视角来看,它们似乎是相互关联的。基于此,我们定义了一个操作性智能体风险分类法,将传统安全与防护问题与新型、独特的智能体风险(包括工具误用、级联行动链、意外控制放大等)统一起来。我们方法的核心是一个动态智能体安全与防护框架,该框架通过使用辅助人工智能模型和智能体,在人类监督下协助进行情境化风险发现、评估和缓解,从而实现情境化智能体风险管理的可操作性。我们进一步探讨了智能体系统安全与防护中最具挑战性的方面之一:通过沙盒化、人工智能驱动的红队测试进行风险发现。我们通过对NVIDIA旗舰智能体研究助手AI-Q Research Assistant的详细案例研究,展示了该框架在复杂的企业级智能体工作流程中进行实用、端到端安全与防护评估的有效性。该风险发现阶段识别出的新型智能体风险随后得到情境化缓解。我们还发布了案例研究的数据集,包含超过10,000次智能体工作流程的真实攻击与防御执行轨迹,以推动智能体安全领域的研究进展。

0
下载
关闭预览

相关内容

智能体,顾名思义,就是具有智能的实体,英文名是Agent。
一种Agent自主性风险评估框架 | 最新文献
专知会员服务
16+阅读 · 10月24日
ACL 2019 | 面向远程监督关系抽取的模式诊断技术
AAAI 2019 | 基于分层强化学习的关系抽取
PaperWeekly
20+阅读 · 2019年3月27日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
40+阅读 · 2014年12月31日
国家自然科学基金
17+阅读 · 2008年12月31日
VIP会员
相关基金
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
40+阅读 · 2014年12月31日
国家自然科学基金
17+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员