Large Language Models (LLMs) are increasingly used in agentic systems, where their interactions with diverse tools and environments create complex, multi-stage safety challenges. However, existing benchmarks mostly rely on static, single-turn assessments that miss vulnerabilities from adaptive, long-chain attacks. To fill this gap, we introduce DREAM, a framework for systematic evaluation of LLM agents against dynamic, multi-stage attacks. At its core, DREAM uses a Cross-Environment Adversarial Knowledge Graph (CE-AKG) to maintain stateful, cross-domain understanding of vulnerabilities. This graph guides a Contextualized Guided Policy Search (C-GPS) algorithm that dynamically constructs attack chains from a knowledge base of 1,986 atomic actions across 349 distinct digital environments. Our evaluation of 12 leading LLM agents reveals a critical vulnerability: these attack chains succeed in over 70% of cases for most models, showing the power of stateful, cross-environment exploits. Through analysis of these failures, we identify two key weaknesses in current agents: contextual fragility, where safety behaviors fail to transfer across environments, and an inability to track long-term malicious intent. Our findings also show that traditional safety measures, such as initial defense prompts, are largely ineffective against attacks that build context over multiple interactions. To advance agent safety research, we release DREAM as a tool for evaluating vulnerabilities and developing more robust defenses.


翻译:大型语言模型(LLM)在智能体系统中日益广泛应用,其与多样化工具及环境的交互引发了复杂、多阶段的安全挑战。然而,现有基准测试大多依赖静态的单轮评估,无法捕捉自适应长链攻击所产生的漏洞。为填补这一空白,我们提出了DREAM框架,用于系统评估LLM智能体抵御动态多阶段攻击的能力。该框架的核心是跨环境对抗知识图谱(CE-AKG),用于维持对漏洞的跨领域状态感知。该图谱指导着情境化引导策略搜索(C-GPS)算法,该算法能够基于涵盖349个不同数字环境的1,986个原子操作知识库,动态构建攻击链。我们对12个主流LLM智能体的评估揭示了一个关键漏洞:对于大多数模型,此类攻击链的成功率超过70%,彰显了跨环境状态保持型攻击的威力。通过对失败案例的分析,我们识别出现有智能体的两大关键缺陷:情境脆弱性(即安全行为无法跨环境迁移)以及长期恶意意图跟踪能力的缺失。研究结果还表明,传统安全措施(如初始防御提示)对通过多次交互构建上下文的攻击基本无效。为推进智能体安全研究,我们公开发布DREAM作为评估漏洞和开发更强防御机制的工具。

0
下载
关闭预览

相关内容

[ICML2024]消除偏差:微调基础模型以进行半监督学习
专知会员服务
17+阅读 · 2024年5月23日
【CVPR2023】DynamicDet:目标检测的统一动态架构
专知会员服务
26+阅读 · 2023年4月15日
Pytorch多模态框架MMF
专知
50+阅读 · 2020年6月20日
NLG任务评价指标BLEU与ROUGE
AINLP
21+阅读 · 2020年5月25日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
17+阅读 · 2008年12月31日
VIP会员
相关资讯
Pytorch多模态框架MMF
专知
50+阅读 · 2020年6月20日
NLG任务评价指标BLEU与ROUGE
AINLP
21+阅读 · 2020年5月25日
相关基金
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
17+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员