In the era of rapid generative AI development, interactions with large language models (LLMs) pose increasing risks of misuse. Prior research has primarily focused on attacks using template-based prompts and optimization-oriented methods, while overlooking the fact that LLMs possess strong unconstrained deceptive capabilities to attack other LLMs. This paper introduces a novel jailbreaking method inspired by the Chain-of-Thought mechanism. The attacker employs mission transfer to conceal harmful user intent within dialogue and generates a progressive chain of lure questions without relying on predefined templates, enabling successful jailbreaks. To further improve the attack's strength, we incorporate a helper LLM model that performs randomized narrative optimization over multi-turn interactions, enhancing the attack performance while preserving alignment with the original intent. We also propose a toxicity-based framework using third-party LLMs to evaluate harmful content and its alignment with malicious intent. Extensive experiments demonstrate that our method consistently achieves high attack success rates and elevated toxicity scores across diverse types of LLMs under black-box API settings. These findings reveal the intrinsic potential of LLMs to perform unrestricted attacks in the absence of robust alignment constraints. Our approach offers data-driven insights to inform the design of future alignment mechanisms. Finally, we propose two concrete defense strategies to support the development of safer generative models.


翻译:在生成式人工智能快速发展的时代,与大语言模型(LLM)的交互带来了日益增加的滥用风险。先前的研究主要集中于基于模板提示的攻击和优化导向的方法,而忽视了LLM本身具备强大的无约束欺骗能力,可用于攻击其他LLM。本文受思维链机制启发,提出了一种新颖的越狱方法。攻击者通过任务转移将有害用户意图隐藏于对话中,并生成无需依赖预定义模板的渐进式诱饵问题链,从而实现成功越狱。为进一步增强攻击强度,我们引入了一个辅助LLM模型,在多轮交互中执行随机化叙事优化,在保持与原始意图一致性的同时提升攻击性能。我们还提出了一种基于毒性的评估框架,利用第三方LLM评估有害内容及其与恶意意图的匹配程度。大量实验表明,在黑盒API设置下,我们的方法在多种类型的LLM上均能持续实现高攻击成功率与高毒性评分。这些发现揭示了LLM在缺乏鲁棒对齐约束时进行无限制攻击的内在潜力。我们的方法为未来对齐机制的设计提供了数据驱动的见解。最后,我们提出了两种具体的防御策略,以支持开发更安全的生成模型。

0
下载
关闭预览

相关内容

大语言模型越狱攻击:模型、根因及其攻防演化
专知会员服务
20+阅读 · 4月28日
大语言模型越狱攻击: 模型、根因及其攻防演化
专知会员服务
23+阅读 · 2月16日
【KDD2024】针对图提示学习的跨上下文后门攻击
专知会员服务
21+阅读 · 2024年6月15日
DeepMind:用PopArt进行多任务深度强化学习
论智
29+阅读 · 2018年9月14日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员