Large language models (LLMs) have achieved remarkable performance across diverse natural language processing tasks, yet their vulnerability to character-level adversarial manipulations presents significant security challenges for real-world deployments. This paper presents a study of different special character attacks including unicode, homoglyph, structural, and textual encoding attacks aimed at bypassing safety mechanisms. We evaluate seven prominent open-source models ranging from 3.8B to 32B parameters on 4,000+ attack attempts. These experiments reveal critical vulnerabilities across all model sizes, exposing failure modes that include successful jailbreaks, incoherent outputs, and unrelated hallucinations.


翻译:大型语言模型(LLMs)在多种自然语言处理任务中取得了显著性能,然而其对字符级对抗性操作的脆弱性为实际部署带来了重大的安全挑战。本文研究了包括Unicode、同形异义字符、结构性和文本编码攻击在内的不同特殊字符攻击,旨在绕过安全机制。我们在超过4000次攻击尝试中评估了七个参数规模从3.8B到32B的知名开源模型。这些实验揭示了所有模型规模均存在关键漏洞,暴露了包括成功越狱、不连贯输出和无关幻觉在内的失效模式。

0
下载
关闭预览

相关内容

【ICMR2020】持续健康状态接口事件检索
专知会员服务
18+阅读 · 2020年4月18日
【ACL2020-Facebook AI】大规模无监督跨语言表示学习
专知会员服务
34+阅读 · 2020年4月5日
图机器学习 2.2-2.4 Properties of Networks, Random Graph
图与推荐
10+阅读 · 2020年3月28日
Auto-Keras与AutoML:入门指南
云栖社区
18+阅读 · 2019年2月9日
神经网络机器翻译原理:LSTM、seq2seq到Zero-Shot
北京思腾合力科技有限公司
11+阅读 · 2017年8月10日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
8+阅读 · 2014年12月31日
Arxiv
0+阅读 · 12月16日
VIP会员
相关资讯
图机器学习 2.2-2.4 Properties of Networks, Random Graph
图与推荐
10+阅读 · 2020年3月28日
Auto-Keras与AutoML:入门指南
云栖社区
18+阅读 · 2019年2月9日
神经网络机器翻译原理:LSTM、seq2seq到Zero-Shot
北京思腾合力科技有限公司
11+阅读 · 2017年8月10日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
8+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员