This paper investigates defenses for LLM-based evaluation systems against prompt injection. We formalize a class of threats called blind attacks, where a candidate answer is crafted independently of the true answer to deceive the evaluator. To counter such attacks, we propose a framework that augments Standard Evaluation (SE) with Counterfactual Evaluation (CFE), which re-evaluates the submission against a deliberately false ground-truth answer. An attack is detected if the system validates an answer under both standard and counterfactual conditions. Experiments show that while standard evaluation is highly vulnerable, our SE+CFE framework significantly improves security by boosting attack detection with minimal performance trade-offs.


翻译:本文研究针对大语言模型(LLM)评估系统在提示注入攻击下的防御策略。我们形式化了一类称为盲攻击的威胁,其中候选答案独立于真实答案精心设计,旨在欺骗评估器。为应对此类攻击,我们提出一个框架,将标准评估(SE)与反事实评估(CFE)相结合,后者通过故意使用错误的标准答案对提交内容进行重新评估。若系统在标准条件和反事实条件下均验证同一答案,则判定为攻击。实验表明,标准评估方法极易受攻击,而我们的SE+CFE框架通过显著提升攻击检测能力,在性能损失最小的情况下大幅增强了系统安全性。

0
下载
关闭预览

相关内容

专知会员服务
33+阅读 · 2021年7月27日
专知会员服务
16+阅读 · 2021年7月7日
专知会员服务
29+阅读 · 2020年10月2日
语义分割中的深度学习方法全解:从FCN、SegNet到DeepLab
炼数成金订阅号
26+阅读 · 2017年7月10日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
17+阅读 · 2008年12月31日
VIP会员
相关VIP内容
专知会员服务
33+阅读 · 2021年7月27日
专知会员服务
16+阅读 · 2021年7月7日
专知会员服务
29+阅读 · 2020年10月2日
相关基金
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
17+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员