Large language models (LLMs) have significantly transformed natural language understanding and generation, but they raise privacy concerns due to potential exposure of sensitive information. Studies have highlighted the risk of information leakage, where adversaries can extract sensitive information embedded in the prompts. In this work, we introduce a novel private prediction framework for generating high-quality synthetic text with strong privacy guarantees. Our approach leverages the Differential Privacy (DP) framework to ensure worst-case theoretical bounds on information leakage without requiring any fine-tuning of the underlying models. The proposed method performs inference on private records and aggregates the resulting per-token output distributions. This enables the generation of longer and coherent synthetic text while maintaining privacy guarantees. Additionally, we propose a simple blending operation that combines private and public inference to further enhance utility. Empirical evaluations demonstrate that our approach outperforms previous state-of-the-art methods on in-context-learning (ICL) tasks, making it a promising direction for privacy-preserving text generation while maintaining high utility. Our code is available at https://github.com/bhusalb/privacy-preserving-icl.


翻译:大语言模型(LLMs)显著改变了自然语言理解与生成领域,但由于可能暴露敏感信息,引发了隐私担忧。研究已揭示信息泄露的风险,即攻击者可从提示中提取嵌入的敏感信息。本文提出一种新颖的隐私保护预测框架,用于生成具有强隐私保障的高质量合成文本。该方法利用差分隐私(DP)框架,在不需对底层模型进行任何微调的情况下,确保信息泄露的最坏情况理论边界。所提出的方法对私有记录执行推理,并聚合产生的逐词元输出分布,从而在保持隐私保障的同时生成更长且连贯的合成文本。此外,我们提出一种简单的混合操作,结合私有与公共推理以进一步提升效用。实证评估表明,在上下文学习(ICL)任务中,我们的方法优于先前最先进的方法,为在保持高实用性的同时实现隐私保护文本生成提供了有前景的方向。代码发布于 https://github.com/bhusalb/privacy-preserving-icl。

0
下载
关闭预览

相关内容

【ICML2023】SEGA:结构熵引导的图对比学习锚视图
专知会员服务
22+阅读 · 2023年5月10日
【AAAI2023】面向领域自适应语义分割的几何感知网络
专知会员服务
21+阅读 · 2022年12月7日
AAAI 2022 | ProtGNN:自解释图神经网络
专知
10+阅读 · 2022年2月28日
【NeurIPS2019】图变换网络:Graph Transformer Network
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
17+阅读 · 2008年12月31日
A Survey of Large Language Models
Arxiv
495+阅读 · 2023年3月31日
VIP会员
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
17+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员