Machine unlearning (MU) seeks to eliminate the influence of specific training examples from deployed models. As large language models (LLMs) become widely used, managing risks arising from insufficient forgetting or utility loss is increasingly crucial. Current MU techniques lack effective mechanisms for evaluating and controlling these risks, hindering the selection of strategies that appropriately balance safety and utility, and raising trust concerns surrounding the "right to be forgotten." To address these issues, we propose FROC, a unified framework with Risk-Optimized Control for machine unlearning in LLMs. FROC is built around a conformal-style risk-control formulation that expresses a user-specified risk budget on unlearning behavior. This probability-based constraint enables FROC to compare MU strategies, identify feasible operating regions, and guide hyperparameter selection according to desired trade-offs between forgetting sufficiency and utility preservation. To operationalize this constraint, FROC introduces a smoothly varying continuous risk model that aggregates forgetting deficiency and utility degradation into a single configuration-level score. Building on conformal risk analysis, FROC computes (1) the Conformal Unlearning Risk (CUR), a data-driven estimated value on the probability that forgotten samples continue to influence model predictions, and (2) risk-controlled configuration sets, which identify unlearning hyperparameters that are valid under the specified risk budget. Experiments across multiple LLM MU methods demonstrate that FROC produces stable, interpretable risk landscapes and reveals consistent relationships between unlearning configurations, semantic shift, and utility impact. FROC reframes MU as a controllable, risk-aware process and offers a practical foundation for managing unlearning behavior in large-scale LLM deployments.


翻译:机器遗忘旨在从已部署模型中消除特定训练样本的影响。随着大语言模型的广泛应用,管理因遗忘不足或效用损失而产生的风险变得日益关键。现有机器遗忘技术缺乏评估与控制这些风险的有效机制,阻碍了选择能恰当平衡安全性与效用的策略,并引发了围绕“被遗忘权”的信任担忧。为解决这些问题,我们提出了FROC,一种具有风险优化控制的大语言模型机器遗忘统一框架。FROC围绕一种符合性风格的风险控制公式构建,该公式表达了用户指定的关于遗忘行为的风险预算。这种基于概率的约束使FROC能够比较机器遗忘策略、识别可行操作区域,并根据遗忘充分性与效用保留之间的期望权衡指导超参数选择。为实现该约束,FROC引入了一个平滑变化的连续风险模型,将遗忘缺陷与效用退化聚合为单一配置级评分。基于符合性风险分析,FROC计算(1)符合性遗忘风险,即一个数据驱动的估计值,表示被遗忘样本继续影响模型预测的概率;(2)风险受控配置集,用于识别在指定风险预算下有效的遗忘超参数。在多种大语言模型机器遗忘方法上的实验表明,FROC能生成稳定、可解释的风险图谱,并揭示遗忘配置、语义偏移与效用影响之间的一致关系。FROC将机器遗忘重构为一个可控、风险感知的过程,并为大规模大语言模型部署中的遗忘行为管理提供了实用基础。

0
下载
关闭预览

相关内容

国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员