Data poisoning considers an adversary that distorts the training set of machine learning algorithms for malicious purposes. In this work, we bring to light one conjecture regarding the fundamentals of data poisoning, which we call the Lethal Dose Conjecture. The conjecture states: If $n$ clean training samples are needed for accurate predictions, then in a size-$N$ training set, only $\Theta(N/n)$ poisoned samples can be tolerated while ensuring accuracy. Theoretically, we verify this conjecture in multiple cases. We also offer a more general perspective of this conjecture through distribution discrimination. Deep Partition Aggregation (DPA) and its extension, Finite Aggregation (FA) are recent approaches for provable defenses against data poisoning, where they predict through the majority vote of many base models trained from different subsets of training set using a given learner. The conjecture implies that both DPA and FA are (asymptotically) optimal -- if we have the most data-efficient learner, they can turn it into one of the most robust defenses against data poisoning. This outlines a practical approach to developing stronger defenses against poisoning via finding data-efficient learners. Empirically, as a proof of concept, we show that by simply using different data augmentations for base learners, we can respectively double and triple the certified robustness of DPA on CIFAR-10 and GTSRB without sacrificing accuracy.


翻译:数据中毒是扭曲用于恶意目的的机器学习算法的培训组合的对手。 在这项工作中,我们提出了一个关于数据中毒基本原理的猜测。 我们称之为致命多斯测谎。 猜测指出: 如果准确预测需要清洁培训样本,那么,在规模-N美元的培训组合中,只有美元(N/n)美元有毒样本可以被容忍,同时确保准确性。 从理论上讲,我们核实了多种情况下的这种推测。 我们还从更广义的角度从分布歧视的角度来看待这一推测。 深度分割聚合(DPA)及其扩展, 金融聚合(FI)是最近针对数据中毒的可行防御方法, 即:如果准确性培训样本需要用美元-N美元进行准确性预测, 那么在一个规模-N美元的培训组合中,只有美元($-N/n)的中毒样本样本可以被容忍。 推测意味着,如果我们拥有最有数据效率的学习者,那么,我们就能把它变成最可靠的防御方法之一。 深度分离(DPA)及其扩展(DPA) (DPA) (DP) (DP) (DP) (DP) (DP) (DP) (DP) ) (DP) (DP) (DP) (DP) (DP) (DP) (DP)) (DP) (DP)) (DP) (DP) (DP) (DP) (DP) (DP) (DP) (DP) (DP) (DP) (DP) (DP) (DP) (DP) (DP) (DP) (DP) (DP) (DP) (DP) (DP) (DP) (DP)) (DP) (DP) (DP) (DP) (DP) (DP) (DP) (DP) (DP) (DP)) (DP) (DP) (DP) (DP) (DP) (DP) (DP)) (DP) (DP) (DP) (DP) (DP) (DP) (DP) (DP) (DP) (DP) (DP) (DP) (DP) (DP) (DP) (DP)) (DP) (DP) (DP) (DP) (DP) (DP) (DP))) (DP) (DP) (DP) (DP) (DP) (DP) (DP) (DP) (DP) (DP) (DP) (DP) (

1
下载
关闭预览

相关内容

训练集,在AI领域多指用于机器学习训练的数据,数据可以有标签的,也可以是无标签的。
《机器学习的最优传输》教程,63页PPT
专知会员服务
61+阅读 · 2022年4月30日
专知会员服务
38+阅读 · 2020年9月6日
【干货书】真实机器学习,264页pdf,Real-World Machine Learning
强化学习最新教程,17页pdf
专知会员服务
168+阅读 · 2019年10月11日
[综述]深度学习下的场景文本检测与识别
专知会员服务
77+阅读 · 2019年10月10日
IEEE TII Call For Papers
CCF多媒体专委会
3+阅读 · 2022年3月24日
【ICIG2021】Check out the hot new trailer of ICIG2021 Symposium3
中国图象图形学学会CSIG
0+阅读 · 2021年11月9日
Hierarchically Structured Meta-learning
CreateAMind
23+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
25+阅读 · 2019年5月18日
Unsupervised Learning via Meta-Learning
CreateAMind
41+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
Capsule Networks解析
机器学习研究会
10+阅读 · 2017年11月12日
【论文】图上的表示学习综述
机器学习研究会
12+阅读 · 2017年9月24日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
Arxiv
0+阅读 · 2022年10月20日
Arxiv
14+阅读 · 2020年12月17日
VIP会员
相关资讯
IEEE TII Call For Papers
CCF多媒体专委会
3+阅读 · 2022年3月24日
【ICIG2021】Check out the hot new trailer of ICIG2021 Symposium3
中国图象图形学学会CSIG
0+阅读 · 2021年11月9日
Hierarchically Structured Meta-learning
CreateAMind
23+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
25+阅读 · 2019年5月18日
Unsupervised Learning via Meta-Learning
CreateAMind
41+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
Capsule Networks解析
机器学习研究会
10+阅读 · 2017年11月12日
【论文】图上的表示学习综述
机器学习研究会
12+阅读 · 2017年9月24日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员