Adversarial attacks on machine learning-based classifiers, along with defense mechanisms, have been widely studied in the context of single-label classification problems. In this paper, we shift the attention to multi-label classification, where the availability of domain knowledge on the relationships among the considered classes may offer a natural way to spot incoherent predictions, i.e., predictions associated to adversarial examples lying outside of the training data distribution. We explore this intuition in a framework in which first-order logic knowledge is converted into constraints and injected into a semi-supervised learning problem. Within this setting, the constrained classifier learns to fulfill the domain knowledge over the marginal distribution, and can naturally reject samples with incoherent predictions. Even though our method does not exploit any knowledge of attacks during training, our experimental analysis surprisingly unveils that domain-knowledge constraints can help detect adversarial examples effectively, especially if such constraints are not known to the attacker.


翻译:在单一标签分类问题的背景下,我们广泛研究了对机器学习分类器的反向攻击以及国防机制。在本文中,我们把注意力转移到多标签分类上,因为对于被考虑的类别之间的关系的域知识的可得性可能会提供自然的发现不连贯预测的方法,即与培训数据分布外的对抗性实例相关的预测。我们在一个将一阶逻辑知识转化为制约并注入半监督学习问题的框架中探索这一直觉。在这一背景下,受限制的分类器学会了在边缘分布上实现域知识,并且可以自然地拒绝带有不连贯预测的样本。 尽管我们的方法在培训期间没有利用任何攻击知识,但我们的实验分析令人惊讶地揭示,域知识限制可以帮助有效地发现对抗性例子,特别是如果攻击者不知道这些限制因素。

0
下载
关闭预览

相关内容

多标签学习的新趋势(2020 Survey)
专知会员服务
43+阅读 · 2020年12月6日
Hierarchically Structured Meta-learning
CreateAMind
27+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
29+阅读 · 2019年5月18日
强化学习的Unsupervised Meta-Learning
CreateAMind
18+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
Zero-Shot Learning相关资源大列表
专知
52+阅读 · 2019年1月1日
计算机类 | 期刊专刊截稿信息9条
Call4Papers
4+阅读 · 2018年1月26日
计算机视觉近一年进展综述
机器学习研究会
9+阅读 · 2017年11月25日
Arxiv
0+阅读 · 2021年6月7日
Deflecting Adversarial Attacks
Arxiv
8+阅读 · 2020年2月18日
VIP会员
相关VIP内容
多标签学习的新趋势(2020 Survey)
专知会员服务
43+阅读 · 2020年12月6日
Top
微信扫码咨询专知VIP会员