Deep Generative Models (DGMs) allow users to synthesize data from complex, high-dimensional manifolds. Industry applications of DGMs include data augmentation to boost performance of (semi-)supervised machine learning, or to mitigate fairness or privacy concerns. Large-scale DGMs are notoriously hard to train, requiring expert skills, large amounts of data and extensive computational resources. Thus, it can be expected that many enterprises will resort to sourcing pre-trained DGMs from potentially unverified third parties, e.g.~open source model repositories. As we show in this paper, such a deployment scenario poses a new attack surface, which allows adversaries to potentially undermine the integrity of entire machine learning development pipelines in a victim organization. Specifically, we describe novel training-time attacks resulting in corrupted DGMs that synthesize regular data under normal operations and designated target outputs for inputs sampled from a trigger distribution. Depending on the control that the adversary has over the random number generation, this imposes various degrees of risk that harmful data may enter the machine learning development pipelines, potentially causing material or reputational damage to the victim organization. Our attacks are based on adversarial loss functions that combine the dual objectives of attack stealth and fidelity. We show its effectiveness for a variety of DGM architectures (Generative Adversarial Networks (GANs), Variational Autoencoders (VAEs)) and data domains (images, audio). Our experiments show that - even for large-scale industry-grade DGMs - our attack can be mounted with only modest computational efforts. We also investigate the effectiveness of different defensive approaches (based on static/dynamic model and output inspections) and prescribe a practical defense strategy that paves the way for safe usage of DGMs.


翻译:深度生成模型(DGM) 使用户能够将来自复杂、高维的多维元体的数据综合起来。 DGM 的行业应用包括数据增强,以提高(半)监督的机器学习绩效,或减轻公平或隐私问题。 大规模DGM 很难培训,需要专家技能、大量数据和大量计算资源。 因此,可以预计许多企业将诉诸可能未经核实的第三方(例如:~开放源码模型库)获得经过预先培训的DGM。 正如我们在本文件中所表明的那样,这种部署情景构成了一个新的攻击性表面,使对手有可能破坏(半)监督的机器学习机器学习的机器学习,或减轻对公平或隐私的关切。 具体而言,我们描述了新的培训时间攻击性攻击,导致在正常操作中将常规数据与从触发分布中抽取的投入指定目标产出相结合的腐败性DGMMs。取决于对手对随机数字生成的控制,这给有害数据进入机器学习发展管道带来不同程度的风险,有可能对受害者组织造成物质或声誉损害。 我们的攻击性- 数字- DVG 网络 以双向性格式化的DMDMD(我们攻击性结构的模型的模型的模型的模型的功能功能) 显示双向损失功能 。

0
下载
关闭预览

相关内容

在机器学习中,生成模型可以用来直接对数据建模(例如根据某个变量的概率密度函数进行数据采样),也可以用来建立变量间的条件概率分布。条件概率分布可以由生成模型根据贝叶斯定理形成。
生成对抗网络GAN在各领域应用研究进展(中文版),37页pdf
专知会员服务
149+阅读 · 2020年12月30日
专知会员服务
33+阅读 · 2020年12月28日
专知会员服务
44+阅读 · 2020年10月31日
最新【深度生成模型】Deep Generative Models,104页ppt
专知会员服务
67+阅读 · 2020年10月24日
专知会员服务
17+阅读 · 2020年9月6日
机器学习入门的经验与建议
专知会员服务
90+阅读 · 2019年10月10日
Unsupervised Learning via Meta-Learning
CreateAMind
41+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
Capsule Networks解析
机器学习研究会
10+阅读 · 2017年11月12日
gan生成图像at 1024² 的 代码 论文
CreateAMind
4+阅读 · 2017年10月31日
深度学习医学图像分析文献集
机器学习研究会
17+阅读 · 2017年10月13日
Adversarial Variational Bayes: Unifying VAE and GAN 代码
CreateAMind
7+阅读 · 2017年10月4日
【推荐】GAN架构入门综述(资源汇总)
机器学习研究会
10+阅读 · 2017年9月3日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Weight Poisoning Attacks on Pre-trained Models
Arxiv
5+阅读 · 2020年4月14日
Deflecting Adversarial Attacks
Arxiv
8+阅读 · 2020年2月18日
Arxiv
4+阅读 · 2018年4月30日
VIP会员
相关资讯
Unsupervised Learning via Meta-Learning
CreateAMind
41+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
Capsule Networks解析
机器学习研究会
10+阅读 · 2017年11月12日
gan生成图像at 1024² 的 代码 论文
CreateAMind
4+阅读 · 2017年10月31日
深度学习医学图像分析文献集
机器学习研究会
17+阅读 · 2017年10月13日
Adversarial Variational Bayes: Unifying VAE and GAN 代码
CreateAMind
7+阅读 · 2017年10月4日
【推荐】GAN架构入门综述(资源汇总)
机器学习研究会
10+阅读 · 2017年9月3日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Top
微信扫码咨询专知VIP会员