近年来,机器学习迅速地发展,给人们带来便利的同时,也带来极大的安全隐患.机器学习的安全与隐私问题已经成为其发展的绊脚石.机器学习模型的训练和预测均是基于大量的数据,而数据中可能包含敏感或隐私信息,随着数据安全与隐私泄露事件频发、泄露规模连年加剧,如何保证数据的安全与隐私引发科学界和工业界的广泛关注. 首先,介绍了机器学习隐私保护中的敌手模型的概念; 其次总结机器学习在训练和预测阶段常见的安全及隐私威胁,如训练数据的隐私泄露、投毒攻击、对抗攻击、隐私攻击等.随后介绍了常见的安全防御方法和隐私保护方法,重点介绍了同态加密技术、安全多方计算技术、差分隐私技术等,并比较了典型的方案及3种技术的适用场景.最后,展望机器学习隐私保护的未来发展趋势和研究方向.

依托于云计算、物联网、大数据技术的发展,以数据挖掘和深度学习为代表的人工智能技术正在改变人类社会生活,并成为先进科技应用的代表和社会关注的热点.作为引领未来的战略性技术,人工智能技术被世界各国纷纷提升为发展国家竞争力、维护国家安全的重大战略.

机器学习是一种实现人工智能的方式,是近些年主要研究的领域.目前机器学习方案在很多领域都有着成熟的应用,如天气预报、能源勘探、环境监测等,通过收集相关数据进行分析学习,可以提高这些工作的准确性;还有如在垃圾邮件检测、个性化广告推荐、信用卡欺诈检测、自动驾驶、人脸识别、自然语言处理、语音识别、搜索引擎的优化等各个领域,机器学习都扮演着重要的角色.然而,蓬勃发展的机器学习技术使数据安全与隐私面临更加严峻的挑战,因为机器学习的更精准模型需要大量的训练数据为支撑.

自2013年斯诺登的“棱镜”事件以来,全球信息泄露规模连年加剧,引起社会的广泛关注.2016年9月Yahoo被曝出曾被黑客盗取了至少5亿个用户账号信息;2017年微软Skype软件服务遭受DDOS攻击,导致用户无法通过平台进行通信;2018年3月美国《纽约时报》和英国《卫报》均报道:剑桥分析(Cambridge Analytica)数据分析公司在未经用户许可的情况下,盗用了高达5千万个Facebook的用户个人资料[1].2019年美国网络安全公司UpGuard发现上亿条保存在亚马逊AWS云计算服务器上的Facebook用户信息记录,可被任何人轻易地获取;IBM在未经当事人许可的情况下,从网络图库Flickr上获得了接近100万张照片,借此训练人脸识别程序,并与外部研究人员分享[2].2020年4月《华盛顿邮报》报道视频会议软件Zoom存在的重大安全漏洞:数以万计的私人Zoom视频被上传至公开网页,任何人都可在线围观,很多视频都包含个人可识别信息,甚至是在家里进行的私密谈话[3].信息泄露的途径主要分为内部人员或第三方合作伙伴泄露、信息系统无法杜绝的漏洞、机构本身的防护机制不健全、对数据的重要程度不敏感,以及对安全配置的疏忽大意等.可见,数据隐私的泄露已不单单是满足某些外部人员好奇心所驱使,而是已成为一种重要的商业获利而被广泛关注,其中不乏内外勾结、合谋获取用户的隐私等行为.

http://crad.ict.ac.cn/CN/10.7544/issn1000-1239.2020.20200426

成为VIP会员查看完整内容
0
19

相关内容

“机器学习是近20多年兴起的一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。机器学习理论主要是设计和分析一些让 可以自动“ 学习”的算法。机器学习算法是一类从数据中自动分析获得规律,并利用规律对未知数据进行预测的算法。因为学习算法中涉及了大量的统计学理论,机器学习与统计推断学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。很多 推论问题属于 无程序可循难度,所以部分的机器学习研究是开发容易处理的近似算法。” ——中文维基百科

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等

随着数据越来越多地存储在不同的筒仓中,社会越来越关注数据隐私问题,传统的人工智能(AI)模型集中训练正面临效率和隐私方面的挑战。最近,联邦学习(FL)作为一种替代解决方案出现,并在这种新的现实中继续蓬勃发展。现有的FL协议设计已经被证明对系统内外的对抗是脆弱的,危及数据隐私和系统的鲁棒性。除了训练强大的全局模型外,最重要的是设计具有隐私保障和抵抗不同类型对手的FL系统。在本文中,我们对这一问题进行了第一次全面的综述。通过对FL概念的简明介绍,和一个独特的分类涵盖:1) 威胁模型; 2) 中毒攻击与鲁棒性防御; 3) 对隐私的推理攻击和防御,我们提供了这一重要主题的可访问的回顾。我们强调了各种攻击和防御所采用的直觉、关键技术和基本假设。最后,我们对鲁棒性和隐私保护联合学习的未来研究方向进行了讨论。

https://www.zhuanzhi.ai/paper/678e6e386bbefa8076e699ebd9fd8c2a

引言

随着计算设备变得越来越普遍,人们在日常使用中产生了大量的数据。将这样的数据收集到集中的存储设施中既昂贵又耗时。传统的集中式机器学习(ML)方法不能支持这种普遍存在的部署和应用,这是由于基础设施的缺点,如有限的通信带宽、间歇性的网络连接和严格的延迟约束[1]。另一个关键问题是数据隐私和用户机密性,因为使用数据通常包含敏感信息[2]。面部图像、基于位置的服务或健康信息等敏感数据可用于有针对性的社交广告和推荐,造成即时或潜在的隐私风险。因此,私人数据不应该在没有任何隐私考虑的情况下直接共享。随着社会对隐私保护意识的增强,《通用数据保护条例》(GDPR)等法律限制正在出现,这使得数据聚合实践变得不那么可行。

在这种情况下,联邦学习(FL)(也被称为协作学习)将模型训练分发到数据来源的设备上,作为一种有前景的ML范式[4]出现了。FL使多个参与者能够构建一个联合ML模型,而不暴露他们的私人训练数据[4],[5]。它还可以处理不平衡、非独立和同分布(非i.i.d)数据,这些数据自然出现在真实的[6]世界中。近年来,FL获得了广泛的应用,如下一个单词预测[6]、[7]、安全视觉目标检测[8]、实体解析[9]等。

根据参与者之间数据特征和数据样本的分布,联邦学习一般可以分为水平联邦学习(HFL)、垂直联邦学习(VFL)和联邦迁移学习(FTL)[10]。

具有同构体系结构的FL: 共享模型更新通常仅限于同构的FL体系结构,也就是说,相同的模型被所有参与者共享。参与者的目标是共同学习一个更准确的模型。具有异构架构的FL: 最近的努力扩展了FL,以协同训练具有异构架构的模型[15],[16]。

FL提供了一个关注隐私的模型训练的范式,它不需要数据共享,并且允许参与者自由地加入和离开联盟。然而,最近的研究表明,FL可能并不总是提供足够的隐私和健壮性保证。现有的FL协议设计容易受到以下攻击: (1)恶意服务器试图从个人更新中推断敏感信息,篡改训练过程或控制参与者对全局参数的看法;或者(2)一个敌对的参与者推断其他参与者的敏感信息,篡改全局参数聚合或破坏全局模型。

在隐私泄露方面,在整个训练过程中,通信模型的更新会泄露敏感信息[18]、[19],并导致深度泄露[20],无论是对第三方服务器还是中央服务器[7]、[21]。例如,如[22]所示,即使是很小一部分的梯度也可以揭示相当数量的有关本地数据的敏感信息。最近的研究表明,通过简单地观察梯度,恶意攻击者可以在[20],[23]几次迭代内窃取训练数据。

在鲁棒性方面,FL系统容易受到[24]、[25]和[26]、[27]、[28]、[29]的模型中毒攻击。恶意参与者可以攻击全局模型的收敛性,或者通过故意改变其本地数据(数据中毒)或梯度上传(模型中毒)将后门触发器植入全局模型。模型投毒攻击可以进一步分为:(1)Byzantine 攻击,攻击者的目标是破坏全局模型[13]、[30]的收敛性和性能;(2)后门攻击,对手的目标是在全局模型中植入一个后门触发器,以欺骗模型不断预测子任务上的敌对类,同时在主要任务[26],[27]上保持良好的性能。需要注意的是,后门模型投毒攻击通常利用数据投毒来获取有毒的参数更新[24]、[26]、[27]。

这些隐私和鲁棒性攻击对FL构成了重大威胁。在集中学习中,服务器控制参与者的隐私和模型鲁棒性。然而,在FL中,任何参与者都可以攻击服务器并监视其他参与者,有时甚至不涉及服务器。因此,理解这些隐私性和健壮性攻击背后的原理是很重要的。

目前对FL的研究主要集中在系统/协议设计[10]、[31]、[32]。联邦学习的隐私和稳健性威胁还没有得到很好的探讨。在本文中,我们调研了FL的隐私和鲁棒性威胁及其防御方面的最新进展。特别地,我们关注由FL系统内部者发起的两种特定威胁:1) 试图阻止学习全局模型的中毒攻击,或控制全局模型行为的植入触发器;2) 试图泄露其他参与者隐私信息的推理攻击。表2总结了这些攻击的特性。

成为VIP会员查看完整内容
0
18

联邦学习是一种新型的分布式学习框架,它允许在多个参与者之间共享训练数据而不会泄露其数据隐私。但是这种新颖的学习机制仍然可能受到来自各种攻击者的前所未有的安全和隐私威胁。本文主要探讨联邦学习在安全和隐私方面面临的挑战。首先,本文介绍了联邦学习的基本概念和威胁模型,有助于理解其面临的攻击。其次,本文总结了由内部恶意实体发起的3种攻击类型,同时分析了联邦学习体系结构的安全漏洞和隐私漏洞。然后从差分隐私、同态密码系统和安全多方聚合等方面研究了目前最先进的防御方案。最后通过对这些解决方案的总结和比较,进一步讨论了该领域未来的发展方向。

https://jnuaa.nuaa.edu.cn/ch/reader/create_pdf.aspx?file_no=202005001&flag=1&journal_id=njhkht&year_id=2020

成为VIP会员查看完整内容
0
42

在大数据时代下,深度学习、强化学习以及分布式学习等理论和技术取得的突破性进展,为机器学习提供了数据和算法层面的强有力支撑,同时促进了机器学习的规模化和产业化发展.然而,尽管机器学习模型在现实应用中有着出色的表现,但其本身仍然面临着诸多的安全威胁.机器学习在数据层、模型层以及应用层面临的安全和隐私威胁呈现出多样性、隐蔽性和动态演化的特点.机器学习的安全和隐私问题吸引了学术界和工业界的广泛关注,一大批学者分别从攻击和防御的角度对模型的安全和隐私问题进行了深入的研究,并且提出了一系列的攻防方法. 在本综述中,我们回顾了机器学习的安全和隐私问题,并对现有的研究工作进行了系统的总结和科学的归纳,同时明确了当前研究的优势和不足. 最后,我们探讨了机器学习模型安全与隐私保护研究当前所面临的挑战以及未来潜在的研究方向,旨在为后续学者进一步推动机器学习模型安全与隐私保护研究的发展和应用提供指导.

http://www.jos.org.cn/jos/ch/reader/view_abstract.aspx?file_no=6131&flag=1

成为VIP会员查看完整内容
1
33

数据孤岛以及模型训练和应用过程中的隐私泄露是当下阻碍人工智能技术发展的主要难题。联邦学习作为一种高效的隐私保护手段应运而生。联邦学习是一种分布式的机器学习方法,以在不直接获取数据源的基础上,通过参与方的本地训练与参数传递,训练出一个无损的学习模型。但联邦学习中也存在较多的安全隐患。本文着重分析了联邦学习中的投毒攻击、对抗攻击以及隐私泄露三种主要的安全威胁,针对性地总结了最新的防御措施,并提出了相应的解决思路。

成为VIP会员查看完整内容
0
57

最近,在自然语言处理(NLP)中构建通用语言模型(如谷歌的Bert和OpenAI的GPT-2)用于文本特征提取的新范式出现了。对于下游建模,已经出现并开始在各种下游NLP任务和现实世界系统(例如,谷歌的搜索引擎)中发现它的应用。为了获得通用的文本嵌入,这些语言模型具有高度复杂的体系结构,具有数百万个可学习的参数,通常在使用之前对数十亿个句子进行预处理。众所周知,这种做法确实提高了许多下游NLP任务的最新性能。但是,改进的实用程序不是免费的。我们发现,通用语言模型中的文本嵌入会从纯文本中捕获很多敏感信息。一旦被对手访问,嵌入信息可以被反向设计,以披露受害者的敏感信息,以进行进一步的骚扰。尽管这样的隐私风险可能会对这些有前途的NLP工具的未来影响造成真正的威胁,但是目前还没有针对主流行业级语言模型的公开攻击或系统评估。为了弥补这一差距,我们首次系统地研究了8种最先进的语言模型和4个不同的案例。通过构建两个新的攻击类,我们的研究表明上述隐私风险确实存在,并可能对通用语言模型在身份、基因组、医疗保健和位置等敏感数据上的应用造成实际威胁。例如,当我们从病人的医疗描述的Bert embeddings中推断出精确的疾病位置时,我们向几乎没有先验知识的对手展示了大约75%的准确性。作为可能的对策,我们提出了4种不同的防御(通过舍入、差异隐私、对抗性训练和子空间投影)来混淆无保护的嵌入,以达到缓解的目的。在广泛评估的基础上,我们还对每一种防御所带来的效用-隐私权衡进行了初步分析,希望能对未来的缓解研究有所帮助。

成为VIP会员查看完整内容
0
13

题目: 机器学习的隐私保护研究综述

简介:

大规模数据收集大幅提升了机器学习算法的性能,实现了经济效益和社会效益的共赢,但也令个人隐私保护面临更大的风险与挑战.机器学习的训练模式主要分为集中学习和联邦学习2类,前者在模型训练前需统一收集各方数据,尽管易于部署,却存在极大数据隐私与安全隐患;后者实现了将各方数据保留在本地的同时进行模型训练,但该方式目前正处于研究的起步阶段,无论在技术还是部署中仍面临诸多问题与挑战.现有的隐私保护技术研究大致分为2条主线,即以同态加密和安全多方计算为代表的加密方法和以差分隐私为代表的扰动方法,二者各有利弊.为综述当前机器学习的隐私问题,并对现有隐私保护研究工作进行梳理和总结,首先分别针对传统机器学习和深度学习2类情况,探讨集中学习下差分隐私保护的算法设计;之后概述联邦学习中存的隐私问题及保护方法;最后总结目前隐私保护中面临的主要挑战,并着重指出隐私保护与模型可解释性研究、数据透明之间的问题与联系.

成为VIP会员查看完整内容
机器学习的隐私保护研究综述.pdf
0
75

主题: Federated Learning: User Privacy, Data Security and Confidentiality in Machine Learning

摘要: 尽管人工智能(AI)目前取得了巨大的进步,但它在高质量大数据的获取方面面临着严峻的挑战。在许多实际应用中,数据是以孤立岛的形式存在的。整合数据的工作越来越困难,部分原因是对用户隐私和数据安全的严重关切。本次演讲将回顾这些挑战,并描述解决这些挑战的可能技术解决方案,并将概述迁移学习的最新进展,并展示它如何缓解数据短缺的问题。

邀请嘉宾: Qiang Yang,香港科技大学计算机科学与工程系的客座教授。他的研究兴趣包括人工智能、机器学习,特别是迁移移学习。他是AAAI、ACM、IEEE、AAAS等的研究员,《智能系统与技术》(ACM-TIST)的创始主编,《大数据》(IEEE-TBD)的创始主编。1989年,他在马里兰大学帕克分校获得博士学位,曾在滑铁卢大学和西蒙·弗雷泽大学任教。他是IJCAI-2015的PC主席,并于2017年获得ACM SIGKDD杰出服务奖。他是IJCAI现任总裁(2017-2019年)和AAAI执行委员会成员。

成为VIP会员查看完整内容
0
5
小贴士
相关资讯
隐私保护相关汇总
计算机与网络安全
5+阅读 · 2019年5月16日
【专题】美国隐私立法进展的总体分析
蚂蚁金服评论
10+阅读 · 2019年4月25日
美参议员提出商业面部识别隐私法案
蚂蚁金服评论
7+阅读 · 2019年4月25日
打包看——2018安全与隐私保护论文
计算机研究与发展
5+阅读 · 2019年1月8日
区块链隐私保护研究综述——祝烈煌详解
计算机研究与发展
7+阅读 · 2018年11月28日
差分隐私保护:从入门到脱坑
FreeBuf
10+阅读 · 2018年9月10日
GDPR之风盛行,美、印、巴接连启动数据保护立法
百度公共政策研究院
4+阅读 · 2018年8月29日
相关论文
Qinqing Zheng,Shuxiao Chen,Qi Long,Weijie J. Su
0+阅读 · 2月22日
Mahdi Fahmideh,Aakash Ahmed,Ali Behnaz,John Grundy,Willy Susilo
0+阅读 · 2月21日
Luis Puche Rondon,Leonardo Babun,Ahmet Aris,Kemal Akkaya,A. Selcuk Uluagac
0+阅读 · 2月21日
Dina Barak-Pelleg,Daniel Berend,J. C. Saunders
0+阅读 · 2月18日
Honglin Yuan,Manzil Zaheer,Sashank Reddi
0+阅读 · 2月18日
Data-Aware Device Scheduling for Federated Edge Learning
Afaf Taik,Zoubeir Mlika,Soumaya Cherkaoui
0+阅读 · 2月18日
Mamdouh Farouk
5+阅读 · 2019年10月6日
Tong Yu,Branislav Kveton,Zheng Wen,Hung Bui,Ole J. Mengshoel
4+阅读 · 2018年4月26日
Han Zhu,Pengye Zhang,Guozheng Li,Jie He,Han Li,Kun Gai
7+阅读 · 2018年1月8日
Top