图数据上的隐私攻击与防御技术

摘要

如今，图数据已经被广泛地应用于现实生活与科学研究当中，有巨大的使用和研究价值. 但与此同时，针对图数据的收集与发布中也存在巨大的隐私风险 . 如何在保护图隐私的同时，发布与收集可用图数据，是目前个人、企业、政府等面临的重大挑战. 本文首先从隐私信息所包含的内容、不同的隐私泄露场景，以及敌手模型三个方面深入地剖析了图数据在使用中存在的隐私风险，然后重点从攻击和防御两个角度展开介绍. 针对攻击而言，本文分析了当前可行的图数据隐私攻击与攻击量化算法及其算法原理. 针对防御而言，本文总结了简单匿名、图修改、聚类，以及差分隐私四种图数据隐私防御技术；分析了集中与分布两种数据存储场景下，不同类型图数据使用的各类隐私防御算法，以及数据隐私性与可用性度量方法. 最后本文综合已有的研究成果，指出了图数据上隐私保护研究当前存在的问题、面临的挑战,及未来的研究方向.

引言

图数据目前已被广泛应用于生活中的各个领域 . 相较于列表等其他数据类型，图数据具有更强的表达能力：除通过结点表征实体属性信息外，还可以通过边清晰地表达结点实体间的链接关系，因此被普遍应用于现实生活与科学研究中［1］ . 典型的图数据包括社交网络、通讯网络、移动轨迹、传染病与医疗数据、合作网络、引用网络、交易信息网络、自治系统数据及其他拓扑图等，被政府、科研机构及企业应用于犯罪分子行为模式挖掘、疾病传播研究、推荐系统等政府数据挖掘、学术研究与商业应用当中.

然而图数据中蕴含大量的敏感信息，一旦泄露，造成的后果极为严重 . 除如社交网络中的个人资料、医疗数据中的诊疗记录、交易信息网络中的交易内容等图结点上的敏感文本属性外，图数据中还包含社会关系、医患关系、交易方式等边上的敏感链接关系. 因此图数据的隐私泄露事件往往涉及人数众多、影响广泛 . 2018 年，社交网络 Facebook 超过 5000万用户个人信息遭到泄露，除个人资料等用户结点属性信息外，还包括好友资料、点赞与转发情况等用户结点间的关联关系 . 数据公司通过分析用户间的关联关系，准确推测出了用户的受教育情况、政治倾向、性取向，甚至是用户儿童时期受过的创伤，从而精准投放引导性信息，以达到左右用户行为的目的 . 此外，数据分析者还利用用户的好友列表，进一步扩大影响范围 . 最终，该隐私泄露事件累计波及到了 8700 万用户 . Facebook 也因此信誉受损、市值下跌，并面临累计超过16亿美元的罚款.

可见，图数据在收集与发布等使用过程中面临着巨大的隐私风险 . 攻击者可以结合各种背景知识对图数据发起隐私攻击 . 在图的集中式存储场景下，攻击者可借助公开的人口统计数据、个体语义属性信息、个体所在图的局部结构信息、公开数据集、网络爬虫爬取的图数据等辅助信息，对匿名图发起结点实体身份再识别攻击，并进一步推断实体的语义属性、链接关系等隐私信息 . 在图的分布式存储场景下，不可信的数据收集者可以在数据收集过程中直接窃取用户的隐私数据 . 即便只发布或收集与原始图相关的统计信息或随机图模型参数等，图数据的隐私安全依然会遭到威胁 . 一则，发布的统计数据本身可能是敏感信息 . 二则，攻击者可以通过发布的数据以较高的准确度还原原始图，或者综合利用各类统计数据对原始图进行隐私推断.

综上所述，对图数据隐私保护技术的研究迫在眉睫 . 然而图数据蕴含信息丰富，实体间关联关系复杂，给其上的隐私保护带来了严峻的挑战 . 首先，图数据上信息的多样性增大了隐私定义的难度 . 图数据中结点所代表的实体身份、语义属性、结点所在的子图结构、结点本身在图中的存在性，以及图中边上的语义属性、边的存在性，都可能是需要保护的敏感信息. 如何选择并综合各类敏感信息进行合理的隐私定义，是图数据隐私保护上的一个难点 . 其次，图数据中结点之间复杂的关联关系增大了隐私保护技术设计与应用的难度 . 同一个结点可能与大量其它结点存在各种不同的链接关系，并且结点上的语义信息与结点所在子图的结构特征也存在一定的关联，对图中任何一个结点、一条边或一条语义信息稍做更改，都可能牵一发而动全身，大大降低图数据整体的可用性 . 因此，如何在充分保护用户隐私的前提下，同时保障图数据的高可用性是研究者关注的焦点.

针对关系型数据的传统隐私保护技术无法满足图数据发布与收集的隐私需求. 传统的k-匿名技术、 l-多样性技术、t-接近技术等虽然可以直接应用于图数据发布时，结点上语义信息的保护，但是无法同时保护结点间特殊的链接关系，以及结点所在的特殊子图结构等隐私信息.而传统的差分隐私技术直接应用于图数据的发布与收集时，相关函数敏感度较高，会导致添加的噪声过大，数据可用性急剧下降.此外，若直接用传统的差分隐私技术对结点上的语义信息、结点存在性、边上的语义信息与边存在性等进行全面的隐私保护，不仅会引起添加噪声过大问题，而且会破坏图数据上信息之间的一致性，降低数据可用性. 因此，为满足图数据上隐私保护的需求，需要在传统隐私保护技术的基础上结合图数据的特点、针对图数据上隐私保护的难点来进行创新.

本文第2节从图数据隐私信息、泄露场景、与敌手模型三个方面综合分析了图数据在收集与发布中面临的隐私风险 . 第 3 节分析了目前在图数据模型上各类攻击算法及其量化方法，对攻击者的能力进行直观地说明. 第4节介绍了图数据中简单匿名、图修改、聚类，及差分隐私四种主流隐私保护技术，并梳理了针对不同应用场景与数据类型的隐私防御算法 . 同时介绍了图数据隐私性与可用性度量及二者关系 . 第 5 节总结了当前图数据隐私保护中仍然存在的问题，并展望了未来可能的研究方向与挑战 . 第6节总结全文.

2 隐私风险

隐私风险指的是在图发布与收集的过程中可能面临来自多种攻击者、对不同的攻击对象发起的各类攻击，从而导致图中的敏感信息泄露 . 本节将从隐私信息、隐私泄露场景、敌手模型三个方面，评估在图收集发布的过程中所面临的隐私风险。

2.1 隐私信息

隐私信息是图中可能泄露的各类敏感信息 . 文献［3］从结构上将图上的隐私信息主要分为结点上的隐私信息与边上的隐私信息两大类 . 而本文则根据文献［2］，从内容的角度将图上的隐私信息分为身份信息、语义属性与链接关系三大类，并丰富了定义内涵.

身份信息指图数据中结点与结点所代表实体身份的一一对应关系，如：社交网络中结点所代表用户的用户姓名、用户 ID 等身份标识符 . 除结点与实体的对应关系外，在传染病传播图等数据中，结点本身在图中的存在性也是一个敏感信息.

语义属性指结点中除身份信息外其他可能泄露隐私的属性信息，通常包括敏感属性信息，如邮件通讯网络中与用户结点关联的邮件内容；或一组可以唯一确定结点身份的非敏感属性集合，即准标识符，如职业社交网络中用户结点的职业、性别、年龄、所在地邮编等. 链接关系指结点所代表实体之间的关联关系，在图中用边表示 .

链接关系上的隐私信息包括边上的权重，如商业网络中两个实体间的交易额；边上的属性，如社交网络中两个实体间的朋友、亲友、医患关系等；边的存在性，如在通讯图中结点所代表的实体间是否存在短信或电话往来等.

2.2 隐私泄露场景

隐私泄露场景是图数据发布与收集中可能泄露隐私的环节，主要包括图的集中式存储与图的分布式存储两种场景. 图1为隐私泄露场景示意图. 下面分别介绍两种场景下图数据面临的隐私问题.

2. 3 敌手模型

敌手模型通过敌手能力、敌手知识，以及敌手目标三个方面，全面刻画攻击者的特征 . 充分了解敌手模型，做到知己知彼，可以为图数据隐私防御方法的研究提供指导依据.

3 隐私攻击

3. 1 攻击算法

在图的分布式存储场景下，当隐私泄露方式为直接泄露时，攻击者无需复杂的攻击算法；而当攻击者试图对用户进行暴力入侵时，通常采用中间人攻击等信息安全领域的攻击方法，不在本文的讨论范畴内 . 因此本节将主要介绍图的集中式存储场景下的隐私攻击算法. 目前，图的集中式存储场景下的攻击算法可分为两大类，基于种子结点（seed-based）的攻击算法以及非种子结点（seed-free）攻击算法. 本文进一步将基于种子结点的攻击算法分为基于种子结点的主动攻击算法与被动攻击算法两个子类 . 此外，不同于［1，14］等文献按照时间顺序介绍相关算法细节，本文首次提炼各类图隐私攻击面临的关键问题，明晰攻击算法整体的发展脉络.下文围绕算法目标、针对的关键问题，以及相应的解决方案，描述经典攻击算法.

3. 2 攻击量化

除从实践上证明算法的可行性外，还有一系列的研究致力于从理论上给出匿名图可以被攻破的条件，以及不同背景知识对去匿名化的影响 . 不同于［1，14］等文献，本文除量化算法所基于的随机图模型外，还着重分析了各个经典量化算法针对的不同的去匿名化条件，并在表3中从理论模型假设、攻击类型，以及量化攻击时考虑的不同条件类型，全面总结了当前攻击量化研究成果.

4 隐私防御

为抵御上述针对图数据的隐私攻击，研究者结合不同地隐私防御技术，提出了多种隐私防御的算法，本节将从图上的隐私防御技术、隐私防御算法，以及图的隐私性与可用性三方面展开介绍.

4. 1 隐私防御技术

目前，针对图数据发布与收集的隐私防御技术主要可以分为简单匿名技术、图修改技术、聚类技术以及差分隐私技术四类 . 下面将依次介绍上述隐私防御技术及其实现机制.

4. 2 隐私防御算法

在针对图数据的发布与收集过程中，最直接的方式是发布或收集原始图的邻居向量或邻接矩阵，因此部分研究基于原始图的拓扑结构、邻接矩阵或邻居向量设计隐私保护方案. 然而原始图的拓扑结构复杂，邻接矩阵维度较高，在算法设计与实现过程中存在算法时间复杂度高、噪声添加大等困难. 因此除原始图外，还有研究针对图上的统计特征、随机图模型参数，以及合成图的收集与发布进行隐私保护. 相比于以隐私技术为依据的传统分类方式［1，14，］本文从实际应用的角度出发，分别介绍在集中式与分布式数据存储场景下，针对以上四种图上数据类型的隐私防御算法. 同时，本文首次提炼出各类隐私防御算法面临的关键问题，并围绕算法的防御目标、采用的防御技术，以及算法针对的关键问题及其解决方案，对相关算法进行描述，明晰各类算法发展脉络.

5 挑战与展望

随着人们对个人隐私的逐步重视，各类新政策的出台，个人隐私保护需求与高质量服务需求之间的矛盾被持续激化，使得对图数据的隐私风险评估与隐私性度量、可用性度量、隐私保护技术、隐私保护算法等的深入研究空前迫切 . 目前，已经有很多研究致力于解决图上的隐私保护问题，相关研究已经广泛涉及到了不同场景下的多种数据类型、隐私保护技术，取得了一定的进展 . 但由于图数据具有蕴含信息丰富、数据之间关联性强、现实中图相对稀疏等特点，现有的研究还不能满足人们对图数据上隐私保护的需求，当前还有很多亟待解决的问题，限制了相关研究在现实应用中的推广与普及。

5. 1 图数据隐私发布与收集中的难点问题

5. 1. 1 隐私性与可用性权衡问题

数据隐私性与可用性的权衡问题是隐私保护领域的一个共性问题 . 如何找到可用性的牺牲与隐私性保证之间的平衡点是设计隐私保护算法的关键 . 然而，图中隐私信息类型丰富，不同结点之间具有很强的关联性，给图数据隐私性与可用性的量化与隐私方案设计带来了更大的挑战 . 首先，对于数据隐私性而言，虽然针对不同采用不同隐私技术的匿名图有不同的量化方式，但是缺乏统一的量化标准；对于数据可用性而言，虽然可以用特定的图性质来度量，但同样尚且没有简洁统一的量化标准 . 并且，不论是图数据的隐私性度量还是可用性度量，目前都很难兼顾图上结点的身份信息、链接关系及属性信息等多种隐私信息 . 而一旦可以综合量化数据隐私性与可用性，就可以通过理论分析找到其平衡点，从而设计更有效的隐私防御方案 . 其次，在具体设计隐私方案时，不同的隐私信息类型需要采用不同的隐私保护技术，因此很难兼顾所有的隐私信息；图中的同一个结点通过边与很多其他结点相连，若对中心结点进行修改则会极大程度破坏图结构可用性，而不做修改则很难保障中心结点的结构隐私 . 基于此，无论是对图数据隐私性与可用性的量化，还是对于具体的隐私保护方案设计，图数据的隐私性与可用性权衡都将继续是未来图数据隐私保护的一个严峻的挑战.

**5. 1. 2 个性化隐私保护 **

图数据在现实生活中图数据有广泛的应用，如基于社交网络、购买记录等的推荐系统，基于地理位置的路径规划，以及基于交易记录的欺诈检测等等 . 在不同类型的网络中对隐私保护强度有不同的需求 . 而在同一个网络中，同一个实体结点对不同的隐私信息也有不同的需求 . 以基于社交网络的朋友推荐为例，社交网络中的不同用户哪些属性为隐私属性，或者哪些链接关系为隐私链接关系都有不同的定义 . 还有一些用户不认为自己所在社交网络中存在隐私信息，反而希望服务提供商利用自己在社交网络中的信息，为自己提供更精准的好友推荐、社群推荐或者商品推荐等服务 . 在以往的研究中，还没有发现能够解决图数据上个性化隐私保护的可行方案 . 因此，如何针对不同网络中不同实体的隐私需求，在保护实体隐私的同时，为实体提供更好的服务是未来图数据隐私保护一个研究趋势.

**5. 1. 3 图数据的动态发布与多次收集 **

在对图的研究中，图的演化是一个重要的研究方向 . 研究图的演化可以对人的社交行为、疾病的传播规律等具有更深刻的认识与理解 . 而研究图的演化，往往需要对同一图数据进行多次收集或者动态发布 . 一般的隐私防御方案无法保证在多次收集或者动态发布中数据的隐私安全 . 多次收集及动态发布时，在保证结点、边及属性隐私安全的同时，还需要保证同一时间序列下数据的一致性，如：同一时间序列下相同结点的身份代码要一致；此外发布数据中边的存在性、图中的语义信息等要符合原始图的演化规律等 . 隐私防御算法在保证数据的一致性同时，提高了数据的可用性，但同时也丰富了攻击者对同一时间序列下的图数据发起攻击时的敌手知识，进一步增加了防御的难度 . 目前，已经有少量的研究关注该问题，但是鲜有有效的解决方案，因此该问题是仍然是未来图数据隐私保护上的一个重要探索方向.

**5. 1. 4 面向主动攻击的隐私防御算法 **

主动攻击者具有很强的攻击能力 . 现实中，主动攻击者可以通过在社交网络中创建僵尸账号并主动关联目标用户对用户发起隐私攻击 . 近年来有文献提出一种具有鲁棒性的主动攻击算法，可以以较高的准确度一次性对大量结点进行去匿名化攻击 . 该算法的提出，不仅使研究者更深刻认识到主动攻击者强大的攻击能力，更进一步提高了类似于社交网络等图中用户的隐私风险 . 然而，目前尚没有攻击算法可以有效缓解由此类攻击带来的隐私风险 . 因此如何在现有的隐私保护算法上进行提升，或者改进已有的隐私防御技术，使其能更好的应对具有主动攻击能力的攻击者是未来隐私保护技术发展一个可能方向.

**5. 1. 5 隐私放大理论在图隐私保护中的应用 **

近年来，通过深入挖掘各类算法自身特征，有很多工作提出了一系列的隐私放大理论，从而提升隐私防御效果 . 上述工作利用算法本身的随机性、下采样、随机打乱等方式，放大差分隐私预算，以取得更好的隐私防御效果 . 利用差分隐私进行图的收集与发布普遍面临噪声添加过大，导致数据可用性降低等问题 . 若能深入研究图的各类算法自身隐含的隐私性，或者采用基于混淆模型等的技术放大隐私，将会极大提升数据收集与发布的质量 . 然而，在图上应用隐私放大理论面临诸多挑战 . 图上的结点之间存在关联边，因此不同数据之间不再具有独立性，无论是给相关方案的设计，还是给理论上的证明都增加了难度 . 目前，还没有相关工作将隐私放大相关的理论与技术应用于图隐私保护相关的应用场景下，该技术的应用可能给未来图上隐私保护技术的发展带来新的突破.

5. 2 面向新应用场景的图数据隐私保护

**5. 2. 1 面向图数据机器学习中的隐私保护 **

图数据在机器学习领域有着非常广泛的应用，如基于神经网络的结点分类、链接预测、社群发现，对异常检测问题，商品及好友推荐问题等提供了巨大的帮助 . 然而，近年来越来越多的研究发现，机器学习中存在着巨大的隐私风险 . 攻击者可以通过机器学习发布的模型参数、预测结果等对训练集发起重构攻击、成员推断攻击等，导致训练集中数据隐私泄漏 . 已有的针对图数据的隐私保护算法只能用户对图数据训练集进行输入扰动，并且此类扰动算法由于添加的噪声过大，可能严重影响训练模型的可用性. 而已有的针对机器学习的隐私保护策略，则面临着针对图训练数据隐私定义难，对关联数据扰动难等问题 . 因此如何在保证模型可用性的同时提出可行的隐私保护方法是未来一个可能的探索领域.

**5. 2. 2 隐私保护下的图性质多方共同计算 **

不同于分布式存储场景下的数据收集，在隐私保护下的图性质多方共同计算中，没有数据收集者，各方掌握部分子图，及各子图之间公共的边链接状况，但不了解其他各个参与方所掌握的隐私图内部结构 . 各方希望借助彼此的信息共同计算完整图中结点间的最短路径、中心度等信息，实现计算结果共享，同时不泄露自己所掌握图中的隐私信息 . 借助密码学技术，如秘密共享或多方安全计算等可以解决上述问题，但是存在通信开销大、计算开销大等弊端 . 差分隐私等图隐私保护技术可以缓解开销问题，但同时也可能面临计算不准确等挑战 . 目前有少量的工作关注该问题，但仅仅集中在两方的共同计算上 . 能否将其扩展至多方共同计算，将会是未来可以探究的新场景.

6 总结

目前，图数据在现实生活与研究中被广泛的应用. 与此同时，图数据中也存在极高的隐私风险. 而图数据上丰富的信息，数据之间关联性强，给图数据上的隐私保护带来了巨大的挑战 . 本文分析了图的发布与收集中的隐私风险，综述了目前针对图数据隐私攻防的各类方案 . 综合二者，本文在最后给出了目前图数据上隐私保护研究的仍然存在的问题以及未来可能的研究方向 . 总之，图数据上的隐私保护研究虽然已经取得了一定的进展，但未来依旧有很高的研究价值与广阔的研究空间.

成为VIP会员查看完整内容