【导读】弗吉尼亚大学最新《联邦图机器学习:概念、技术和应用》综述

近年来,图机器学习在学术界和产业界引起了极大的关注。大多数图机器学习模型,如图神经网络(GNNs),都是在大量的图数据上训练的。然而,在许多现实场景中,例如医疗系统中的住院预测,图数据通常存储在多个数据所有者中,由于隐私问题和监管限制,其他任何方无法直接访问。联邦图机器学习(FGML)是一种很有前途的解决方案,通过以联邦的方式训练图机器学习模型来解决这一挑战在这项综述中,我们对有关FGML的文献进行了全面的回顾。具体来说,我们首先提供了一个新的分类方法,将FGML中存在的问题分为两种情况,即具有结构化数据的FL和结构化FL。然后,我们回顾了每种情况下的主流技术,并详细阐述了它们如何应对FGML下的挑战。此外,我们总结了FGML在不同领域的实际应用,并介绍了FGML所采用的开放图数据集和平台。最后,我们提出了现有研究的局限性,并展望了该领域的研究方向。

近年来,图被广泛用于表示现实世界中各种领域的复杂数据,例如医疗健康[112;84)、运输(56;136年,生物信息学(72;137]和推荐系统[13;29)。大量的图机器学习技术为理解隐藏在图中的丰富信息提供了深刻的见解,并在不同的任务中表现出表现力,例如节点分类[139;38]和链接预测[6;21)。

虽然这些图机器学习技术已经取得了显著的进步,但它们大多数都需要将大量的图数据集中存储在一台机器上。然而,随着对数据安全和用户隐私的重视[107],这一要求在现实世界中往往是不可行的。相反,图数据通常分布在多个数据所有者中(即数据隔离),出于隐私的考虑,我们无法收集不同地方的图数据。例如,一家第三方公司旨在为一群金融机构训练一个图机器学习模型,以帮助他们发现潜在的金融犯罪和欺诈客户。每个金融机构都拥有自己的本地客户数据集,比如他们的人口统计数据,以及他们之间的交易记录。每个金融机构的客户组成一个客户图,其中边代表交易记录。由于严格的隐私政策和商业竞争,每个机构的本地客户数据不能直接共享给公司或其他机构。同时,一些机构可能与其他机构存在联系,这可以看作是机构之间的结构性信息。一般来说,公司面临的主要挑战在于,如何在不直接访问每个机构的本地客户数据的情况下,基于机构之间的本地客户图和结构信息,训练一个用于金融犯罪检测的图机器学习模型。联邦学习(federation Learning, FL)[76]是一种通过协同训练解决数据隔离问题的分布式学习方案。它使参与者(即客户)能够在不共享私人数据的情况下共同训练机器学习模型。因此,将FL与图机器学习相结合成为解决上述问题的一个很有前途的方法。在本文中,我们称之为联邦图机器学习(FGML)。一般来说,FGML可分为两种结构信息水平的设置。第一个设置是具有结构化数据的FL。在具有结构化数据的FL中,客户端基于自己的图数据协同训练一个图机器学习模型,同时保持本地的图数据。第二种设置是结构化FL,在结构化FL中,客户端之间存在结构信息,构成客户端级图。可以利用客户端图设计更有效的联邦优化方法

虽然FGML提供了一个有希望的范式,但以下挑战出现了,需要解决。

1. Cross-client丢失的信息。FL中结构化数据的一个常见场景是,每个客户端拥有全局图的一个子图,一些节点可能有属于其他客户端的邻居。由于隐私问题,一个节点只能在客户端内聚合其邻居的特征,而不能访问位于其他客户端的特征,这导致节点表示不足[135;88;129;11)。

2. 图结构的隐私泄露。在传统的FL中,客户端不允许公开其数据样本的特征和标签。在具有结构化数据的Fl中,还需要考虑结构信息的私密性。结构信息既可以通过共享邻接矩阵直接暴露,也可以通过传输节点嵌入间接暴露[134;66;114;92]。

3.跨客户端的数据异构性。不像传统的FL,数据异质性来自于非iid数据样本[97;46], FGML中的图数据包含丰富的结构信息[138;50;65;51]。同时,跨客户端发散的图结构也会影响图机器学习模型的性能。

4. 参数利用策略。在结构化FL中,客户端图使客户端能够从相邻的客户端获取信息。在结构化FL中,应该设计出充分利用由中央服务器协调或完全分散的邻居信息的有效策略[55;40;78]。

为了应对上述挑战,近年来提出了大量的算法。然而,据我们所知,现有的综述主要集中在标准FL中的挑战和方法[58;53个;123;143;然而,对于FGML的具体问题和技术的研究却很少[133;63]。[133]对FGML进行了分类,但没有总结研究FGML的主要技术。另一篇综述论文[63]只涉及本主题的相关论文数量有限,并且非常简单地介绍了现有的技术。在本综述中,我们介绍了FGML中两种问题设置的概念。然后,我们回顾了每种情况下的当前技术,并介绍了在FGML中的实际应用。我们还总结了可用于FGML应用的可访问图数据集和平台。最后,展望了未来的发展方向。我们在本文中的贡献可以概括如下:

  • FGML的技术分类。我们提出了一个基于不同问题设置的FGML分类,并总结了每个设置中的关键挑战。

  • 全面的技术调研。我们提供了一个全面的FGML现有技术的概述。与现有的综述相比,我们不仅调研了更广泛的相关工作,而且提供了更详细的技术分析,而不是简单地列出每个方法的步骤。

  • 现实世界的应用。我们首先总结了FGML在现实世界中的应用。我们将应用程序按其领域进行分类,并介绍每个领域的相关工作。

  • 数据集和平台。我们介绍了FGML中现有的数据集和平台,这有助于工程师和研究人员在FGML中开发算法和部署应用。

  • 有前途的未来的发展方向。我们指出了现有方法的局限性,并提供了有前景的研究方向。

本文的其余部分组织如下。第2节简要介绍了图机器学习中的定义以及FGML中两种设置的概念和挑战。我们将在第3节和第4节中分别回顾这两种情况下的主流技术。第5节进一步探讨了FGML在现实世界中的应用。第6节介绍了在相关FGML论文中使用的开放图表数据集和两个FGML平台。我们还在第7节中提供了可能的未来方向。最后,第8部分对本文进行总结。

成为VIP会员查看完整内容
61

相关内容

联邦学习(Federated Learning)是一种新兴的人工智能基础技术,在 2016 年由谷歌最先提出,原本用于解决安卓手机终端用户在本地更新模型的问题,其设计目标是在保障大数据交换时的信息安全、保护终端数据和个人数据隐私、保证合法合规的前提下,在多参与方或多计算结点之间开展高效率的机器学习。其中,联邦学习可使用的机器学习算法不局限于神经网络,还包括随机森林等重要算法。联邦学习有望成为下一代人工智能协同算法和协作网络的基础。
「联邦学习隐私保护 」最新2022研究综述
专知会员服务
114+阅读 · 2022年4月1日
图神经网络综述
专知会员服务
193+阅读 · 2022年1月9日
最新《图机器学习》综述论文,19页pdf
专知会员服务
148+阅读 · 2021年5月5日
最新综述 | 图数据挖掘中的算法公平性
机器学习与推荐算法
5+阅读 · 2022年7月20日
「联邦学习隐私保护 」最新2022研究综述
专知
16+阅读 · 2022年4月1日
2022最新!3篇GNN领域综述!
图与推荐
11+阅读 · 2022年2月18日
【综述】医疗可解释人工智能综述论文
专知
33+阅读 · 2019年7月18日
图神经网络概述第三弹:来自IEEE Fellow的GNN综述
机器之心
46+阅读 · 2019年1月7日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
4+阅读 · 2011年12月31日
国家自然科学基金
5+阅读 · 2011年12月31日
国家自然科学基金
1+阅读 · 2011年12月31日
国家自然科学基金
9+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
Exponential Family Trend Filtering on Lattices
Arxiv
0+阅读 · 2022年9月19日
Arxiv
0+阅读 · 2022年9月15日
Arxiv
74+阅读 · 2022年3月26日
Arxiv
27+阅读 · 2020年12月24日
Arxiv
34+阅读 · 2019年11月7日
VIP会员
相关资讯
相关基金
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
4+阅读 · 2011年12月31日
国家自然科学基金
5+阅读 · 2011年12月31日
国家自然科学基金
1+阅读 · 2011年12月31日
国家自然科学基金
9+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
相关论文
Exponential Family Trend Filtering on Lattices
Arxiv
0+阅读 · 2022年9月19日
Arxiv
0+阅读 · 2022年9月15日
Arxiv
74+阅读 · 2022年3月26日
Arxiv
27+阅读 · 2020年12月24日
Arxiv
34+阅读 · 2019年11月7日
微信扫码咨询专知VIP会员