【重磅】联邦学习FL进展与开放问题万字综述论文，58位学者25家机构联合出品，105页pdf438篇文献

2019 年 12 月 15 日 专知

【导读】联邦学习（Federated Learning）是一种新兴的人工智能基础技术，在 2016 年由谷歌最先提出，原本用于解决安卓手机终端用户在本地更新模型的问题，其设计目标是在保障大数据交换时的信息安全、保护终端数据和个人数据隐私、保证合法合规的前提下，在多参与方或多计算结点之间开展高效率的机器学习。其中，联邦学习可使用的机器学习算法不局限于神经网络，还包括随机森林等重要算法。联邦学习有望成为下一代人工智能协同算法和协作网络的基础。最近来自斯坦福、CMU、Google等25家机构58位学者共同发表了关于联邦学习最新进展与开放问题的综述论文《Advances and Open Problems in Federated Learning》，共105页pdf调研了438篇文献，讲解了最新联邦学习进展，并提出大量开放型问题。

论文地址链接：

https://arxiv.org/abs/1912.04977

摘要

联邦学习(FL)是一种机器学习设置，在这种设置中，许多客户(例如移动设备或整个组织)在中央服务器(例如服务提供商)的协调下协作地训练模型，同时保持训练数据分散。FL体现了集中数据收集和最小化的原则，可以减轻由于传统的、集中的机器学习和数据科学方法所带来的许多系统隐私风险和成本。在FL研究爆炸性增长的推动下，本文讨论了近年来的进展，并提出了大量的开放问题和挑战。

1 介绍

1.1 跨设备联邦学习设置
1.1.1 联邦学习中模型的生命周期
1.1.2 典型的联邦训练过程
1.2 联邦学习研究
1.3 组织

2. 放宽核心联邦学习假设:应用到新兴的设置和场景

2.1 完全分散/点对点分布式学习
2.2 跨竖井联邦学习
2.3 分离学习

3. 提高效率和效果

3.1 联邦学习中的非iid数据
3.2 联邦学习优化算法
3.3 多任务学习、个性化和元学习
3.4 为联邦学习调整ML工作流
3.5 通信与压缩
3.6 适用于更多类型的机器学习问题和模型

4 .保护用户数据的隐私

4.1 深入研究参与者、威胁模型和隐私
4.2 工具与技术
4.3 对外部恶意行为者的保护
4.4 对抗服务器的保护
4.5 用户感知

5. 对攻击和失败的健壮性

5.1 模型性能的对抗性攻击
5.2 非恶意失效模式
5.3 探索隐私和健壮性之间的张力

6. 确保公平，消除偏见

6.1 训练数据的偏差
6.2不访问敏感属性的公平性
6.3公平、隐私和健壮性
6.4利用联合来改善模型多样性
6.5联邦公平:新的机遇和挑战

7 结束语

用于联邦学习的软件和数据集

引言

联邦学习(FL)是一种机器学习设置，在这种设置中，许多客户端(例如移动设备或整个组织)在中央服务器(例如服务提供商)的协调下协作地训练模型，同时保持训练数据分散。它体现了集中收集和最小化数据的原则，并且可以减轻传统的集中式机器学习带来的许多系统隐私风险和成本。这一领域最近从研究和应用的角度都引起了极大的兴趣。本文描述了联邦学习设置的定义特征和挑战，强调了重要的实践约束和注意事项，然后列举了一系列有价值的研究方向。这项工作的目标是突出具有重大理论和实践意义的研究问题，并鼓励对可能产生重大现实影响的问题进行研究。

联邦学习这个术语是由McMahan等人在2016年提出的[289]:“我们把我们的方法称为联邦学习，因为学习任务是由一个松散的联邦参与设备(我们称之为客户端)来解决的，而这个联邦设备是由一个中央服务器来协调的。“一个不平衡的和非iid(恒等的和独立分布的)数据分区跨大量不可靠的设备和有限的通信带宽被引入作为定义的挑战集。

重要的相关工作早于联邦学习的引入。许多研究团体(包括密码学、数据库和机器学习)长期追求的一个目标是分析和学习分布在许多所有者中的数据，而不公开这些数据。计算加密数据的加密方法从20世纪80年代早期开始发展[340,421]，Agrawal和Srikant[15]和Vaidya等[390]是使用中央服务器学习本地数据同时保护隐私的早期例子。相反，即使是在引入了联邦学习这个术语之后，我们也没有发现任何一项工作可以直接解决FL所面临的全部挑战。因此，术语联邦学习为一组特征、约束和挑战提供了方便的简写，这些特征、约束和挑战常常同时出现在分散数据上的应用ML问题中，而隐私是最重要的。

本文起源于2019年6月17 - 18日在谷歌西雅图办公室举办的关于联邦学习和分析的研讨会。在这两天的活动中，需要一篇广泛的论文来调查联邦学习领域中许多开放的挑战，这一点变得很明显。

讨论的许多问题的一个关键特性是它们本质上是跨学科的——解决它们可能不仅需要机器学习，还需要分布式优化、密码学、安全、差分隐私、公平性、压缩感知、系统、信息论、统计等技术。许多最棘手的问题都处在这些领域的交叉点上，因此我们认为，合作对正在取得的进展至关重要。这项工作的目标之一是强调这些领域的技术可以潜在地组合在一起的方式，这既提出了有趣的可能性，也提出了新的挑战。

自项联邦学习最初引入的重点是移动和边缘设备应用程序(289、287),对FL应用到其他应用程序的兴趣大大增加,其中一些可能只涉及少量的相对可靠的客户,例如多个组织合作训练模型。我们将这两个联邦学习设置分别称为“跨设备”和“跨竖井”。考虑到这些变化，我们建议对联邦学习进行更广泛的定义:

联邦学习是一种机器学习设置，在中央服务器或服务提供商的协调下，多个实体(客户机)协作解决机器学习问题。每个客户的原始数据存储在本地，不进行交换或传输;相反，用于即时聚合的重点更新用于实现学习目标。

有重点的更新是限制性的更新，以包含当前特定学习任务所需的最小信息; 在数据最小化服务中，尽可能早地执行聚合。我们注意到这个定义将联邦学习与完全分散(点对点)学习技术区分开来，如2.1节所述。

尽管保护隐私的数据分析已经被研究了50多年，但直到最近十年，解决方案才大规模被广泛采用(如[156,135])。跨设备联邦学习和联邦数据分析现在正应用于消费电子产品。谷歌在Gboard移动键盘[323,196,420,98,329]，以及Pixel手机的[18]功能和Android消息中广泛使用了联邦学习[375]。虽然谷歌是跨设备语音识别的先驱，但现在人们对这种设置的兴趣更加广泛，例如:苹果在ios13[27]中使用了跨设备语音识别，比如QuickType键盘和“嘿Siri”[28]语音分类器;医生。ai正在为医学研究开发跨设备FL解决方案[130]，Snips已经探索了跨设备FL用于热词检测[259]。

交叉竖井的应用也被提出或描述在许多领域，包括再保险的财务风险预测[407]、药物发现[158]、电子健康记录挖掘[162]、医疗数据分割[19,121]和智能制造[305]。

对联邦学习技术的日益增长的需求导致了许多工具和框架的出现 。其中包括TensorFlow联邦[38]、联邦AI技术支持[34]、PySyft[342]、Leaf[35]、PaddleFL[36]和Clara训练框架[33];合并了联邦学习的商业数据平台正在从成熟的技术公司和小型初创企业那里开发。

表1对比了跨设备和跨竖井联邦学习与传统单数据中心跨轴范围的分布式学习。这些特性建立了许多实际的联邦学习系统通常必须满足的约束，因此既可以激发联邦学习中的开放挑战，又可以为其提供信息。这些问题将在下面的章节中详细讨论。

这两个FL变体被称为代表性和重要的例子，但不同的FL设置可能有这些特征的不同组合。在本文的其余部分，我们考虑跨设备FL设置，除非另有说明，尽管许多问题也适用于其他FL设置。第2节专门讨论许多其他变体和应用程序中的一些。

接下来，我们将更详细地考虑跨设备联邦学习，重点关注典型的大规模技术部署所共有的实践方面;Bonawitz等人[74]为特定的生产系统提供了更多的细节，包括对特定体系结构选择和注意事项的讨论。

1.1 跨设备联邦学习设置

本节采用应用的观点，与前一节不同，不尝试定义。相反，我们的目标是描述跨设备FL中的一些实际问题，以及它们如何适应更广泛的机器学习开发和部署生态系统。他们希望为接下来的开放问题提供有用的上下文和动机，并帮助研究人员估计在真实系统中部署特定新方法的简单程度。 在考虑FL训练过程之前，我们先画一个模型的生命周期草图。

表1. 数据中心中联邦学习设置与分布式学习的典型特征(如[131])。跨设备和跨竖井联邦学习是FL领域的两个例子，但并不是详尽无遗的。FL的主要定义特性用粗体高亮显示，但是其他特性在决定哪些技术适用时也很关键。

图1: 联邦学习系统中fl训练的模型和各种参与者的生命周期。在第4节中，从威胁模型的角度重新讨论了这个图。

1.1.1 联邦学习中模型的生命周期

在联邦学习过程中，模型的生命周期通常由为特定应用程序开发模型的模型工程师驱动。例如，自然语言处理领域的专家可以开发用于虚拟键盘的下一个单词预测模型。图1显示了主要组件和参与者。在高层，一个典型的工作流程是:

1. 问题识别: 模型工程师识别出一个需要用FL解决的问题。

2. 客户端插装: 如果需要，客户端(例如在移动电话上运行的应用程序)被插装到本地存储(有时间和数量限制)必要的培训数据。在许多情况下，应用程序已经存储了这些数据(例如，一个文本消息应用程序必须存储文本消息，一个照片管理应用程序已经存储了照片)。然而，在某些情况下，可能需要维护额外的数据或元数据，例如用户交互数据来为监督学习任务提供标签。

3. 仿真原型(可选): 模型工程师可以在一个使用代理数据集的FL仿真中原型模型架构和测试学习超参数。

4. 联邦模型训练: 启动多个联邦训练任务来训练模型的不同变体，或使用不同的优化超参数。

5. (联邦)模型评估:在任务得到充分训练(通常是几天，见下文)之后，分析模型并选择合适的候选者。分析可能包括在数据中心的标准数据集上计算的度量，或者联合评估，在联合评估中，模型被推送到指定的客户端，以对本地客户端数据进行评估。

6. 部署: 最后,一旦选择了一个好的模型,它通过一个标准模型发射过程,包括手工质量保证,在线A/ B测试(通常通过使用新模型在一些设备和其他设备来比较他们的上一代模型体内性能),并分阶段推出(这样表现差行为可以被发现和回滚之前影响太多的用户)。模型的特定启动过程由应用程序的所有者设置，通常与模型的训练方式无关。

FL系统面临的一个主要的实际挑战是使上面的工作流程尽可能的简单明了，最理想的是接近ML系统在集中培训中所实现的易用性。虽然本文主要关注联邦训练，但是还有许多其他组件包括联邦分析任务，比如模型评估和调试。改进这些是第3.4节的重点。现在，我们更详细地考虑单个FL模型的训练(上面的步骤4)。

1.1.2 典型的联邦训练过程

我们现在考虑一个FL训练模板，它包含McMahan等人[289]和许多其他人的联邦平均算法;同样，可能会有变化，但这提供了一个共同的起点。

服务器(服务提供商)通过重复以下步骤来编排培训过程，直到培训停止(由监控培训过程的模型工程师决定):

1. 客户端选择: 服务器从一组满足资格要求的客户端取样。例如，为了避免影响设备的用户，移动电话可能只有在接入无线网络并处于空闲状态时才会登录到服务器。

2. 广播:选定的客户端从服务器下载当前模型的权值和一个训练程序(例如一个TensorFlow图表[6])。

3.客户端计算: 每个选择的设备通过执行训练程序在本地计算对模型的更新，例如可以在本地数据上运行SGD(如联合平均)。

4. 聚合: 服务器收集设备更新的聚合。为了提高效率，一旦有足够数量的设备报告了结果，掉队者可能会被丢弃。此阶段也是许多其他技术的集成点，稍后将讨论这些技术，可能包括:用于增加隐私的安全聚合、用于提高通信效率的聚合的有损压缩，以及用于差异隐私的噪声添加和更新裁剪。

5. 模型更新: 服务器根据从参与当前轮的客户机计算的聚合更新，在本地更新共享模型。

表2给出了移动设备上典型的联邦学习应用程序所涉及的数量的典型数量级大小。

客户机计算、聚合和模型更新阶段的分离并不是联邦学习的严格要求，它确实排除了某些类型的算法，例如异步SGD，其中每个客户机的更新立即应用于模型，然后聚合来自其他客户机的更新。这种异步方法可以简化系统设计的某些方面，并且从优化的角度来看也是有益的(尽管这一点值得商榷)。然而,上面介绍的方法有一个巨大的优势,提供不同的研究之间的分离关注点:压缩的进步,微分隐私和安全多方计算等标准原语可以开发计算金额或意味着在分散的更新,然后由任意的优化和分析算法,只要表达这些算法的聚合基元。

还值得强调的是，在两个方面，FL训练过程不应影响用户体验。首先，如上所述，尽管模型参数通常在每一轮联合训练的广播阶段发送到某些设备，但这些模型只是训练过程中短暂的一部分，并不用于向用户进行“实时”预测。这是至关重要的，因为训练ML模型是具有挑战性的，超参数的错误配置可能会产生做出错误预测的模型。相反，模型的用户可见的使用被推迟到一个rollout过程，如上面在模型生命周期的第6步中详细描述的那样。其次，培训本身对用户来说是不可见的——正如在客户端选择中所描述的，培训不会减慢设备的速度或耗尽电池，因为它只在设备空闲并连接到电源时执行。然而，这些约束带来的有限可用性直接导致了开放式研究的挑战，这些挑战将在后面讨论，如半循环数据可用性和客户选择中的潜在偏差。

1.2 联邦学习研究

本文的其余部分调查了许多由真实世界的联邦学习设置的约束和挑战所激发的开放问题，从基于医院系统的医疗数据的培训模型到使用数亿移动设备的训练。不用说，大多数研究联邦学习问题的研究人员可能不会部署生产FL系统，也无法获得成批的真实世界设备。这就导致了激励工作的实际环境和模拟实验之间的关键区别，模拟实验为给定的激励问题方法的适用性提供了证据。

从实验的角度来看，这使得FL的研究与其他ML领域有所不同，在进行FL的研究时需要考虑更多的因素。特别是，在强调开放问题时，我们已经尝试在可能的情况下，也指出相关的性能指标，这些指标可以在模拟中测量，数据集的特征将使它们更能代表真实世界的性能，等等。对模拟的需要也对FL研究的呈现产生了影响。虽然我们无意成为权威或绝对的，我们提出以下谦虚的建议，以介绍FL的研究，解决我们所描述的开放问题:

如表1所示，FL设置可以包含很多问题。与已经确定了设置和目标的领域相比，精确地描述特定FL设置的细节是很重要的，特别是当提议的方法做出的假设可能不适用于所有设置时(例如，所有回合中都有状态的客户端)。
当然，任何模拟的细节都应该提供，以使研究重现。但是，为了有效地证明在模拟问题上的成功意味着在真实世界的目标上取得了有益的进展，解释模拟的目的是为了捕获(而不是捕获)真实世界设置的哪些方面也很重要。我们希望本文的指导将有助于这一点。
在FL，隐私和通信效率总是优先考虑的问题，即使实验是在使用公共数据的单机上运行的模拟。与其他类型的ML相比，更重要的是，对于任何建议的方法，都必须清楚地说明计算发生在何处以及通信内容。

用于联邦学习模拟的软件库以及标准数据集可以帮助缓解进行有效的FL研究的挑战;附录A总结了一些当前可用的选项。为不同的联邦学习设置(跨设备和跨竖井)开发标准评估指标和建立标准基准数据集仍然是当前工作的重要方向。

1.3 组织

第二部分以表1中的思想为基础，探讨了跨设备设置之外的其他FL设置和问题。第三部分接着讨论关于提高联邦学习的效率和有效性的核心问题。第4节对威胁模型进行了仔细的考虑，并考虑了一系列实现严格隐私保护目标的技术。与所有的机器学习系统一样，在联邦学习应用程序中，可能存在操纵正在训练的模型的动机，各种各样的失败是不可避免的;这些挑战将在第5节中讨论。最后，我们将在第6节中讨论提供公平和无偏见模型的重要挑战。

2. 放宽核心FL假设: 应用到新兴的设置和场景

在本节中，我们将讨论与前一节中讨论的主题相关的研究领域。尽管这不是本文其余部分的主要重点，但是这些领域的进展可以激发下一代生产系统的设计。

3. 提高效率和效果

在本节中，我们将探讨各种技术和开放问题，以解决提高联邦学习效率和效果的挑战。这包含了无数可能的方法，包括:开发更好的优化算法;为不同的客户提供不同的模型;使ML任务，如超参数搜索、架构搜索和调试在FL上下文中更容易;提高沟通效率;和更多。

解决这些目标的基本挑战之一是非iid数据的存在，因此我们首先调查这个问题并强调可能的缓解措施。

4 .保护用户隐私

数据机器学习的工作流程涉及许多角色以及不同的能力。例如,用户可以通过交互生成训练数据和他们的设备,机器学习训练过程从这些数据中提取cross-population模式(如训练模型参数的形式),机器学习工程师或分析师可能会评估这个训练模型的质量,并最终模型可能会部署到终端用户，为了支持特定的用户体验(参见下面的图1)。

在理想的世界中，系统中的每个参与者只会学到扮演角色所需的信息。例如，如果一个分析人员仅仅需要确定一个特定的质量度量是否超过了一个期望的阈值，以便授权将模型部署到最终用户，那么在一个理想化的世界中，这是分析人员可以获得的唯一信息;例如，这样的分析师既不需要访问培训数据，也不需要访问模型参数。类似地，最终用户享受由经过训练的模型提供的用户体验可能只需要从模型中进行预测，而不需要其他任何东西。

联邦学习提供了一种有吸引力的结构，可以将整个机器学习工作流分解为我们希望的可访问的模块单元。联邦学习模型的主要优点之一是，它可以通过最小化数据为参与的用户提供一定程度的隐私保护: 原始用户数据从不离开设备，只有对模型的更新(例如，梯度更新)被发送到中央服务器。与原始数据相比，这些模型更新更关注于手头的学习任务(即，与原始数据相比，它们严格不包含关于用户的额外信息，而且通常显著更少)，单个更新只需由服务器临时保存。

虽然这些特性可以在集中所有训练数据方面提供重要的实际隐私改进，但是在这个基线联邦学习模型中仍然没有对隐私的正式保证。例如,可以构造场景的原始数据信息泄露从客户机到服务器,如一个场景,知道前面的模型和梯度更新从用户将允许用户持有的推断出一个培训的一个例子。因此，本节将调查现有的结果，并概述在设计能够提供严格隐私保证的联邦学习系统方面面临的挑战。我们将重点放在联邦学习和分析设置的特定问题上，而不考虑在更一般的机器学习设置中也会出现的问题。

5. 对攻击和失败的健壮性

现代机器学习系统很容易出现各种各样的故障。这些失败包括非恶意的失败，如预处理管道中的错误、嘈杂的培训标签、不可靠的客户端，以及针对培训和部署管道的显式攻击。在本节中，我们将反复看到联邦学习的分布式特性、体系结构设计和数据约束打开了新的失败模式和攻击面。此外，在联邦学习中保护隐私的安全机制可以使检测和纠正这些失败和攻击成为一个特别具有挑战性的任务。虽然这些挑战可能会使健壮性难以实现，但是我们将讨论许多有前途的研究方向，以及如何适应或改进联邦设置。我们还将讨论关于不同类型的攻击和失败之间关系的广泛问题，以及这些关系在联邦学习中的重要性。本节首先讨论了5.1小节中的对抗性攻击，然后讨论了5.2小节中的非恶意失效模式，最后探讨了5.3小节中隐私与健壮性之间的张力。

6. 确保公平，消除偏见

机器学习模型经常会表现出令人惊讶和意外的行为。当这些行为导致对用户的不良影响模式时，我们可能会根据一些标准将模型归类为“不公平”。例如，如果具有相似特征的人得到了完全不同的结果，那么这就违反了个体公平的标准[149]。如果某些敏感群体(种族、性别等)收到不同的结果模式——例如不同的假阴性率——这可能违反人口统计学公平的各种标准，例如[48,300]的调查。反事实公平的标准要求，在考虑了所有因果相关的途径之后，用户获得的待遇与他们原本属于不同群体(种族、性别等)的待遇相同[250]。联邦学习为公平性研究提供了几个机会，其中一些扩展了非联邦环境中先前的研究方向，另一些则是联邦学习独有的。本节在这两个类别中都提出了一些有待解决的问题。

7. 结论

联邦学习使分布式客户端设备能够协作学习共享预测模型 ，同时将所有训练数据保存在设备上，从而将机器学习的能力与将数据存储在云中的需求分离开来。这超出了使用本地模型对移动设备进行预测的范围，同时也为设备提供了模型培训。

近年来，这个话题在工业界和学术界都经历了爆炸性的增长 。主要的技术公司已经在生产中部署了联邦学习，并且创建了一些初创公司，目的是使用联邦学习来解决各个行业的隐私和数据收集方面的挑战。此外，这项工作中调查的论文的广度表明，联邦学习正在广泛的跨学科领域获得吸引力: 从机器学习到优化、信息论和统计到密码学、公平性和隐私。

在联邦学习研究的兴趣日益增长的推动下，本文讨论了最近的进展，并提出了大量的开放问题和挑战。系统约束对算法提出了效率要求，以使其具有实用性，其中许多在其他环境中并不特别具有挑战性。我们认为，数据隐私不是二元的，并提出了一系列在各种假设下相关的威胁模型，每一个模型都有其独特的挑战。

本书所讨论的开放性问题当然是不全面的，它们反映了作者的兴趣和背景。特别地，我们不讨论任何在实际的机器学习项目中需要解决的非学习问题，这些问题可能需要基于分散的数据来解决。这可能包括简单的问题，如计算基本的描述性统计，或者更复杂的目标，如计算开放集上的直方图头部[437]。现有的解决这类问题的算法通常没有一个明显的“联邦版本”，在激励这类工作的系统假设下，这个“联邦版本”将是有效的，或者不承认有用的数据保护概念。此外，研讨会具有更多的算法风格，因此与系统相关的研究主题在某种程度上没有得到很好的表达，尽管构建用于联邦学习的系统是一个非常重要和具有挑战性的基本问题。另一组未讨论的重要主题是可能激发或限制使用联邦学习的法律和业务问题。

我们希望这项工作将有助于在联邦学习和相关领域的进一步研究。