京东薄列峰：安全的纵向联邦学习框架

会员服务 ·

京东薄列峰：安全的纵向联邦学习框架 | CCF-GAIR 2020

2020 年 8 月 11 日 AI科技评论

作者 | 蒋宝尚

编辑 | 陈彩娴

8 月9日下午，在「联邦学习与大数据隐私」专场上，京东数字科技集团AI实验室首席科学家薄列峰进行了题为「快速安全的纵向联邦学习框架」的演讲。

薄列峰的演讲主题是在联邦学习框架的探索，整体框架分为四个部分：首先介绍“联邦学习的背景”；然后介绍“纵向联邦学习”；之后会重点介绍“快速安全的纵向联邦学习框架”以及它的核心的思想；最后会讨论“区块链联邦学习”。

其中，快速的联邦学习的框架。它有三个特点：

1、数据和模型隐私。不同参与方之间没有直接交换本地数据和模型参数，而是交换更新参数所需的中间数值。

2、树状通讯结构。使用基于树结构的通讯框架，使得信息传输更加高效；

3、异步计算框架。模型构的特点，以及隐私保护方式的特点使得我们的结构可以异步计算，极大地提高了模型的效率。

以下是文字整理：

1

联邦学习的背景

现在用户越来越关注数据的隐私，有两个趋势非常明显：一个是数据管理的严格化，表现在：数据管理责任明确，刑罚“直达”自然人。二是数据监督更加全面化，表现在：覆盖的领域越来越多。

欧美的数据管控更加严格，特别是对个人数据的保护，数据管理的激励。其中直接的表现是，企业对个人的数据保护越严格，越能赢得信任。毕竟，在数据保护的过程中除了有利于企业占据市场，同时也是宣传的手段。

在这样的背景下，急需一些创新的工具，既能满足数据监管的需求，也能让我们使用大数据。

传统机器学习的特点是中心化，具体方法是：聚集数据，然后建立机器学习的模型。这种把数据汇集到一个中心的方法，并不能保证数据的隐私。

分布式机器学习虽然在一定程度能够解决把数据放到一起的问题，但是因为在训练过程中，需要传递“梯度”这种包含数据信息非常强的参数，对数据本身的安全性也有一定的挑战。

因此，这上述背景下，充分解决数据隐私问题的联邦学习作为一个工具便应运而生。

2

纵向联邦学习

图注：纵向联邦学习

联邦学习指的是：在满足数据隐私、安全和监管要求的前提下，让人工智能系统更加高效、准确的共同使用各自的数据的机器学习框架。针对不同数据集，联邦学习可以分为横向联邦学习、纵向联邦学习与联邦迁移学习。

其中，横向联邦学习在两个数据集的用户特征重叠较多，而用户重叠较少的情况下，我们把数据集按照横向（即用户维度）切分，并取出双方用户特征相同而用户不完全相同的那部分数据进行训练。

纵向联邦学习在两个数据集的用户重叠较多而用户特征重叠较少的情况下，我们把数据集按照纵向（即特征维度）切分，并取出双方用户相同而用户特征不完全相同的那部分数据进行训练。

经典的纵向联邦学习的核心理念是对梯度关键的信息进行加密，加密的工具并不对加密算法做限制，通常用的算法是同态加密。

本质上，同态加密是指这样一种加密函数，对明文进行环上的加法和乘法运算再加密，与加密后对密文进行相应的运算，结果是等价的。由于这个良好的性质，人们可以委托第三方对数据进行处理而不泄露信息。

与一般加密算法相比，同态加密除了能实现基本的加密操作之外，还能实现密文间的多种计算功能，即先计算后解密可等价于先解密后计算。

所以，有了同态加密等算法，一些中间的结果，包括加密后的梯度，也可以在一些加密域中进行运算。

常见的一些算法包括线性回归、随机森林等。其中，线性回归是一个典型的算法。在很多模型的应用中，当样本量较大，线性回归的性能或许不会很好。

联邦随机森林的大致思路是：存在主动方、被动方各一，主动方有标记，并加密标记和标记的平方，然后发送给被动方。

加密后，被动方根据自己每一维的特征，当它的这维特征被整个机制选中的时候，它会针对这个特征做直方图，然后用直方图在同态加密域进行聚合。每一个直方图会把它划分成很多区间，在每个区间做平均，然后得到结果。

此处主动方有公钥和密钥，被动方只有公钥无密钥，所以被动方无法解密，它只能把矩阵传给主动方，后者会依所得进行解密，再计算每个特征和每个阈值的得分，择其得分高者，如此即可完成随机森林中一棵树的某节点构建。重复该过程可构建不同的树和整个随机森林。

可以看到，主动方得到被动方的数据，实际只是得到聚合后自己的发送的，所以不知道被动方的特征，也很难推导出；被动方只知道主动方同态加密运送来的信息，并不知道更多的信息。所以，整个过程可以保证安全。

3

快速学习的联邦学习框架

在介绍快速安全的联邦学习框架之前，先来看看传统纵向联邦学习的缺点：

1、传统的纵向联邦学习由于需要传递梯度信息，容易导致基于梯度信息的构造攻击，如 Deep Leakage from Gradients。

2、传统的纵向联邦学习需要对数据或者梯度加密，虽然增加了安全性，但是也极大损失了算法的效率，如 Secureboost。

3、传统的纵向联邦学习基于同步更新，虽然保证算法收敛，但是浪费了大量的计算资源。

针对上述缺点，我们设计了一个快速的联邦学习的框架。它有三个特点：

1、数据和模型隐私。

不同 worker.之间没有直接交换本地数据和模型参数，而是交换更新参数所需的中间数值，同时，为了避免从这些中间数值中恢复数据信息，我们也采用增加时扰动对这些数值进行保护，确保了数据和模型的隐私保护性。

2、树状通讯结构。

使用基于树结构的通讯框架，使得worker（参与方）和coordinator（合作方）.之间的信息传输更加高效；同时，利用具有不同树状结构的聚合方式能提高模型的隐私保护能力。

3、异步计算框架。

模型构的特点，以及隐私保护方式的特点使得我们的结构可以异步计算，极大地提高了模型的效率。

主要算法步骤可以分为七步：

第一，在第t个参与方上计算样本数据与模型参数的中间结果的内积，并产生随机数。

第二，通过两个显著不同的树结构进行聚合内积和随机数以及噪音。

第三，返回到coordinator计算所有参数和所有内积再减去聚合的噪声，得到决策值，不过此处并不得到模型参数，这也正是模型信息能被保护的原因。

第四，计算“有用”的参数（例如权重等），并发送给passive workers（积极的参与方）

第五，对于active worker，根据决策值计算梯度。

第六，对于passive workers，接受从activeworker（活跃的参与方）传来的权重，然后根据权重计算梯度。

第七，利用梯度下降法更新梯度。

值得一提的是，快速安全的联邦学习框架实现的过程中，需要两个条件：第一是确保通信的安全，即此框架在通信过程中不会被其它的系统所攻击，如果整个通信过程被其它系统所攻击，这可能也是现在很多联邦学习所要面临的挑战。第二是需要一个可信赖的第三方来进行调度（也即coordinator的角色）。

然后看一下我们的安全性分析，在安全性分析之前，我们给出几个常用定义和假设，分别是：

1、semi-honest：

所有的workers 都遵循算法步骤，执行正确操作。然而，他们可能保留中间计算结果的记录并用来推断其他worker的数据和模型。

2、精确推理攻击：

在不直接获得其它 workers数据的情况下，能够精确推理出其它 workers的样本或者参数数据。

3、∈-近似推理攻击：

在不直接获得其它 workers数据的情况下，能够以非常高的准确度推理出其它 workers的样本（模型参数）数据。

有了这几个假设，我们就可以得出结论：算法不仅有效地抵御准确推理攻击；也能够有效地抵御近似推理攻击。

上述的整个框架是在线性模型下的思路。但是，如果只进行线性研究，可能会面临精度不够的问题，所以，就需要一个方式把整个框架推广到非线性。这里方法的核心思想是用随机逼近：先产生随机特征，生成随机数，然后做cos生成随机特征；在随机特征域上，再做刚才提到的这种联盟学习框架，来完成随机特征的参数学习。

随机特征这一步引入了非线性函数，它能很好逼近原始核函数。此处，各参与方会有一部分随机特征，特征上的模型参数也保留在各方，不为他人所知。全程将通过噪声、聚合等方式提升安全性。

而随机梯度下降法，是首次实现了快速安全的异步并行纵向联邦随机梯度算法，并理论上分析了其收敛率核问题的双随机梯度算法，则是首次实现了大规模、高速、安全的基于核方法的纵向联邦学习。

最后，我们对结果做了一些对比，包括跟原始的LIBSVM进行对比，结果是我们的方法收敛速度非常快。

4

区块链联邦学习

另外，我简单介绍一下区块链和联邦学习之间的关系。首先，联邦学习能够在保护数据隐私的情况下进行联合建模。

而区块链技术做为一种不依赖第三方、通过自身分布式节点进行网络数据的存储、验证、传递和交流的技术方案，受到很大关注。其数据上链有透明化、分布式、不能篡改等优势。

所以，区块链的分布式、去中心化特点，和联邦也有一些关系。实际上，联邦学习在大型的多方参与项目中都有类似机制，也可以考虑采用去中心化。

最简单的应用是，把联邦学习和区块链结合，建立在区块链上的联邦学习算法。我们也完成了二者更深层次的融合，包括共识机制等。

我们认为二者的结合在未来会有越来越多的应用。区块链可以解决数的存储，具有不可篡改性，联邦学习能对数据隐私做表保护，其中有不少地方互补。

阅读原文，直达“IJCAI”小组，了解更多会议信息！

登录查看更多

相关内容

联邦学习

关注 200

联邦学习（Federated Learning）是一种新兴的人工智能基础技术，在 2016 年由谷歌最先提出，原本用于解决安卓手机终端用户在本地更新模型的问题，其设计目标是在保障大数据交换时的信息安全、保护终端数据和个人数据隐私、保证合法合规的前提下，在多参与方或多计算结点之间开展高效率的机器学习。其中，联邦学习可使用的机器学习算法不局限于神经网络，还包括随机森林等重要算法。联邦学习有望成为下一代人工智能协同算法和协作网络的基础。

联邦学习安全与隐私保护研究综述

专知会员服务

127+阅读 · 2020年8月7日

【微众银行】联邦学习白皮书_v2.0，48页pdf，

专知会员服务

170+阅读 · 2020年4月26日

【中国人民大学】机器学习的隐私保护研究综述

专知会员服务

133+阅读 · 2020年3月25日

【重磅】联邦学习进展与开放问题万字综述论文，58位学者25家机构联合出品，105页pdf438篇文献

专知会员服务

154+阅读 · 2019年12月15日