专为决策树打造，NUS&清华大学联合提出快速安全的联邦学习新系统

会员服务 ·

专为决策树打造，NUS&清华大学联合提出快速安全的联邦学习新系统

2022 年 7 月 7 日 PaperWeekly

©作者 | 新加坡国立大学、清华大学

来源 | 机器之心

来自新加坡国立大学和清华大学的研究者提出了一种专注于训练树模型的联邦学习新系统 FedTree。

联邦学习是机器学习中一个非常火热的领域，指多方在不传递数据的情况下共同训练模型。随着联邦学习的发展，联邦学习系统也层出不穷，例如 FATE, FedML, PaddleFL, TensorFlow-Federated 等等。

然而，大部分联邦学习系统不支持树模型的联邦学习训练。相比于神经网络，树模型具有训练快，可解释性强，适合表格型数据的特点。树模型在金融，医疗，互联网等领域有广泛的应用场景，比如用来做广告推荐、股票预测等等。

决策树的代表性模型为 Gradient Boosting Decision Tree (GBDT)。由于一棵树的预测能力有限，GBDT 通过 boosting 的方法串行训练多棵树，通过每棵树用来拟合当前预测值和标签值的残差的方式，最终达到一个好的预测效果。代表性的 GBDT 系统有 XGBoost, LightGBM, CatBoost, ThunderGBM，其中 XGBoost 多次被 KDD cup 的冠军队伍所使用。然而，这些系统都不支持联邦学习场景下的 GBDT 训练。

近日，来自新加坡国立大学和清华大学的研究者提出了一种专注于训练树模型的联邦学习新系统 FedTree。

论文标题：

FedTree: A Fast, Effective, and Secure Tree-based Federated Learning System

论文链接：

https://github.com/Xtra-Computing/FedTree/blob/main/FedTree_draft_paper.pdf

项目主页：

https://github.com/Xtra-Computing/FedTree

FedTree系统介绍

FedTree 架构图如图 1 所示，共有 5 个模块: 接口，环境，框架，隐私保护以及模型。

▲图1. FedTree系统架构图

接口： FedTree 支持两种接口：命令行接口和 Python 接口。用户只需给定参数（参与方数量，联邦场景等），就可以用一行命令来运行 FedTree 进行训练。FedTree 的 Python 接口和 scikit-learn 兼容，可以调用 fit() 和 predict() 来进行训练和预测。

环境： FedTree 支持在单机上模拟部署联邦学习，和在多机上部署分布式联邦学习。在单机环境上，FedTree 支持将数据进行划分成多个子数据集，每个子数据集作为一个参与方进行训练。在多机环境上，FedTree 支持将每个机器作为一个参与方，机器之间通过 gRPC 进行通信。同时，除了 CPU 以外，FedTree 支持使用 GPU 来加速训练。

框架： FedTree 支持横向和纵向联邦学习场景下 GBDT 的训练。横向场景下，不同参与方有着不同的训练样本和相同的特征空间。纵向场景下，不同参与方有着不同的特征空间和相同的训练样本。为了保证性能，在这两种情境下，多有参与方都共同参与每个节点的训练。除此之外，FedTree 还支持集成学习，参与方并行地训练树之后再进行聚合，以此减少参与方之间的通信开销。

隐私： 由于训练过程中传递的梯度可能会泄露训练数据的信息，FedTree 提供不同的隐私保护方法来进一步保护梯度信息，包括同态加密 (HE) 和安全聚合 (SA)。同时，FedTree 提供了差分隐私来保护最终训练得到的模型。

模型： 以训练一棵树为基础，FedTree 通过 boosting/bagging 的方法支持训练 GBDT/random forest。通过设置不同的损失函数，FedTree 训练得到的模型支持多种任务，包括分类和回归。

实验

表 1 总结了不同系统在 a9a, breast 和 credit 上的 AUC 和 abalone 上的 RMSE，FedTree 的模型效果和用所有数据训练 GBDT（XGBoost, ThunderGBM）以及 FATE 中的 SecureBoost (SBT) 几乎一致。而且，隐私保护策略 SA 和 HE 并不会影响模型性能。

▲ 表 1. 不同系统的模型效果比较

表 2 总结了不同系统每棵树的训练时间（单位：秒），可以看到 FedTree 相比于 FATE 快了很多，在横向联邦学习场景下能达到 100 倍以上的加速比。

▲表2. 不同系统每棵树的训练时间比较

更多研究细节请参考 FedTree 论文原文。

更多阅读

#投稿通道#

让你的文字被更多人看到

如何才能让更多的优质内容以更短路径到达读者群体，缩短读者寻找优质内容的成本呢？答案就是：你不认识的人。

总有一些你不认识的人，知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁，促使不同背景、不同方向的学者和学术灵感相互碰撞，迸发出更多的可能性。

PaperWeekly 鼓励高校实验室或个人，在我们的平台上分享各类优质内容，可以是最新论文解读，也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个，让知识真正流动起来。

📝 稿件基本要求：

• 文章确系个人原创作品，未曾在公开渠道发表，如为其他平台已发表或待发表的文章，请明确标注

• 稿件建议以 markdown 格式撰写，文中配图以附件形式发送，要求图片清晰，无版权问题

• PaperWeekly 尊重原作者署名权，并将为每篇被采纳的原创首发稿件，提供业内具有竞争力稿酬，具体依据文章阅读量和文章质量阶梯制结算

📬 投稿通道：

• 投稿邮箱：hr@paperweekly.site

• 来稿请备注即时联系方式（微信），以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信（pwbot02）快速投稿，备注：姓名-投稿

△长按添加PaperWeekly小编

🔍

现在，在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

登录查看更多

相关内容

联邦学习

关注 199

联邦学习（Federated Learning）是一种新兴的人工智能基础技术，在 2016 年由谷歌最先提出，原本用于解决安卓手机终端用户在本地更新模型的问题，其设计目标是在保障大数据交换时的信息安全、保护终端数据和个人数据隐私、保证合法合规的前提下，在多参与方或多计算结点之间开展高效率的机器学习。其中，联邦学习可使用的机器学习算法不局限于神经网络，还包括随机森林等重要算法。联邦学习有望成为下一代人工智能协同算法和协作网络的基础。

联邦学习攻防研究综述

专知会员服务

58+阅读 · 2022年7月15日

「基于联邦学习的推荐系统」最新2022研究综述

专知会员服务

75+阅读 · 2022年5月21日

网络丢包对联邦学习影响很大？中科大数据研究中心团队成果《面向穿戴设备的公平高效联邦学习算法及应用》发表于UbiComp

专知会员服务

16+阅读 · 2022年5月8日

「联邦学习隐私保护」最新2022研究综述

专知会员服务

117+阅读 · 2022年4月1日