106页ppt附视频！面向大规模模型的分布式ML系统:动态分布式训练和可扩展的联邦学习 - 专知

会员服务 ·

0

106页ppt附视频！面向大规模模型的分布式ML系统:动态分布式训练和可扩展的联邦学习

2022 年 8 月 9 日 专知

在现代AI中，大规模的深度学习模型已经成为许多重要互联网业务背后的核心技术，如搜索/ADs/推荐系统/CV/NLP。BERT、Vision Transformer、GPT-3和Switch Transformer模型将模型规模扩大到10亿甚至万亿个参数，表明几乎所有学习任务的精度都有了显著提高。使用云集群进行分布式训练是及时成功训练此类大规模模型的关键。开发更先进的分布式训练系统和算法既可以降低能量成本，也可以使我们训练更大的模型。此外，开发联邦学习这样的颠覆式学习范式也至关重要，它不仅可以保护用户的隐私，还可以分担处理前所未有的大数据和模型的负担。本次演讲将主要讨论用于大规模模型的分布式ML系统:用于云集群的动态分布式训练(https://DistML.ai)和用于边缘设备的规模联合学习(https://FedML.ai)。

在第一部分中，我将介绍PipeTransformer，这是一种用于Transformer模型分布式训练(BERT和ViT)的自动化弹性pipeline 。在PipeTransformer中，我们设计了一种自适应的飞冻结算法，可以在训练过程中逐步识别并冻结某些层，以及一种弹性流水线系统，可以动态减少GPU资源来训练剩余的活动层，并在已释放的GPU资源上分叉更多的流水线，以扩大数据并行度的宽度。在第二部分中，我将讨论可扩展的联邦学习，用于在资源受限的边缘设备和FedML生态系统上训练大规模模型，旨在为各种AI应用(如CV NLP、GraphNN和IoT)在边缘进行无处不在的分布式训练。

Chaoyang He 是 FedML 联合创始人兼 CTO，博士毕业于南加州大学，他曾在华为、百度、腾讯任职，拥有丰富的互联网产品和业务研发经验。

专知便捷查看

便捷下载，请关注专知公众号（点击上方蓝色专知关注）

后台回复“DSLM” 就可以获取《面向大规模模型的分布式ML系统:动态分布式训练和可扩展的联邦学习》专知下载链接

专知，专业可信的人工智能知识分发 ，让认知协作更快更好！欢迎注册登录专知www.zhuanzhi.ai，获取100000+AI(AI与军事、医药、公安等)主题干货知识资料！

欢迎微信扫一扫加入专知人工智能知识星球群，获取最新AI专业干货知识教程资料和与专家交流咨询！

点击“ 阅读原文 ”，查看本文下载资料

登录查看更多

2

相关内容

分布式训练

分布式训练

GNN如何分布式？中科院计算所最新《图神经网络分布式训练》综述，阐述分布式GNN训练技术

GNN如何分布式？中科院计算所最新《图神经网络分布式训练》综述，阐述分布式GNN训练技术

专知会员服务

40+阅读 · 2022年11月14日

面向大规模模型的分布式ML系统:动态分布式训练和可扩展的联邦学习

面向大规模模型的分布式ML系统:动态分布式训练和可扩展的联邦学习

专知会员服务

61+阅读 · 2022年8月9日

ICML2022开会了！如炼何大模型？伯克利最新《大模型训练和服务的技术和系统》教程，176页ppt阐述大模型关键技术，附视频

ICML2022开会了！如炼何大模型？伯克利最新《大模型训练和服务的技术和系统》教程，176页ppt阐述大模型关键技术，附视频

专知会员服务

84+阅读 · 2022年7月18日

深度学习如何规模化？GMU微软等最新《大规模深度学习服务系统优化研究》综述论文，阐述大规模深度学习推理系统优化挑战与机遇

深度学习如何规模化？GMU微软等最新《大规模深度学习服务系统优化研究》综述论文，阐述大规模深度学习推理系统优化挑战与机遇

专知会员服务

33+阅读 · 2021年12月5日

【ICML2021】面向个性化学习的模型融合

专知会员服务

23+阅读 · 2021年9月27日

【斯坦福MLSys报告】分布式机器学习系统与联邦学习，附ppt与视频

专知会员服务

59+阅读 · 2021年8月28日

Mila唐建博士最新《图神经网络:算法与应用》研究进展，附44页ppt

Mila唐建博士最新《图神经网络:算法与应用》研究进展，附44页ppt

专知会员服务

76+阅读 · 2021年8月11日

【WWW2021】大规模智能手机数据的异质联邦学习

【WWW2021】大规模智能手机数据的异质联邦学习

专知会员服务

43+阅读 · 2021年3月8日

机器学习如何分布式？看CMU这份「分布式机器学习原理与策略」AAAI2021教程，附221页ppt

机器学习如何分布式？看CMU这份「分布式机器学习原理与策略」AAAI2021教程，附221页ppt

专知会员服务

48+阅读 · 2021年2月12日

【ICASSP2020】分布式与高效深度学习，140页ppt详述深度学习压缩与联邦学习训练进展

【ICASSP2020】分布式与高效深度学习，140页ppt详述深度学习压缩与联邦学习训练进展

专知会员服务

126+阅读 · 2020年5月6日

如何构建安全深度模型？《数据高效、接地、安全的深度模型》Jay Thiagarajan，50页ppt

如何构建安全深度模型？《数据高效、接地、安全的深度模型》Jay Thiagarajan，50页ppt

专知

0+阅读 · 2022年10月4日

【MIT博士论文】联邦学习实用方法，143页pdf

【MIT博士论文】联邦学习实用方法，143页pdf

专知

6+阅读 · 2022年9月24日

《PyTorch几何图神经网络》最新教程，附Slides与视频，69页ppt

《PyTorch几何图神经网络》最新教程，附Slides与视频，69页ppt

专知

4+阅读 · 2022年9月21日

【ICML2022】气候变化与机器学习:机遇、挑战与考虑，121页ppt

【ICML2022】气候变化与机器学习:机遇、挑战与考虑，121页ppt

专知

0+阅读 · 2022年7月23日

ICML2022开会了！如炼何大模型？伯克利最新《大模型训练和服务的技术和系统》教程，176页ppt阐述大模型关键技术，附视频

ICML2022开会了！如炼何大模型？伯克利最新《大模型训练和服务的技术和系统》教程，176页ppt阐述大模型关键技术，附视频

专知

0+阅读 · 2022年7月18日

69页Slides与视频！《网络联邦学习》教程，阿尔托大学Alexander Jung博士讲述大数据网络中如何用联邦学习

69页Slides与视频！《网络联邦学习》教程，阿尔托大学Alexander Jung博士讲述大数据网络中如何用联邦学习

专知

2+阅读 · 2022年6月5日

亚马逊最新《联邦学习》简明综述

亚马逊最新《联邦学习》简明综述

专知

3+阅读 · 2022年2月6日

AACL2020最新《可解释人工智能与自然语言处理可解释性》教程，附159页ppt与视频

AACL2020最新《可解释人工智能与自然语言处理可解释性》教程，附159页ppt与视频

专知

25+阅读 · 2020年12月6日

最新《联邦学习Federated Learning》报告，47页ppt

最新《联邦学习Federated Learning》报告，47页ppt

专知

47+阅读 · 2020年12月2日

【AAAI2019教程】面向隐私安全保密的联邦学习与迁移学习，101页pdf

【AAAI2019教程】面向隐私安全保密的联邦学习与迁移学习，101页pdf

专知

47+阅读 · 2019年1月29日

面向人脸检测的大规模异构并行Adaboost机器学习算法研究

国家自然科学基金

3+阅读 · 2013年12月31日

图嵌入方法在大规模数据密集型系统中的应用研究

国家自然科学基金

2+阅读 · 2013年12月31日

海量数据处理中面向任务加速的数据调度策略研究

国家自然科学基金

2+阅读 · 2013年12月31日

支持多种计算与数据共享的编程框架研究

国家自然科学基金

0+阅读 · 2013年12月31日

大规模复杂动态图可视化关键技术研究

国家自然科学基金

1+阅读 · 2012年12月31日

面向"知识"与"数据"共同驱动的机器学习模型参数可辨识性研究

国家自然科学基金

3+阅读 · 2012年12月31日

面向Deep Web的大规模知识库自动构建方法研究

国家自然科学基金

4+阅读 · 2011年12月31日

机群文件系统小文件I/O访问性能优化方法研究

国家自然科学基金

0+阅读 · 2009年12月31日

分布式计算环境下的并行数据挖掘算法与理论研究

国家自然科学基金

0+阅读 · 2009年12月31日

面向物流配送的动态车辆调度模型与混合量子进化算法

国家自然科学基金

0+阅读 · 2009年12月31日

TLP: A Deep Learning-based Cost Model for Tensor Program Tuning

Arxiv

0+阅读 · 2022年11月22日

Unsupervised Learning of Temporal Abstractions with Slot-based Transformers

Arxiv

0+阅读 · 2022年11月22日

Unsupervised Echocardiography Registration through Patch-based MLPs and Transformers

Arxiv

0+阅读 · 2022年11月21日

FedMT: Federated Learning with Mixed-type Labels

Arxiv

0+阅读 · 2022年11月18日

Understanding Boolean Function Learnability on Deep Neural Networks: PAC Learning Meets Neurosymbolic Models

Arxiv

0+阅读 · 2022年11月18日

Multimodal Learning with Transformers: A Survey

Arxiv

69+阅读 · 2022年6月13日

Few-shot Learning with Noisy Labels

Arxiv

13+阅读 · 2022年4月12日

Survey: Transformer based Video-Language Pre-training

Arxiv

20+阅读 · 2021年9月21日

Unsupervised Domain Clusters in Pretrained Language Models

Arxiv

11+阅读 · 2020年4月5日

Graph Convolutional Label Noise Cleaner: Train a Plug-and-play Action Classifier for Anomaly Detection

Graph Convolutional Label Noise Cleaner: Train a Plug-and-play Action Classifier for Anomaly Detection

Arxiv

15+阅读 · 2019年3月18日

VIP会员

相关主题

分布式训练

Transformer模型

相关VIP内容

GNN如何分布式？中科院计算所最新《图神经网络分布式训练》综述，阐述分布式GNN训练技术

GNN如何分布式？中科院计算所最新《图神经网络分布式训练》综述，阐述分布式GNN训练技术

专知会员服务

40+阅读 · 2022年11月14日

面向大规模模型的分布式ML系统:动态分布式训练和可扩展的联邦学习

面向大规模模型的分布式ML系统:动态分布式训练和可扩展的联邦学习

专知会员服务

61+阅读 · 2022年8月9日

ICML2022开会了！如炼何大模型？伯克利最新《大模型训练和服务的技术和系统》教程，176页ppt阐述大模型关键技术，附视频

ICML2022开会了！如炼何大模型？伯克利最新《大模型训练和服务的技术和系统》教程，176页ppt阐述大模型关键技术，附视频

专知会员服务

84+阅读 · 2022年7月18日

深度学习如何规模化？GMU微软等最新《大规模深度学习服务系统优化研究》综述论文，阐述大规模深度学习推理系统优化挑战与机遇

深度学习如何规模化？GMU微软等最新《大规模深度学习服务系统优化研究》综述论文，阐述大规模深度学习推理系统优化挑战与机遇

专知会员服务

33+阅读 · 2021年12月5日

【ICML2021】面向个性化学习的模型融合

专知会员服务

23+阅读 · 2021年9月27日

【斯坦福MLSys报告】分布式机器学习系统与联邦学习，附ppt与视频

专知会员服务

59+阅读 · 2021年8月28日

Mila唐建博士最新《图神经网络:算法与应用》研究进展，附44页ppt

Mila唐建博士最新《图神经网络:算法与应用》研究进展，附44页ppt

专知会员服务

76+阅读 · 2021年8月11日

【WWW2021】大规模智能手机数据的异质联邦学习

【WWW2021】大规模智能手机数据的异质联邦学习

专知会员服务

43+阅读 · 2021年3月8日

机器学习如何分布式？看CMU这份「分布式机器学习原理与策略」AAAI2021教程，附221页ppt

机器学习如何分布式？看CMU这份「分布式机器学习原理与策略」AAAI2021教程，附221页ppt

专知会员服务

48+阅读 · 2021年2月12日

【ICASSP2020】分布式与高效深度学习，140页ppt详述深度学习压缩与联邦学习训练进展

【ICASSP2020】分布式与高效深度学习，140页ppt详述深度学习压缩与联邦学习训练进展

专知会员服务

126+阅读 · 2020年5月6日

热门VIP内容

开通专知VIP会员享更多权益服务

新型数字杀伤链：理解综合战术网络对野战炮兵体系的能力与效益

《对抗环境中运用数字孪生技术优化预测性维护与后勤保障》2025最新93页

《任务式指挥十六个案例研究》232页

《幻觉还是事实：国防大型语言模型的可信度评估研究》2025最新109页

相关资讯

如何构建安全深度模型？《数据高效、接地、安全的深度模型》Jay Thiagarajan，50页ppt

如何构建安全深度模型？《数据高效、接地、安全的深度模型》Jay Thiagarajan，50页ppt

专知

0+阅读 · 2022年10月4日

【MIT博士论文】联邦学习实用方法，143页pdf

【MIT博士论文】联邦学习实用方法，143页pdf

专知

6+阅读 · 2022年9月24日

《PyTorch几何图神经网络》最新教程，附Slides与视频，69页ppt

《PyTorch几何图神经网络》最新教程，附Slides与视频，69页ppt

专知

4+阅读 · 2022年9月21日

【ICML2022】气候变化与机器学习:机遇、挑战与考虑，121页ppt

【ICML2022】气候变化与机器学习:机遇、挑战与考虑，121页ppt

专知

0+阅读 · 2022年7月23日

ICML2022开会了！如炼何大模型？伯克利最新《大模型训练和服务的技术和系统》教程，176页ppt阐述大模型关键技术，附视频

ICML2022开会了！如炼何大模型？伯克利最新《大模型训练和服务的技术和系统》教程，176页ppt阐述大模型关键技术，附视频

专知

0+阅读 · 2022年7月18日

69页Slides与视频！《网络联邦学习》教程，阿尔托大学Alexander Jung博士讲述大数据网络中如何用联邦学习

69页Slides与视频！《网络联邦学习》教程，阿尔托大学Alexander Jung博士讲述大数据网络中如何用联邦学习

专知

2+阅读 · 2022年6月5日

亚马逊最新《联邦学习》简明综述

亚马逊最新《联邦学习》简明综述

专知

3+阅读 · 2022年2月6日

AACL2020最新《可解释人工智能与自然语言处理可解释性》教程，附159页ppt与视频

AACL2020最新《可解释人工智能与自然语言处理可解释性》教程，附159页ppt与视频

专知

25+阅读 · 2020年12月6日

最新《联邦学习Federated Learning》报告，47页ppt

最新《联邦学习Federated Learning》报告，47页ppt

专知

47+阅读 · 2020年12月2日

【AAAI2019教程】面向隐私安全保密的联邦学习与迁移学习，101页pdf

【AAAI2019教程】面向隐私安全保密的联邦学习与迁移学习，101页pdf

专知

47+阅读 · 2019年1月29日

相关基金

面向人脸检测的大规模异构并行Adaboost机器学习算法研究

国家自然科学基金

3+阅读 · 2013年12月31日

图嵌入方法在大规模数据密集型系统中的应用研究

国家自然科学基金

2+阅读 · 2013年12月31日

海量数据处理中面向任务加速的数据调度策略研究

国家自然科学基金

2+阅读 · 2013年12月31日

支持多种计算与数据共享的编程框架研究

国家自然科学基金

0+阅读 · 2013年12月31日

大规模复杂动态图可视化关键技术研究

国家自然科学基金

1+阅读 · 2012年12月31日

面向"知识"与"数据"共同驱动的机器学习模型参数可辨识性研究

国家自然科学基金

3+阅读 · 2012年12月31日

面向Deep Web的大规模知识库自动构建方法研究

国家自然科学基金

4+阅读 · 2011年12月31日

机群文件系统小文件I/O访问性能优化方法研究

国家自然科学基金

0+阅读 · 2009年12月31日

分布式计算环境下的并行数据挖掘算法与理论研究

国家自然科学基金

0+阅读 · 2009年12月31日

面向物流配送的动态车辆调度模型与混合量子进化算法

国家自然科学基金

0+阅读 · 2009年12月31日

相关论文

TLP: A Deep Learning-based Cost Model for Tensor Program Tuning

Arxiv

0+阅读 · 2022年11月22日

Unsupervised Learning of Temporal Abstractions with Slot-based Transformers

Arxiv

0+阅读 · 2022年11月22日

Unsupervised Echocardiography Registration through Patch-based MLPs and Transformers

Arxiv

0+阅读 · 2022年11月21日

FedMT: Federated Learning with Mixed-type Labels

Arxiv

0+阅读 · 2022年11月18日

Understanding Boolean Function Learnability on Deep Neural Networks: PAC Learning Meets Neurosymbolic Models

Arxiv

0+阅读 · 2022年11月18日

Multimodal Learning with Transformers: A Survey

Arxiv

69+阅读 · 2022年6月13日

Few-shot Learning with Noisy Labels

Arxiv

13+阅读 · 2022年4月12日

Survey: Transformer based Video-Language Pre-training

Arxiv

20+阅读 · 2021年9月21日

Unsupervised Domain Clusters in Pretrained Language Models

Arxiv

11+阅读 · 2020年4月5日

Graph Convolutional Label Noise Cleaner: Train a Plug-and-play Action Classifier for Anomaly Detection

Graph Convolutional Label Noise Cleaner: Train a Plug-and-play Action Classifier for Anomaly Detection

Arxiv

15+阅读 · 2019年3月18日

大家都在搜

大型语言模型

IJCAI2025教程

朱克爱德华兹家族

久别重逢话双塔

论文浅尝 - ICLR2020 | 通过神经逻辑归纳学习有效地解释

微信扫码咨询专知VIP会员