教程题目: Scheduling For Efficient Large-Scale Machine Learning Training
教程简介:
近年来,机器学习技术在许多实际应用中取得了成功。当研究人员和实践者继续将机器学习扩展到新的应用领域并推动现有应用程序的边界时,由于数据集的增长、模型的复杂性和容量的增加,他们面临着关键的计算挑战。这些挑战需要新的软件系统来有效地训练大型模型,并使机器学习研究人员能够轻松地试验新思想。通过利用机器学习计算的结构特性来设计高效的训练系统,我们有很多机会来提高训练时间和支持更大的训练模型。在本教程中,将介绍两个分布式培训系统Bosen和Orion,它们可以在不需要大量人力工作的前提下,通过调度网络内部通信及并行计算来改善训练时间。此外,通过在TensorFlow中调度内存占用,我们减少了87%的GPU内存消耗,并且能够在相同的硬件上完成10倍参数的模型训练工作。
嘉宾简介:
韦金良本科毕业于普渡大学,博士期间师从Garth A.Gibson 及 Eric P.Xing,主要研究方向是分布式系统、数据库系统及机器学习应用。