摘要:
图机器学习在学术界和工业界都得到了广泛的研究。然而,随着图学习文献的大量涌现,涌现出大量的方法和技术,对于不同的图相关任务,人工设计最优的机器学习算法变得越来越困难。为了解决这一关键挑战,图上的自动机器学习(AutoML)结合了图机器学习和自动学习的优点,正受到学术界的关注。因此,本文对图自动学习方法进行了全面的综述,重点研究了用于图机器学习的超参数优化(HPO)和神经结构搜索(NAS)。我们进一步概述了与自动图机器学习相关的库,并深入讨论了AutoGL,这是第一个用于AutoML on graphs的专用开源库。最后,我们分享了对自动图机学习未来研究方向的看法。据我们所知,这篇论文是第一个关于图上的自动机器学习的系统和全面的综述。
https://arxiv.org/abs/2103.00742
引言
图形数据在我们的日常生活中无处不在。我们可以使用图表来模拟实体之间的复杂关系和依赖关系,从蛋白质中的小分子和物理模拟中的粒子到大型全国范围的电网和全球航空公司。因此,关于图的机器学习一直是学术界和业界的一个重要研究方向[Newman, 2018]。特别是网络嵌入[Cui et al., 2018; Hamilton et al., 2017; Goyal and Ferrara, 2018b; Cai et al., 2018b]和图神经网络(GNNs) [Zhang et al., 2020b; Wu et al., 2020; Zhou et al., 2018]在过去十年中越来越受到关注。已成功应用于推荐系统[Ying et al., 2018a; Ma et al., 2019],欺诈检测[Akoglu等人,2015],生物信息学[Su等人,2020;Zitnik and Leskovec, 2017],物理模拟[Kipf et ., 2018],交通预测[Li et ., 2018b;Yu et al., 2018],知识表示[Wang et al., 2017],药物再利用[Ioannidis et al., 2020; Gysi et al., 2020]和Covid-19大流行预测[Kapoor et al., 2020]。
尽管图机器学习算法很受欢迎,但现有的文献严重依赖人工超参数或架构设计来实现最佳性能,导致大量模型出现在各种图任务时耗费大量人力。以GNNs为例,仅在2020年,就有至少一百种新的通用架构在顶级机器学习和数据挖掘会议上发表,更不用说针对特定任务设计的跨学科研究了。在为目标任务设计最优算法时,如果我们坚持人工的试错范式,将不可避免地需要越来越多的人力努力。
另一方面,自动化机器学习(AutoML)已被广泛研究,以减少人类在开发和部署机器学习模型方面的努力[He et al., 2020; Yao et al., 2018]. 完整的AutoML 具有使机器学习的每一个步骤自动化的潜力,包括自动数据收集和清洗、自动特征工程、自动模型选择和优化等。由于深度学习模型的普及,超参数优化(HPO) [Bergstra and Bengio, 2012; Bergstra et al., 2011; Snoek et al., 2012]和神经结构搜索(NAS) [Elsken et al., 2019]得到了最广泛的研究。AutoML已经达到或超过了人类水平的性能[Zoph and Le, 2017; Liu et al., 2018; Pham et al., 2018]在诸如计算机视觉等领域几乎没有人类指导[Zoph et al., 2018; Real et al., 2019]。
图自动机器学习,结合了AutoML和图机器学习的优点,自然是一个很有前途的研究方向,进一步提升模型的性能,越来越受到社会各界的关注。在这篇文章中,我们提供了一个全面和系统的回顾自动机器学习图,据我们所知,这是第一次。具体来说,我们关注两个主要的主题: 图机器学习的HPO和NAS。对于HPO,我们专注于如何开发可扩展的方法。对于NAS,我们遵循文献,从搜索空间、搜索策略和性能评估策略比较不同的方法。在此过程中,我们讨论了不同的方法如何应对图自动机器学习的挑战。然后,我们回顾了与自动图机器学习相关的库,并讨论了第一个用于图自动机器学习的专用框架和开源库AutoGL。本文重点介绍了AutoGL的设计原理,并简要介绍了它的应用,这些都是专门为图自动机器学习而设计的。我们相信,本文的综述将极大地促进和进一步推动自动机器学习在图上的研究和应用。