清华大学发布首篇《图自动机器学习》综述论文

摘要：

图机器学习在学术界和工业界都得到了广泛的研究。然而，随着图学习文献的大量涌现，涌现出大量的方法和技术，对于不同的图相关任务，人工设计最优的机器学习算法变得越来越困难。为了解决这一关键挑战，图上的自动机器学习(AutoML)结合了图机器学习和自动学习的优点，正受到学术界的关注。因此，本文对图自动学习方法进行了全面的综述，重点研究了用于图机器学习的超参数优化(HPO)和神经结构搜索(NAS)。我们进一步概述了与自动图机器学习相关的库，并深入讨论了AutoGL，这是第一个用于AutoML on graphs的专用开源库。最后，我们分享了对自动图机学习未来研究方向的看法。据我们所知，这篇论文是第一个关于图上的自动机器学习的系统和全面的综述。

https://arxiv.org/abs/2103.00742

引言

图形数据在我们的日常生活中无处不在。我们可以使用图表来模拟实体之间的复杂关系和依赖关系，从蛋白质中的小分子和物理模拟中的粒子到大型全国范围的电网和全球航空公司。因此，关于图的机器学习一直是学术界和业界的一个重要研究方向[Newman, 2018]。特别是网络嵌入[Cui et al., 2018; Hamilton et al., 2017; Goyal and Ferrara, 2018b; Cai et al., 2018b]和图神经网络(GNNs) [Zhang et al., 2020b; Wu et al., 2020; Zhou et al., 2018]在过去十年中越来越受到关注。已成功应用于推荐系统[Ying et al., 2018a; Ma et al., 2019]，欺诈检测[Akoglu等人，2015]，生物信息学[Su等人，2020;Zitnik and Leskovec, 2017]，物理模拟[Kipf et .， 2018]，交通预测[Li et .， 2018b;Yu et al.， 2018]，知识表示[Wang et al.， 2017]，药物再利用[Ioannidis et al., 2020; Gysi et al., 2020]和Covid-19大流行预测[Kapoor et al., 2020]。

尽管图机器学习算法很受欢迎，但现有的文献严重依赖人工超参数或架构设计来实现最佳性能，导致大量模型出现在各种图任务时耗费大量人力。以GNNs为例，仅在2020年，就有至少一百种新的通用架构在顶级机器学习和数据挖掘会议上发表，更不用说针对特定任务设计的跨学科研究了。在为目标任务设计最优算法时，如果我们坚持人工的试错范式，将不可避免地需要越来越多的人力努力。

另一方面，自动化机器学习(AutoML)已被广泛研究，以减少人类在开发和部署机器学习模型方面的努力[He et al., 2020; Yao et al., 2018]. 完整的AutoML 具有使机器学习的每一个步骤自动化的潜力，包括自动数据收集和清洗、自动特征工程、自动模型选择和优化等。由于深度学习模型的普及，超参数优化(HPO) [Bergstra and Bengio, 2012; Bergstra et al., 2011; Snoek et al., 2012]和神经结构搜索(NAS) [Elsken et al.， 2019]得到了最广泛的研究。AutoML已经达到或超过了人类水平的性能[Zoph and Le, 2017; Liu et al., 2018; Pham et al., 2018]在诸如计算机视觉等领域几乎没有人类指导[Zoph et al., 2018; Real et al., 2019]。

图自动机器学习，结合了AutoML和图机器学习的优点，自然是一个很有前途的研究方向，进一步提升模型的性能，越来越受到社会各界的关注。在这篇文章中，我们提供了一个全面和系统的回顾自动机器学习图，据我们所知，这是第一次。具体来说，我们关注两个主要的主题: 图机器学习的HPO和NAS。对于HPO，我们专注于如何开发可扩展的方法。对于NAS，我们遵循文献，从搜索空间、搜索策略和性能评估策略比较不同的方法。在此过程中，我们讨论了不同的方法如何应对图自动机器学习的挑战。然后，我们回顾了与自动图机器学习相关的库，并讨论了第一个用于图自动机器学习的专用框架和开源库AutoGL。本文重点介绍了AutoGL的设计原理，并简要介绍了它的应用，这些都是专门为图自动机器学习而设计的。我们相信，本文的综述将极大地促进和进一步推动自动机器学习在图上的研究和应用。

成为VIP会员查看完整内容

相关内容

自动机器学习

关注 122

自动机器学习（AutoML）是将机器学习应用于实际问题的过程的自动化过程。AutoML涵盖了从原始数据集到可部署的机器学习模型的完整管道。提出将AutoML作为基于人工智能的解决方案来应对不断增长的应用机器学习的挑战。 AutoML的高度自动化允许非专家使用机器学习模型和技术，而无需首先成为该领域的专家。从机器学习角度讲，AutoML 可以看作是一个在给定数据和任务上学习和泛化能力非常强大的系统。但是它强调必须非常容易使用；从自动化角度讲，AutoML 则可以看作是设计一系列高级的控制系统去操作机器学习模型，使得模型可以自动化地学习到合适的参数和配置而无需人工干预。

【清华大学】图神经网络交通流预测综述论文，19页pdf

专知会员服务

42+阅读 · 2021年1月29日

太原理工最新《图神经网络:分类,进展,趋势》综述论文，50页pdf400篇文献

专知会员服务

118+阅读 · 2020年12月19日

清华大学最新《机器学习的视觉分析技术》综述论文，34页pdf

专知会员服务

46+阅读 · 2020年12月2日

北大发布最新《图神经网络推荐系统》2020综述论文，27页pdf

专知会员服务

188+阅读 · 2020年11月7日