【WWW2020-UIUC】TaxoExpan: 图神经网络自监督学习的分类法Taxonomy扩展

作者：Jiaming Shen, Zhihong Shen, Chenyan Xiong, Chi Wang, Kuansan Wang, Jiawei Han

摘要：本体结构（Taxonomies）由机器可解释的语义组成，并为许多Web应用程序提供有价值的知识。例如，在线零售商(亚马逊和eBay)使用本体结构进行产品推荐，而网络搜索引擎(Google和Bing)利用本体结构来增强查询理解。当前我们在人工或半自动地构建本体结构方面已经做出了巨大的努力。然而，随着网络内容数量的快速增长，现有的本体结构无法捕捉到新兴的知识。因此，在许多应用程序中，十分需要对现有本体结构进行动态扩展。在本文中，我们研究了如何通过添加一组新的概念来扩展现有的本体结构。我们提出了一种新的自监督框架TaxoExpanTM，该框架从已有的本体结构中自动生成一组 ⟨query concept, anchor concept ⟩ 对作为训练数据。使用这样的自监督数据，TaxoExpanTM学习一个模型来预测query concept是否是 anchor concept的直接下义词。我们在TaxoExspan中提出了两种创新技术：(1)位置增强型图形神经网络，它编码现有本体结构中anchor concept的局部结构；2）噪声鲁棒性训练目标，使学习的模型能够对自监控数据中的标签噪声不敏感。在来自不同领域的三个大规模数据集上的广泛实验证明了TaxoExspan在分类系统扩展方面的有效性和高效性。