【AAAI2020-清华大学】张量图卷积网络(TensorGCN)文本分类

2020 年 1 月 20 日 专知

【导读】 图神经网络(GNN,Graph Neural Networks)用于图结构数据的深度学习架构,具有强大的表征建模能力,将端到端学习与归纳推理相结合,业界普遍认为其有望解决深度学习无法处理的因果推理、可解释性等一系列瓶颈问题。图神经网络在文本分类也有深入的应用,AAAI2019有图卷积神经网络(GCN)文本分类详述,更进一步,在AAAI2020上,清华大学科大讯飞的学者提出张量卷积神经网络在文本分类的应用Tensor Graph Convolutional Networks for Text Classification,进一步提高文本分类的性能。



https://www.zhuanzhi.ai/paper/badfe7cd3047d331b091fb9d4894773b
https://arxiv.org/pdf/2001.05313.pdf
https://github.com/xienliu/tensor-gcn-text-classification-tensorflow


摘要

本文研究了基于图神经网络在文本分类问题中的应用,并提出了一种新的框架TensorGCN(张量图卷积网络) 首先构造一个文本图张量来描述语义、句法和序列上下文信息。 然后,对文本图张量进行两种传播学习。 第一种是图内传播,用于在单个图中聚合来自邻域节点的信息。 第二种是图间传播,用于协调图之间的异构信息。 在基准数据集上进行的大量的实验表明了该框架的有效性。 我们提出的TensorGCN为协调和集成来自不同类型图的异构信息提供了一种有效的方法。

介绍

01


文本分类是自然语言处理领域最基本的任务之一 。它可以简单地表示为X→y,其中X是一段文本(例如句子/文档),y∈[0,1]是对应的标签向量。文本表示学习是文本分类问题的第一步,也是必不可少的一步。与之前基于手工特征(词袋特征、稀疏词汇特征)等方法不同,现有的文本分类方法主要分为基于序列的学习模型与基于图的学习模型。基于序列的学习模型利用CNN或RNN从本地连续单词序列中捕获文本特征;基于图的学习模型根据单词之间的顺序上下文关系构建文本图,然后采用图卷积网络(GCN)对文本图进行学习。

但是在文本分类任务中应该考虑更多的语境信息,比如语义和句法语境信息。因此,我们提出了一个新的基于图的文本分类框架TensorGCN(见图1)。


首先构造基于语义,基于句法和基于顺序的文本图,以形成文本图张量。 图张量分别用于获取语义上下文、句法上下文和序列上下文的文本信息。 为了编码来自多个图的异构信息TensorGCN同时执行两种传播学习。 对于每一层,首先执行图内传播以聚集来自每个节点的邻居的信息。 然后使用图间传播来协调图之间的异构信息。 本文的贡献如下:

1)构造了一个文本图张量来分别描述具有语义、句法和顺序约束的上下文信息
2)提出了一种学习方法TensorGCN,用于协调和集成多个图中的异构信息。
3)在几个基准数据集上进行了大量的实验,说明了TensorGCN在文本分类中的有效性。

方法

02


图张量定义

为了研究方便,本文给出了图张量(由多个共享相同结点的图组成的)的定义:
其中:
  • G_i是图张量G中的第i个图
  • V_i(丨V_i丨=n)是第i个图中的节点的集合
  • E_i是第i个图中的边的集合
  • A_i是第i个图的邻接矩阵

为方便起见,我们还将邻接矩阵打包成张量(A∈R^{r×n×n}):

A = (A_1,A_2,...,A_r)
其中:
  • A_i是图向量G中第i个图的邻接矩阵

图特征张量

我们还将图特征打包成张量(H^{l}∈R^{r×n×d_l}):

H^{l} = (H^{l}_1,H^{l}_2,...,H^{l}_r)

其中:
  • l表示GCN的层数
  • H^{l}_i图向量G中第i个图的特征矩阵
  • 图特征张量H(0)表示初始化的输入特征

文本图张量构造

我们利用图张量来描述具有不同知识/语言属性的文本文档。在本文中,我们基于语义信息,句法依赖关系和局部序列上下文这三种不同的语言属性构建了词与词之间的边。并基于这些不同类型的单词-单词边,我们构造了一系列文本图来描述文本文档。

基于语义的图

我们提出了一种基于LSTM的方法来从文本文档构建基于语义的图,主要分为如下三步:

Step 1: 根据给定任务的训练数据对LSTM进行训练(例如,此处为文本分类)

Step 2: 使用LSTM为语料库的每个文档/句子中的所有单词获取语义特征/嵌入

Step 3:基于语料库上的单词语义嵌入计算单词-单词边权重

对于每个句子/文档,我们从训练的LSTM的输出中获得单词的语义特征/嵌入,并计算单词之间的余弦相似度。 如果相似度值超过预定义阈值ρ_{sem},则意味着这两个词在当前句子/文档中具有语义关系。 我们统计在整个语料库中具有语义关系的每对单词的次数。 每对词(基于语义的图中的节点)的边权重可以通过以下方式获得:
其中:
  • d_semantic(w_i, w_j)表示词w_i与w_j之间的边权重
  • #N_semantic(w_i, w_j)表示两个词在语料库中的所有句子/文档中具有语义关系的次数
  • #N_total表示两个词在整个语料库中出现在同一句子/文档中的次数。

基于句法的图

对于语料库中的每个句子/文档,我们首先使用Stanford CoreNLP解析器来提取词之间的依赖关系。虽然提取的依赖是有方向的,但为简单起见,我们将其视为无方向关系。与上面语义图中使用的策略类似,我们统计每对词在整个语料库中具有句法依赖性的次数,并通过以下方式计算每对词(基于句法的图中的节点)的边权重:
其中:
  • d_semantic(w_i, w_j)表示词w_i与w_j之间的边权重
  • #N_semantic(w_i, w_j)是两个词在语料库中的所有句子/文档中具有句法依赖关系的次数
  • #N_total表示两个词在整个语料库中出现在同一句子/文档中的次数。

基于序列的图

序列上下文刻画了词与词之间的语言属性,在本文中,我们PMI来使用滑动窗口策略来描述这种序列上下文信息。 每对词的边权重通过以下方式计算:
其中:
  • p(w_i,w_j)是单词对(w_i,w_j)在同一滑动窗口中出现的概率,可以通过下式计算:
  • #N_windows是整个文本语料库的滑动窗口总数
  • #N_co-ocurence(w_i,w_j)是单词对(w_i,w_j)在整个文本语料库的相同滑动窗口中出现的次数。
  • p(w_i)是单词w_i出现在文本语料库上固定窗口中的概率:


图张量学习

初始模型:合并边+GCN

在本文中主要关注图张量,所有图共享相同的节点集,边是唯一的不同之处。因此,我们只需要通过汇集邻接张量将边合并到一个图中:
由于张量中的图是异构的,并且来自不同图的边权重不匹配,因此直接使用平均池化与最大池化是不可行的,因此,我们使用一种简单的边注意策略(edgewise attention strategy )来协调来自不同图的边权重。 合并图的邻接矩阵可以表示为:

张量GCN

上面的初始模型采取了一种“粗鲁”的方式,将所有的图都放在同一个表示空间中,并将它们放到一个图中,在某种程度上破坏了张量的结构。我们利用图神经网络学习方式在不同的图之间传播信息,从而将单个图上的神经网络学习公式推广到图张量上的TensorGCN,可以直接在张量图上进行卷积学习。对于TensorGCN的每一层,文中执行两种传播学习:首先是图内传播,然后是图间传播。

我们以TensorGCN的第l层为例,节点特征的传播通过下式实现:
其中:
  • H^{l}∈R^{r×n×d_l}
  • f_intra和f_inter分别表示图内传播和图间传播

1)图内传播

图内传播学习是从图中每个节点的邻居那里聚集信息(参见图3-(A))。 因此,学习模式几乎与标准的GCN相同,唯一的区别是所有图都必须执行GCN学习,从而产生张量版的GCN。 给定图邻接张量:
通过图内传播最终更新第l层中的第i个图的特征如下:
其中:
  • ^A是由一系列归一化对称邻接矩阵组成的归一化对称图邻接张量
  • W^(l,i)_intra是第i个图在第l层的权重矩阵

2)图间传播

图间传播学习是在张量中的不同图之间传播/交换信息(参见图3-(B)),使得来自不同图的异构信息可以逐渐融合成一致的信息。 为了实现这一目的,我们通过连接张量中的图上的节点来构造一系列特殊的图,称为虚拟图(virtual graphs)。 在我们定义的张量图中所有图实际上共享同一组节点:
我们使来自不同图的“copy nodes”V_i(1)、V_i(2)、···、V_i(R)(实际上它们是同一节点)相互连接。 最终,我们总共得到n个虚拟图,通过收集n个虚拟图的边权重(都为1),得到一个新的图邻接张量。 虚拟图上的图间信息传播学习域通过以下方式实现:
其中:
  • H^{l+1}∈R^{r×n×d_l+1}是图间传播的输出,也是TensorGCN中l+1层的输入特征张量
  • W^(l,j)_inter是图间传播的可训练权重
  • A^+(:,:,j)既不用于对称归一化也不添加自连接
  • 虚拟图中的所有节点彼此连接,并且边权重被设置为1

实验

03


数据集

我们使用如下5个文本分类数据集验证我们模型的有效性:

实验结果

我们在基准数据集上进行了全面的实验,表3中给出的结果表明,我们提出的TensorGCN明显优于所有基线(包括一些最先进的嵌入学习和基于图的模型)。
我们还检验并分析了我们构造的文本图张量的有效性。 表4给出了单个文本图、两个图对以及所有三个图(图张量)的结果。
从表中可以看到,图张量具有最好的性能,并且每对图总是比任何单个图表现出更好的性能。

我们检验了TensorGCN学习的有效性,从表中可以看到TensorGCN在多图联合学习方面具有最好的性能结果,如下表所示:

结论

04


在本文中,我们提出了一种文本图张量来捕捉语义、句法和序列上下文信息中的特征。实验结果表明,这些不同的上下文约束是相辅相成的,对文本表示学习非常重要。此外,我们将图卷积网络推广为张量型TensorGCN,通过图内和图间传播同时学习的策略,有效地协调和集成了多个图中的异构信息。

参考文献
1.Xien Liu, Xinxin You, Xiao Zhang, Ji Wu, Ping Lv : Tensor Graph Convolutional Networks for Text Classification. AAAI (2020)
2. Liang Yao, Chengsheng Mao, Yuan Luo: Graph Convolutional Networks for Text Classification. AAAI 2019: 7370-7377

便捷查看下载,请关注专知公众号(点击上方蓝色专知关注)

  • 后台回复“TGCN” 就可以获取张量图卷积网络(TensorGCN)文本分类专知资源链接索引

专知,专业可信的人工智能知识分发,让认知协作更快更好!欢迎注册登录专知www.zhuanzhi.ai,获取5000+AI主题干货知识资料!
欢迎微信扫一扫加入专知人工智能知识星球群,获取最新AI专业干货知识教程资料和与专家交流咨询
点击“ 阅读原文 ”,了解使用 专知 ,查看获取5000+AI主题知识资料
登录查看更多
63

相关内容

文本分类(Text Classification)任务是根据给定文档的内容或主题,自动分配预先定义的类别标签。
【SIGIR2020】LightGCN: 简化和增强图卷积网络推荐
专知会员服务
72+阅读 · 2020年6月1日
【清华大学】图随机神经网络,Graph Random Neural Networks
专知会员服务
152+阅读 · 2020年5月26日
基于多头注意力胶囊网络的文本分类模型
专知会员服务
76+阅读 · 2020年5月24日
图卷积神经网络蒸馏知识,Distillating Knowledge from GCN
专知会员服务
94+阅读 · 2020年3月25日
六篇 EMNLP 2019【图神经网络(GNN)+NLP】相关论文
专知会员服务
71+阅读 · 2019年11月3日
【论文笔记】Graph U-Nets
专知
76+阅读 · 2019年11月25日
GraphSAGE:我寻思GCN也没我牛逼
极市平台
11+阅读 · 2019年8月12日
基于图卷积文本模型的跨模态信息检索
专知
9+阅读 · 2019年8月3日
一文读懂深度学习文本分类方法
AINLP
15+阅读 · 2019年6月6日
图卷积神经网络(GCN)文本分类详述
专知
278+阅读 · 2019年4月5日
基于注意力机制的图卷积网络
科技创新与创业
73+阅读 · 2017年11月8日
Self-Attention Graph Pooling
Arxiv
13+阅读 · 2019年6月13日
Arxiv
11+阅读 · 2018年10月17日
Arxiv
9+阅读 · 2018年2月4日
Arxiv
7+阅读 · 2018年1月10日
VIP会员
相关资讯
【论文笔记】Graph U-Nets
专知
76+阅读 · 2019年11月25日
GraphSAGE:我寻思GCN也没我牛逼
极市平台
11+阅读 · 2019年8月12日
基于图卷积文本模型的跨模态信息检索
专知
9+阅读 · 2019年8月3日
一文读懂深度学习文本分类方法
AINLP
15+阅读 · 2019年6月6日
图卷积神经网络(GCN)文本分类详述
专知
278+阅读 · 2019年4月5日
基于注意力机制的图卷积网络
科技创新与创业
73+阅读 · 2017年11月8日
Top
微信扫码咨询专知VIP会员