语言是一种固有的时间现象。当我们理解和产生口语时,我们处理不确定长度的连续输入流。即使在处理书面文本时,我们通常也按顺序处理。语言的时代性反映在我们使用的隐喻中;我们谈论的是对话流、新闻源和twitter流,所有这些都唤起了这样一种观念:语言是一个随时间展开的序列。这种时间性质反映在我们用来处理语言的算法中。例如,当应用于词性标注问题时,维特比算法每次递增地输入一个单词,并将沿途收集到的信息传递下去。另一方面,我们研究的用于情感分析和其他文本分类任务的机器学习方法没有这种时间性质——它们假设同时访问输入的所有方面。前馈神经网络尤其如此,包括它们在神经语言模型中的应用。这些完全连接的网络使用固定大小的输入,以及相关的权重,一次性捕获示例的所有相关方面。这使得处理不同长度的序列变得困难,并且无法捕捉语言的重要时间方面。

本章涵盖了两个密切相关的深度学习架构,旨在解决这些挑战:循环神经网络和transformer网络。这两种方法都具有直接处理语言的顺序性质的机制,允许它们处理可变长度的输入,而不使用任意固定大小的窗口,并捕获和利用语言的时间性质。

成为VIP会员查看完整内容
0
38

相关内容

机器学习的一个分支,它基于试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的一系列算法。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等

第一节课的重点是分析今天能够进行并行计算的典型个人计算机中的算法行为,第二节课的重点是今天能够进行分布式计算的典型公共云中的此类个人计算机集群中的算法行为。我们将从第1节中简要介绍的基本原理开始,并努力理解过去几十年来算法的重大突破。并行计算是指在一台机器上使用多个处理器和共享内存进行计算。并行计算和分布式计算虽然密切相关,但它们都提出了独特的挑战——主要是并行计算情况下的共享内存管理和分布式计算情况下的网络通信开销最小化。理解并行计算的模型和挑战是理解分布式计算的基础。课程内容反映了这一点,首先在并行环境中涵盖各种经典的、数值的和图形的算法,然后在分布式环境中涵盖相同的主题。目的是强调每个设置带来的独特挑战。

https://github.com/lamastex/scalable-data-science/blob/master/read/daosu.pdf

成为VIP会员查看完整内容
0
38

注意力模型已经成为神经网络中的一个重要概念,在不同的应用领域得到了广泛的研究。本综述提供了一个关于注意力建模的结构化的和全面的概述。特别地,我们提出了一种分类法,将现有的注意力技术分组到一致类别中。我们回顾了显著的注意力融入的神经结构,并讨论了建模注意力已显示出重大影响的应用。最后,我们还描述了如何使用注意力来提高神经网络的可解释性。我们希望这个调查能提供一个关于注意力模型的简明介绍,并在为其应用开发方法时指导从业者。

注意力模型(AM)首先被引入到机器翻译中[Bahdanau et al. 2015],现在已经成为神经网络文献中的一个主导概念。在人工智能(AI)领域,注意力作为神经架构的重要组成部分,在自然语言处理(Galassi et al. 2020)、语音(Cho et al. 2015)和计算机视觉(Wang and Tax 2016)等大量应用中非常受欢迎。

注意力背后的直觉可以用人类生物系统来最好地解释。例如,我们的视觉处理系统倾向于选择性地关注图像的某些部分,而忽略其他可以帮助感知的无关信息[Xu et al. 2015]。同样地,在涉及语言、言语或视觉的问题中,输入的某些部分比其他部分更重要。例如,在翻译和总结任务中,只有输入序列中的特定单词可能与预测下一个单词相关。同样,在图像字幕问题中,输入图像的某些区域可能与生成标题中的下一个单词更相关。AM通过允许模型动态地只关注帮助有效执行手头任务的输入的某些部分来合并相关性的概念。使用AM对Yelp评论进行情感分类的例子[Yang et al. 2016]如图1所示。在这个例子中,AM了解到在五个句子中,第一个和第三个句子更相关。此外,这些句子中的delicious和amazing这两个词更有意义,更能决定评论的情绪。

目录内容:

  • 注意力基础知识
  • 注意力模型
  • 注意力分类法
  • 注意力网络架构
  • 应用
  • 注意力可解释

成为VIP会员查看完整内容
0
75

作为传统DNNs对图的推广,GNN继承了传统DNNs的优点和缺点。与传统的DNNs一样,GNN在许多图形相关的任务中被证明是有效的,比如节点聚类和图聚焦任务。传统的DNNs已被证明易受专门设计的对抗性攻击(Goodfellow et al., 2014b;徐等,2019b)。在对抗性的攻击下,受害样本会受到干扰,不容易被发现,但会导致错误的结果。越来越明显的是,GNNs也继承了这个缺点。对手可以通过操纵图的结构或节点特征来欺骗GNN模型,从而产生图的对抗性扰动。GNN的这种局限性引起了人们对在诸如金融系统和风险管理等安全关键应用程序中采用它们的极大关注。例如,在一个信用评分系统中,欺诈者可以伪造与几个高信用客户的关系,以逃避欺诈者检测模型;垃圾邮件发送者可以很容易地创建虚假关注者,以增加虚假新闻被推荐和传播的机会。因此,图形对抗性攻击及其对策的研究越来越受到人们的关注。在这一章中,我们首先介绍了图对抗攻击的概念和定义,并详细介绍了一些具有代表性的图对抗攻击方法。然后,我们讨论了针对这些对抗性攻击的典型防御技术。

http://cse.msu.edu/~mayao4/dlg_book/

成为VIP会员查看完整内容
0
46

在本章中,我们将关注更复杂的编码器模型。我们将介绍图神经网络(GNN)的形式,它是定义图数据上的深度神经网络的一般框架。关键思想是,我们想要生成实际上依赖于图结构的节点的表示,以及我们可能拥有的任何特征信息。在开发复杂的图结构数据编码器的主要挑战是,我们通常的深度学习工具箱不适用。例如,卷积神经网络(CNNs)只在网格结构的输入(如图像)上定义良好,而递归神经网络(RNNs)只在序列(如文本)上定义良好。要在一般图上定义深度神经网络,我们需要定义一种新的深度学习架构。

成为VIP会员查看完整内容
0
69

近年来,人们对学习图结构数据表示的兴趣大增。基于标记数据的可用性,图表示学习方法一般分为三大类。第一种是网络嵌入(如浅层图嵌入或图自动编码器),它侧重于学习关系结构的无监督表示。第二种是图正则化神经网络,它利用图来增加半监督学习的正则化目标的神经网络损失。第三种是图神经网络,目的是学习具有任意结构的离散拓扑上的可微函数。然而,尽管这些领域很受欢迎,但在统一这三种范式方面的工作却少得惊人。在这里,我们的目标是弥合图神经网络、网络嵌入和图正则化模型之间的差距。我们提出了图结构数据表示学习方法的一个综合分类,旨在统一几个不同的工作主体。具体来说,我们提出了一个图编码解码器模型(GRAPHEDM),它将目前流行的图半监督学习算法(如GraphSage、Graph Convolutional Networks、Graph Attention Networks)和图表示的非监督学习(如DeepWalk、node2vec等)归纳为一个统一的方法。为了说明这种方法的一般性,我们将30多个现有方法放入这个框架中。我们相信,这种统一的观点既为理解这些方法背后的直觉提供了坚实的基础,也使该领域的未来研究成为可能。

概述

学习复杂结构化数据的表示是一项具有挑战性的任务。在过去的十年中,针对特定类型的结构化数据开发了许多成功的模型,包括定义在离散欧几里德域上的数据。例如,序列数据,如文本或视频,可以通过递归神经网络建模,它可以捕捉序列信息,产生高效的表示,如机器翻译和语音识别任务。还有卷积神经网络(convolutional neural networks, CNNs),它根据移位不变性等结构先验参数化神经网络,在图像分类或语音识别等模式识别任务中取得了前所未有的表现。这些主要的成功仅限于具有简单关系结构的特定类型的数据(例如,顺序数据或遵循规则模式的数据)。

在许多设置中,数据几乎不是规则的: 通常会出现复杂的关系结构,从该结构中提取信息是理解对象之间如何交互的关键。图是一种通用的数据结构,它可以表示复杂的关系数据(由节点和边组成),并出现在多个领域,如社交网络、计算化学[41]、生物学[105]、推荐系统[64]、半监督学习[39]等。对于图结构的数据来说,将CNNs泛化为图并非易事,定义具有强结构先验的网络是一项挑战,因为结构可以是任意的,并且可以在不同的图甚至同一图中的不同节点之间发生显著变化。特别是,像卷积这样的操作不能直接应用于不规则的图域。例如,在图像中,每个像素具有相同的邻域结构,允许在图像中的多个位置应用相同的过滤器权重。然而,在图中,我们不能定义节点的顺序,因为每个节点可能具有不同的邻域结构(图1)。此外,欧几里德卷积强烈依赖于几何先验(如移位不变性),这些先验不能推广到非欧几里德域(如平移可能甚至不能在非欧几里德域上定义)。

这些挑战导致了几何深度学习(GDL)研究的发展,旨在将深度学习技术应用于非欧几里德数据。特别是,考虑到图在现实世界应用中的广泛流行,人们对将机器学习方法应用于图结构数据的兴趣激增。其中,图表示学习(GRL)方法旨在学习图结构数据的低维连续向量表示,也称为嵌入。

广义上讲,GRL可以分为两类学习问题,非监督GRL和监督(或半监督)GRL。第一个系列的目标是学习保持输入图结构的低维欧几里德表示。第二系列也学习低维欧几里德表示,但为一个特定的下游预测任务,如节点或图分类。与非监督设置不同,在非监督设置中输入通常是图结构,监督设置中的输入通常由图上定义的不同信号组成,通常称为节点特征。此外,底层的离散图域可以是固定的,这是直推学习设置(例如,预测一个大型社交网络中的用户属性),但也可以在归纳性学习设置中发生变化(例如,预测分子属性,其中每个分子都是一个图)。最后,请注意,虽然大多数有监督和无监督的方法学习欧几里德向量空间中的表示,最近有兴趣的非欧几里德表示学习,其目的是学习非欧几里德嵌入空间,如双曲空间或球面空间。这项工作的主要动机是使用一个连续的嵌入空间,它类似于它试图嵌入的输入数据的底层离散结构(例如,双曲空间是树的连续版本[99])。

鉴于图表示学习领域的发展速度令人印象深刻,我们认为在一个统一的、可理解的框架中总结和描述所有方法是很重要的。本次综述的目的是为图结构数据的表示学习方法提供一个统一的视图,以便更好地理解在深度学习模型中利用图结构的不同方法。

目前已有大量的图表示学习综述。首先,有一些研究覆盖了浅层网络嵌入和自动编码技术,我们参考[18,24,46,51,122]这些方法的详细概述。其次,Bronstein等人的[15]也给出了非欧几里德数据(如图或流形)的深度学习模型的广泛概述。第三,最近的一些研究[8,116,124,126]涵盖了将深度学习应用到图数据的方法,包括图数据神经网络。这些调查大多集中在图形表示学习的一个特定子领域,而没有在每个子领域之间建立联系。

在这项工作中,我们扩展了Hamilton等人提出的编码-解码器框架,并介绍了一个通用的框架,图编码解码器模型(GRAPHEDM),它允许我们将现有的工作分为四大类: (i)浅嵌入方法,(ii)自动编码方法,(iii) 图正则化方法,和(iv) 图神经网络(GNNs)。此外,我们还介绍了一个图卷积框架(GCF),专门用于描述基于卷积的GNN,该框架在广泛的应用中实现了最先进的性能。这使我们能够分析和比较各种GNN,从在Graph Fourier域中操作的方法到将self-attention作为邻域聚合函数的方法[111]。我们希望这种近期工作的统一形式将帮助读者深入了解图的各种学习方法,从而推断出相似性、差异性,并指出潜在的扩展和限制。尽管如此,我们对前几次综述的贡献有三个方面

  • 我们介绍了一个通用的框架,即GRAPHEDM,来描述一系列广泛的有监督和无监督的方法,这些方法对图形结构数据进行操作,即浅层嵌入方法、图形正则化方法、图形自动编码方法和图形神经网络。

  • 我们的综述是第一次尝试从同一角度统一和查看这些不同的工作线,我们提供了一个通用分类(图3)来理解这些方法之间的差异和相似之处。特别是,这种分类封装了30多个现有的GRL方法。在一个全面的分类中描述这些方法,可以让我们了解这些方法究竟有何不同。

  • 我们为GRL发布了一个开源库,其中包括最先进的GRL方法和重要的图形应用程序,包括节点分类和链接预测。我们的实现可以在https://github.com/google/gcnn-survey-paper上找到。

成为VIP会员查看完整内容
0
144
小贴士
相关VIP内容
专知会员服务
28+阅读 · 2020年12月23日
专知会员服务
38+阅读 · 2020年12月22日
专知会员服务
75+阅读 · 2020年12月20日
专知会员服务
13+阅读 · 2020年9月27日
专知会员服务
46+阅读 · 2020年9月20日
专知会员服务
69+阅读 · 2020年8月24日
机器学习速查手册,135页pdf
专知会员服务
118+阅读 · 2020年3月15日
相关资讯
针对初学者的循环神经网络介绍
Python程序员
5+阅读 · 2019年8月20日
长文本表示学习概述
云栖社区
10+阅读 · 2019年5月9日
了解情感分析中的NLP技术么?
七月在线实验室
6+阅读 · 2019年4月12日
Transformer-XL:释放注意力模型的潜力
谷歌开发者
30+阅读 · 2019年2月19日
入门 | 什么是自注意力机制?
机器之心
11+阅读 · 2018年8月19日
一文概述2017年深度学习NLP重大进展与趋势
炼数成金订阅号
3+阅读 · 2017年12月15日
最全的DNN概述论文:详解前馈、卷积和循环神经网络技术
深度学习在情感分析中的应用
CSDN
6+阅读 · 2017年8月23日
相关论文
Asger Hobolth,Mogens Bladt,Lars Nørvang Andersen
0+阅读 · 1月13日
Kweku Abraham,Ismael Castillo,Elisabeth Gassiat
0+阅读 · 1月11日
Alon Kipnis,Stefano Rini,Andrea J. Goldsmith
0+阅读 · 1月10日
Isaiah Hull,Or Sattath,Eleni Diamanti,Göran Wendin
0+阅读 · 1月9日
C. A. Middelburg
0+阅读 · 1月8日
Meta-Learning to Cluster
Yibo Jiang,Nakul Verma
11+阅读 · 2019年10月30日
The Evolved Transformer
David R. So,Chen Liang,Quoc V. Le
4+阅读 · 2019年1月30日
Joaquin Vanschoren
103+阅读 · 2018年10月8日
Kurt Riedel
4+阅读 · 2018年3月14日
Danna Gurari,Qing Li,Abigale J. Stangl,Anhong Guo,Chi Lin,Kristen Grauman,Jiebo Luo,Jeffrey P. Bigham
8+阅读 · 2018年2月22日
Top