深度学习系统在许多任务中都取得了显著的性能,但要确保生成的模型服从硬约束(在许多控制应用程序中可能经常需要这样做),常常是出了名的困难。在这次演讲中,我将介绍一些最近的关于在深度学习系统中加强不同类型的约束的工作。具体来说,我将重点介绍最近的一些工作,包括将一般的凸优化问题集成为深网络中的层次,研究保证表示凸函数的学习网络,以及研究增强非线性动力学的全局稳定性的深层动力系统。在所有情况下,我们都强调我们可以设计网络结构来编码这些隐性偏见的方式,这种方式可以让我们轻松地执行这些硬约束。

成为VIP会员查看完整内容
0
11

相关内容

机器学习的一个分支,它基于试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的一系列算法。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等

我们世界的许多方面都可以用相互作用的部分组成的系统来理解,从物理中的多对象系统到复杂的社会动力学。让模型了解这种组合结构对于泛化和数据高效学习非常重要。这就产生了一类称为图神经网络(GNNs)的模型。在这次演讲中,我将重点介绍一些最近出现的用于无监督图表示学习的GNN变体,并介绍我们如何有效地使用GNN来发现交互系统中的关系(Kipf等,ICML 2018)。基于图的神经关系推理(NRI)模型只从观测数据中学习推断潜在的相互作用,并对相互作用系统的动力学进行建模。示例应用程序包括多对象物理系统建模、运动捕获数据和多代理运动跟踪数据,其中NRI可以以非监督的方式恢复可解释的交互结构,并预测未来许多时间步长的复杂动态。

成为VIP会员查看完整内容
0
24

题目: TinyMBERT: Multi-Stage Distillation Framework for Massive Multi-lingual NER

简介: 深度和大型预训练语言模型是各种自然语言处理任务的最新技术。但是,这些模型的巨大规模可能会阻碍在实践中使用它们。一些近期和并行的工作使用知识蒸馏将这些巨大的模型压缩为浅层模型。在这项工作中,我们重点研究多语言命名实体识别(NER)的知识提炼。特别是,我们研究了几种蒸馏策略,并提出了一个阶段性的优化方案,该方案利用了与教师架构无关的教师内部表示形式,并表明它优于先前工作中采用的策略。此外,我们调查了几个因素的作用,例如未标记数据的数量,注释资源,模型架构和推理延迟仅举几例。我们证明了我们的方法可以对MBERT类教师模型进行大规模压缩,在参数推断方面最多可压缩35倍,在延迟方面则可压缩51倍,同时为41种语言的NER有95%的F1分数。

成为VIP会员查看完整内容
0
11

深度和大型的预训练语言模型是各种自然语言处理任务的最新技术。然而,这些模型的巨大尺寸可能会阻碍在实践中使用它们。最近的一些并行工作使用知识蒸馏来将这些庞大的模型压缩成小型模型。在这项工作中,我们以多语言命名实体识别(NER)为重点来研究知识蒸馏。特别地,我们研究了几种提炼策略,并提出了一种利用教师内部表征的阶段性优化方案,该方案不考虑教师体系结构,并证明其优于以往工作中所采用的策略。此外,我们还研究了几个因素的作用,比如未标记数据的数量、注释资源、模型架构和推理延迟等等。我们证明,我们的方法可以将类mbert教师模型的参数压缩高达35倍,批量推理的延迟压缩51倍,而NER超过41种语言的95%的f1分都保留下来。

成为VIP会员查看完整内容
0
7

图神经网络是解决各种图学习问题的有效的机器学习模型。尽管它们取得了经验上的成功,但是GNNs的理论局限性最近已经被揭示出来。因此,人们提出了许多GNN模型来克服这些限制。在这次调查中,我们全面概述了GNNs的表达能力和可证明的强大的GNNs变体。

成为VIP会员查看完整内容
0
47

【导读】近年来,随着网络数据量的不断增加,挖掘图形数据已成为计算机科学领域的热门研究课题,在学术界和工业界都得到了广泛的研究。但是,大量的网络数据为有效分析带来了巨大的挑战。因此激发了图表示的出现,该图表示将图映射到低维向量空间中,同时保持原始图结构并支持图推理。图的有效表示的研究具有深远的理论意义和重要的现实意义,本教程将介绍图表示/网络嵌入的一些基本思想以及一些代表性模型。

关于图或网络的文献有两个名称:图表示和网络嵌入。我们注意到图和网络都指的是同一种结构,尽管它们每个都有自己的术语,例如,图和网络的顶点和边。挖掘图/网络的核心依赖于正确表示的图/网络,这使得图/网络上的表示学习成为学术界和工业界的基本研究问题。传统表示法直接基于拓扑图来表示图,通常会导致许多问题,包括稀疏性,高计算复杂性等,从而激发了基于机器学习的方法的出现,这种方法探索了除矢量空间中的拓扑结构外还能够捕获额外信息的潜在表示。因此,对于图来说,“良好”的潜在表示可以更加精确的表示图形。但是,学习网络表示面临以下挑战:高度非线性,结构保持,属性保持,稀疏性。

深度学习在处理非线性方面的成功为我们提供了研究新方向,我们可以利用深度学习来提高图形表示学习的性能,作者在教程中讨论了将深度学习技术与图表示学习相结合的一些最新进展,主要分为两类方法:面向结构的深层方法和面向属性的深层方法。

对于面向结构的方法:

  • 结构性深层网络嵌入(SDNE),专注于保持高阶邻近度。

  • 深度递归网络嵌入(DRNE),其重点是维护全局结构。

  • 深度超网络嵌入(DHNE),其重点是保留超结构。

对于面向属性的方法:

  • 专注于不确定性属性的深度变异网络嵌入(DVNE)。

  • 深度转换的基于高阶Laplacian高斯过程(DepthLGP)的网络嵌入,重点是动态属性。

本教程的第二部分就以上5种方法,通过对各个方法的模型介绍、算法介绍、对比分析等不同方面进行详细介绍。

1、Structural Deep Network Embedding

network embedding,是为网络中的节点学习出一个低维表示的方法。目的在于在低维中保持高度非线性的网络结构特征,但现有方法多采用浅层网络不足以挖掘高度非线性,或同时保留局部和全局结构特征。本文提出一种结构化深度网络嵌入方法,叫SDNE该方法用半监督的深度模型来捕捉高度非线性结构,通过结合一阶相似性(监督)和二阶相似性(非监督)来保留局部和全局特征。

2、 Deep recursive network embedding with regular equivalence

网络嵌入旨在保留嵌入空间中的顶点相似性。现有方法通常通过节点之间的连接或公共邻域来定义相似性,即结构等效性。但是,位于网络不同部分的顶点可能具有相似的角色或位置,即规则的等价关系,在网络嵌入的文献中基本上忽略了这一点。以递归的方式定义规则对等,即两个规则对等的顶点具有也规则对等的网络邻居。因此,文章中提出了一种名为深度递归网络嵌入(DRNE)的新方法来学习具有规则等价关系的网络嵌入。更具体地说,我们提出了一种层归一化LSTM,以递归的方式通过聚合邻居的表示方法来表示每个节点。

3、Structural Deep Embedding for Hyper-Networks

是在hyperedge(超边是不可分解的)的基础上保留object的一阶和二阶相似性,学习异质网络表示。于与HEBE的区别在于,本文考虑了网络high-oeder网络结构和高度稀疏性。

传统的基于clique expansion 和star expansion的方法,显式或者隐式地分解网络。也就说,分解后hyper edge节点地子集,依然可以构成一个新的超边。对于同质网络这个假设是合理地,因为同质网络地超边,大多数情况下都是根据潜在地相似性(共同地标签等)构建的。

4、** Deep variational network embedding in wasserstein space**

大多数现有的嵌入方法将节点作为点向量嵌入到低维连续空间中。这样,边缘的形成是确定性的,并且仅由节点的位置确定。但是,现实世界网络的形成和发展充满不确定性,这使得这些方法不是最优的。为了解决该问题,在本文中提出了一种新颖的在Wasserstein空间中嵌入深度变分网络(DVNE)。所提出的方法学习在Wasserstein空间中的高斯分布作为每个节点的潜在表示,它可以同时保留网络结构并为节点的不确定性建模。具体来说,我们使用2-Wasserstein距离作为分布之间的相似性度量,它可以用线性计算成本很好地保留网络中的传递性。此外,我们的方法通过深度变分模型隐含了均值和方差的数学相关性,可以通过均值矢量很好地捕获节点的位置,而由方差可以很好地捕获节点的不确定性。此外,本文方法通过保留网络中的一阶和二阶邻近性来捕获局部和全局网络结构。

5、Learning embeddings of out-of-sample nodes in dynamic networks

迄今为止的网络嵌入算法主要是为静态网络设计的,在学习之前,所有节点都是已知的。如何为样本外节点(即学习后到达的节点)推断嵌入仍然是一个悬而未决的问题。该问题对现有方法提出了很大的挑战,因为推断的嵌入应保留复杂的网络属性,例如高阶邻近度,与样本内节点嵌入具有相似的特征(即具有同质空间),并且计算成本较低。为了克服这些挑战,本文提出了一种深度转换的高阶拉普拉斯高斯过程(DepthLGP)方法来推断样本外节点的嵌入。DepthLGP结合了非参数概率建模和深度学习的优势。特别是,本文设计了一个高阶Laplacian高斯过程(hLGP)来对网络属性进行编码,从而可以进行快速和可扩展的推理。为了进一步确保同质性,使用深度神经网络来学习从hLGP的潜在状态到节点嵌入的非线性转换。DepthLGP是通用的,因为它适用于任何网络嵌入算法学习到的嵌入。

成为VIP会员查看完整内容
0
105

【导读】近年来,随着网络数据量的不断增加,挖掘图形数据已成为计算机科学领域的热门研究课题,在学术界和工业界都得到了广泛的研究。 但是,大量的网络数据为有效分析带来了巨大的挑战。 因此激发了图表示的出现,该图表示将图映射到低维向量空间中,同时保持原始图结构并支持图推理。 图的有效表示的研究具有深远的理论意义和重要的现实意义,本教程将介绍图表示/网络嵌入的一些基本思想以及一些代表性模型。

关于图或网络的文献有两个名称:图表示和网络嵌入。我们注意到图和网络都指的是同一种结构,尽管它们每个都有自己的术语,例如,图和网络的顶点和边。挖掘图/网络的核心依赖于正确表示的图/网络,这使得图/网络上的表示学习成为学术界和工业界的基本研究问题。传统表示法直接基于拓扑图来表示图,通常会导致许多问题,包括稀疏性,高计算复杂性等,从而激发了基于机器学习的方法的出现,这种方法探索了除矢量空间中的拓扑结构外还能够捕获额外信息的潜在表示。因此,对于图来说,“良好”的潜在表示可以更加精确的表示图形。但是,学习网络表示面临以下挑战:高度非线性,结构保持,属性保持,稀疏性。

深度学习在处理非线性方面的成功为我们提供了研究新方向,我们可以利用深度学习来提高图形表示学习的性能,作者在教程中讨论了将深度学习技术与图表示学习相结合的一些最新进展,主要分为两类方法:面向结构的深层方法和面向属性的深层方法。

对于面向结构的方法:

  • 结构性深层网络嵌入(SDNE),专注于保持高阶邻近度。
  • 深度递归网络嵌入(DRNE),其重点是维护全局结构。
  • 深度超网络嵌入(DHNE),其重点是保留超结构。

对于面向属性的方法:

  • 专注于不确定性属性的深度变异网络嵌入(DVNE)。
  • 深度转换的基于高阶Laplacian高斯过程(DepthLGP)的网络嵌入,重点是动态属性。

本教程的第二部分就以上5种方法,通过对各个方法的模型介绍、算法介绍、对比分析等不同方面进行详细介绍。

1、Structural Deep Network Embedding

network embedding,是为网络中的节点学习出一个低维表示的方法。目的在于在低维中保持高度非线性的网络结构特征,但现有方法多采用浅层网络不足以挖掘高度非线性,或同时保留局部和全局结构特征。本文提出一种结构化深度网络嵌入方法,叫SDNE该方法用半监督的深度模型来捕捉高度非线性结构,通过结合一阶相似性(监督)和二阶相似性(非监督)来保留局部和全局特征。

2、 Deep recursive network embedding with regular equivalence

网络嵌入旨在保留嵌入空间中的顶点相似性。现有方法通常通过节点之间的连接或公共邻域来定义相似性,即结构等效性。但是,位于网络不同部分的顶点可能具有相似的角色或位置,即规则的等价关系,在网络嵌入的文献中基本上忽略了这一点。以递归的方式定义规则对等,即两个规则对等的顶点具有也规则对等的网络邻居。因此,文章中提出了一种名为深度递归网络嵌入(DRNE)的新方法来学习具有规则等价关系的网络嵌入。更具体地说,我们提出了一种层归一化LSTM,以递归的方式通过聚合邻居的表示方法来表示每个节点。

3、Structural Deep Embedding for Hyper-Networks

是在hyperedge(超边是不可分解的)的基础上保留object的一阶和二阶相似性,学习异质网络表示。于与HEBE的区别在于,本文考虑了网络high-oeder网络结构和高度稀疏性。 传统的基于clique expansion 和star expansion的方法,显式或者隐式地分解网络。也就说,分解后hyper edge节点地子集,依然可以构成一个新的超边。对于同质网络这个假设是合理地,因为同质网络地超边,大多数情况下都是根据潜在地相似性(共同地标签等)构建的。

4、 Deep variational network embedding in wasserstein space

大多数现有的嵌入方法将节点作为点向量嵌入到低维连续空间中。这样,边缘的形成是确定性的,并且仅由节点的位置确定。但是,现实世界网络的形成和发展充满不确定性,这使得这些方法不是最优的。为了解决该问题,在本文中提出了一种新颖的在Wasserstein空间中嵌入深度变分网络(DVNE)。所提出的方法学习在Wasserstein空间中的高斯分布作为每个节点的潜在表示,它可以同时保留网络结构并为节点的不确定性建模。具体来说,我们使用2-Wasserstein距离作为分布之间的相似性度量,它可以用线性计算成本很好地保留网络中的传递性。此外,我们的方法通过深度变分模型隐含了均值和方差的数学相关性,可以通过均值矢量很好地捕获节点的位置,而由方差可以很好地捕获节点的不确定性。此外,本文方法通过保留网络中的一阶和二阶邻近性来捕获局部和全局网络结构。

5、 Learning embeddings of out-of-sample nodes in dynamic networks

迄今为止的网络嵌入算法主要是为静态网络设计的,在学习之前,所有节点都是已知的。如何为样本外节点(即学习后到达的节点)推断嵌入仍然是一个悬而未决的问题。该问题对现有方法提出了很大的挑战,因为推断的嵌入应保留复杂的网络属性,例如高阶邻近度,与样本内节点嵌入具有相似的特征(即具有同质空间),并且计算成本较低。为了克服这些挑战,本文提出了一种深度转换的高阶拉普​​拉斯高斯过程(DepthLGP)方法来推断样本外节点的嵌入。 DepthLGP结合了非参数概率建模和深度学习的优势。特别是,本文设计了一个高阶Laplacian高斯过程(hLGP)来对网络属性进行编码,从而可以进行快速和可扩展的推理。为了进一步确保同质性,使用深度神经网络来学习从hLGP的潜在状态到节点嵌入的非线性转换。 DepthLGP是通用的,因为它适用于任何网络嵌入算法学习到的嵌入。

成为VIP会员查看完整内容
0
38

简介: 为了解释超参数化深度网络令人惊讶的良好泛化行为,最近的工作开发了各种泛化边界学习方法,这些方法都是基于统一收敛的基础学习理论技术。尽管众所周知,存在多个边界的数值很大,但通过大量实验,我们发现了这些边界的更多相关方面:在实践中,这些边界会随着训练数据集的大小而增加。然后,以我们的观察为指导,我们提供了由梯度下降(GD)训练的过参数化线性分类器和神经网络的示例,其中即使证明了最大程度地考虑了GD的隐性偏差,也证明均匀收敛不能“解释泛化”。更准确地说,即使我们仅考虑GD输出的分类器集,其测试误差小于我们的设置中的一些误差,我们仍然表明,在这组分类器上应用(双面)均匀收敛只会产生虚无泛化保证大于1−ε。通过这些发现,我们对基于统一收敛的泛化边界的威力提出了疑问,以提供为什么超参数化的深层网络能够很好地泛化的完整情况。

本文提出了本质上是负面的结果,表明许多现有的(基于规范的)深度学习算法的性能边界无法达到他们要求的结果。作者进一步说,当其他研究者继续依靠双边一致收敛的机制时,他们将无法达到自己宣称的结果。虽然本文没有解决(也不假装解决)深层神经网络中的泛化问题,但是将该算法“钉死在十字架上”(培根原话“An Instance of the Fingerpost”),指出机器学习领域应该关注另一个不同的地方。

作者介绍: Vaishnavh Nagarajan,卡内基梅隆大学(CMU)计算机科学系五年级的博士生。他的兴趣在于机器学习和人工智能的算法和基础方面。目前,他正在研究如何在有监督和无监督的学习环境中从理论上理解深度学习中的泛化。在过去,他从事过更传统的学习理论、多智能体系统和强化学习。

Zico Kolter,卡内基梅隆大学计算机科学学院计算机科学系的副教授。 除了在CMU的全职工作之外,还任博世AI中心(BCAI)的AI研究首席科学家,工作重点是机器学习,优化和控制。 具体来说,就是使深度学习算法更安全,更可靠,更易于解释。个人主页:https://www.csd.cs.cmu.edu/people/faculty/zico-kolter

成为VIP会员查看完整内容
0
5

A Survey of Model Compression and Acceleration for Deep Neural Networks 深度卷积神经网络(CNNs)最近在许多视觉识别任务中取得了巨大的成功。然而,现有的深度神经网络模型在计算上是昂贵的和内存密集型的,这阻碍了它们在低内存资源的设备或有严格时间延迟要求的应用程序中的部署。因此,在不显著降低模型性能的情况下,在深度网络中进行模型压缩和加速是一种自然的思路。在过去几年中,这方面取得了巨大的进展。本文综述了近年来发展起来的压缩和加速CNNs模型的先进技术。这些技术大致分为四种方案: 参数剪枝和共享、低秩因子分解、传输/紧凑卷积过滤器和知识蒸馏。首先介绍参数修剪和共享的方法,然后介绍其他技术。对于每种方案,我们都提供了关于性能、相关应用程序、优点和缺点等方面的详细分析。然后我们将讨论一些最近比较成功的方法,例如,动态容量网络和随机深度网络。然后,我们调查评估矩阵、用于评估模型性能的主要数据集和最近的基准测试工作。最后,对全文进行总结,并对今后的研究方向进行了展望。

成为VIP会员查看完整内容
0
36
Top