我们研究了时间差分(TD)学习中泛化与干涉之间的关系。干涉被定义为两个不同梯度的内积,表示它们的对齐。这个量从对神经网络、参数共享和动态学习的各种观察中产生。我们发现,TD很容易导致低干扰、欠泛化参数,而在监督学习中,这种效应似乎是相反的。我们假设,原因可以追溯到相互作用之间的动态干扰和bootstrapping。这是由几个观察:支持经验之间的负面关系泛化间隙和干涉TD,引导对干扰的负面影响和当地的一致性目标,和信息的传播速度之间的对比在TD(0)和TD(λ)和回归蒙特卡罗政策评估等任务。我们希望这些新的发现能够指导未来更好的引导方法的发现。

成为VIP会员查看完整内容
0
18

相关内容

由于硬件资源有限,深度学习模型的训练目标通常是在训练和推理的时间和内存限制下最大化准确性。在这种情况下,我们研究了模型大小的影响,关注于计算受限的NLP任务的Transformer模型:自监督的预训练和高资源机器翻译。我们首先展示了,尽管较小的Transformer模型在每次迭代中执行得更快,但更广、更深入的模型在显著更少的步骤中收敛。此外,这种收敛速度通常超过了使用更大模型的额外计算开销。因此,计算效率最高的训练策略是反直觉地训练非常大的模型,但在少量迭代后停止。

这导致了大型Transformer 模型的训练效率和小型Transformer 模型的推理效率之间的明显权衡。然而,我们表明大模型比小模型在压缩技术(如量化和剪枝)方面更健壮。因此,一个人可以得到最好的两个好处: 重压缩,大模型比轻压缩,小模型获得更高的准确度

https://www.zhuanzhi.ai/paper/4d7bcea8653fcc448137766511ec7d8a

概述:

在当前的深度学习范式中,使用更多的计算(例如,增加模型大小、数据集大小或训练步骤)通常会导致更高的模型准确度(brock2018large;raffel2019exploring)。最近自监督预训练的成功进一步论证了这种趋势经模型。因此,计算资源日益成为提高模型准确度的关键制约因素。这个约束导致模型训练的(通常是隐含的)目标是最大化计算效率:如何在固定的硬件和训练时间下达到最高的模型准确度。

最大化计算效率需要重新考虑关于模型训练的常见假设。特别是,有一个典型的隐式假设,即模型必须经过训练直到收敛,这使得较大的模型在有限的计算预算下显得不太可行。我们通过展示以收敛为代价来增加模型大小的机会来挑战这一假设。具体地说,我们表明,训练Transformer 模型的最快方法(vaswani2017attention)是大幅度增加模型大小,但很早停止训练。

在我们的实验中,我们改变了Transformer模型的宽度和深度,并在自监督的预训练(RoBERTa (liu2019roberta)在Wikipedia和BookCorpus上训练)和机器翻译(WMT14英语→法语)上评估了它们的训练时间和准确性。对于这些任务,我们首先展示了更大的模型比更小的模型在更少的梯度更新中收敛到更低的验证错误(第3节)。此外,这种收敛速度的增加超过了使用更大模型所带来的额外计算开销——计算效率最高的模型是非常大的,并且远远不能收敛(例如,图2,左)。我们还表明,收敛的加速主要是参数计数的函数,只有模型宽度、深度和批大小的微弱影响。

虽然较大的模型训练速度更快,但它们也增加了推理的计算和内存需求。这种增加的成本在现实应用中尤其成问题,推理成本占训练成本的主要比例(jouppi2017datacenter;crankshaw2017clipper;metz2017tpu)。然而,对于RoBERTa来说,这种明显的权衡可以与压缩相协调:与小型模型相比,大型模型在压缩方面更加健壮(第4节)。因此,使用可比较的推理成本,大型重压缩的模型优于小型轻压缩的模型(例如,图2,右)。

成为VIP会员查看完整内容
0
29

我们介绍了一种通过对比图的结构视图来学习节点和图级表示的自监督方法。我们表明,与视觉表示学习不同,增加视图数量到两个以上或对比多尺度编码不会提高性能,而最佳性能是通过对比一阶邻居编码和图扩散来实现的。在线性评估协议下,我们在8个节点中的8个和图分类基准上实现了新的最先进的自监督学习结果。例如,在Cora(节点)和reddy - binary(图形)分类基准上,我们实现了86.8%和84.5%的准确率,相对于之前的最先进水平分别提高了5.5%和2.4%。与监督基准相比,我们的方法在8个基准中有4个优于监督基准。

成为VIP会员查看完整内容
0
36

题目: DeeBERT: Dynamic Early Exiting for Accelerating BERT Inference

摘要:

大规模的预训练语言模型(如BERT)给NLP应用带来了显著的改进。然而,它们也因推理速度慢而臭名昭著,这使得它们很难部署到实时应用程序中。我们提出了一个简单而有效的方法DeeBERT,来加速BERT推理。我们的方法允许样本在不经过整个模型的情况下提前退出。实验表明,在模型质量下降最小的情况下,DeeBERT可以节省高达40%的推理时间。进一步的分析显示了伯特变压器层的不同行为,并揭示了它们的冗余性。我们的工作为有效地将深度转换模型应用于下游任务提供了新的思路。

成为VIP会员查看完整内容
0
14

We study the link between generalization and interference in temporal-difference (TD) learning. Interference is defined as the inner product of two different gradients, representing their alignment. This quantity emerges as being of interest from a variety of observations about neural networks, parameter sharing and the dynamics of learning. We find that TD easily leads to low-interference, under-generalizing parameters, while the effect seems reversed in supervised learning. We hypothesize that the cause can be traced back to the interplay between the dynamics of interference and bootstrapping. This is supported empirically by several observations: the negative relationship between the generalization gap and interference in TD, the negative effect of bootstrapping on interference and the local coherence of targets, and the contrast between the propagation rate of information in TD(0) versus TD($\lambda$) and regression tasks such as Monte-Carlo policy evaluation. We hope that these new findings can guide the future discovery of better bootstrapping methods.

0
7
下载
预览

题目: Learning with Differentiable Perturbed Optimizers

摘 要:

机器学习管道通常依赖于优化过程来做出离散的决策(例如排序、挑选最近的邻居、寻找最短路径或最佳匹配)。虽然这些离散的决策很容易以正向的方式进行计算,但它们不能用于使用一阶优化技术修改模型参数,因为它们破坏了计算图的反向传播。为了扩展端到端的学习问题的范围,提出了一种将输出最优离散决策的块转换为可微操作的系统方法。我们的方法依赖于这些参数的随机扰动,并且可以很容易地在现有的求解器中使用,而不需要特别的正则化或平滑。这些扰动的优化器得到的解是可微的,且不满足局部常数。平滑度的大小可以通过选择的噪声幅值进行调整,我们分析了噪声幅值的影响。这些扰动解的导数可以得到有效的评价。我们还展示了该框架如何与结构化预测中产生的一系列损失相联系,并描述了如何在有理论保证的情况下,在无监督和监督学习中使用这些损失。我们在模拟和真实数据的实验中证明了我们的方法在几个机器学习任务中的性能。

成为VIP会员查看完整内容
0
12

强化学习(RL)研究的是当环境(即动力和回报)最初未知,但可以通过直接交互学习时的顺序决策问题。RL算法最近在许多问题上取得了令人印象深刻的成果,包括游戏和机器人。 然而,大多数最新的RL算法需要大量的数据来学习一个令人满意的策略,并且不能用于样本昂贵和/或无法进行长时间模拟的领域(例如,人机交互)。朝着更具样本效率的算法迈进的一个基本步骤是,设计适当平衡环境探索、收集有用信息的方法,以及利用所学策略收集尽可能多的回报的方法。

本教程的目的是让您认识到探索性开发困境对于提高现代RL算法的样本效率的重要性。本教程将向观众提供主要算法原理(特别是,面对不确定性和后验抽样时的乐观主义)、精确情况下的理论保证(即表格RL)及其在更复杂环境中的应用,包括参数化MDP、线性二次控制,以及它们与深度学习架构的集成。本教程应提供足够的理论和算法背景,以使AI和RL的研究人员在现有的RL算法中集成探索原理,并设计新颖的样本高效的RL方法,能够处理复杂的应用,例如人机交互(例如,会话代理),医学应用(例如,药物优化)和广告(例如,营销中的终身价值优化)。在整个教程中,我们将讨论开放的问题和未来可能的研究方向。

成为VIP会员查看完整内容
0
66

NeurIPS 2019(Neural Information Processing Systems)将在12月8日-14日在加拿大温哥华举行。NeurIPS 是全球最受瞩目的AI、机器学习顶级学术会议之一,每年全球的人工智能爱好者和科学家都会在这里聚集,发布最新研究。今天小编整理了表示学习相关论文。

  1. Self-attention with Functional Time Representation Learning

作者: Da Xu, Chuanwei Ruan, Evren Korpeoglu, Sushant Kumar, Kannan Achan

摘要:在自然语言处理中,具有self-attention的序列模型已经取得了很好的效果。self-attention具有模型灵活性、计算复杂性和可解释性等优点,正逐渐成为事件序列模型的重要组成部分。然而,像大多数其他的序列模型一样,自我注意并不能解释事件之间的时间跨度,因此它捕捉的是序列信号而不是时间模式。在不依赖递归网络结构的情况下,self-attention通过位置编码来识别事件的顺序。为了弥补时间无关和时间相关事件序列建模之间的差距,我们引入了一个嵌入时间跨度到高维空间的功能特征映射。通过构造相关的平移不变时间核函数,揭示了经典函数函数分析结果下特征图的函数形式,即Bochner定理和Mercer定理。我们提出了几个模型来学习函数性时间表示以及与事件表示的交互。这些方法是在各种连续时间事件序列预测任务下对真实数据集进行评估的。实验结果表明,所提出的方法与基线模型相比,具有更好的性能,同时也能捕获有用的时间-事件交互。
论文链接:
https://papers.nips.cc/paper/9720-self-attention-with-functional-time-representation-learning

  1. Large Scale Adversarial Representation Learning

作者:Jeff Donahue, Karen Simonyan

摘要:对抗训练生成模型(GANs)最近取得了引人注目的图像合成结果。GANs在无监督的表现学习中尽管在早期取得了的成功,但是它们已经被基于自监督的方法所取代。在这项工作中,我们证明了图像生成质量的进步转化为极大地改进了表示学习性能。我们的方法BigBiGAN建立在最先进的BigGAN模型之上,通过添加编码器和修改鉴别器将其扩展到表示学习。我们广泛地评估了这些BigBiGAN模型的表示学习和生成能力,证明了这些基于生成的模型在ImageNet的无监督表示学习方面达到了最新的水平,并在无条件生成图像方面取得了令人信服的结果。

论文链接: https://papers.nips.cc/paper/9240-large-scale-adversarial-representation-learning

  1. Rethinking Kernel Methods for Node Representation Learning on Graphs

作者:Yu Tian, Long Zhao, Xi Peng, Dimitris Metaxas

摘要:图核是度量图相似性的核心方法,是图分类的标准工具。然而,作为与图表示学习相关的一个问题,使用核方法进行节点分类仍然是不适定的,目前最先进的方法大多基于启发式。在这里,我们提出了一个新的基于核的节点分类理论框架,它可以弥补这两个图上表示学习问题之间的差距。我们的方法是由图核方法驱动的,但是扩展到学习捕获图中结构信息的节点表示。我们从理论上证明了我们的公式与任何半正定核一样强大。为了有效地学习内核,我们提出了一种新的节点特征聚合机制和在训练阶段使用的数据驱动的相似度度量。更重要的是,我们的框架是灵活的,并补充了其他基于图形的深度学习模型,如图卷积网络(GCNs)。我们在一些标准节点分类基准上对我们的方法进行了经验评估,并证明我们的模型设置了最新的技术状态。
论文链接: https://papers.nips.cc/paper/9342-rethinking-kernel-methods-for-node-representation-learning-on-graphs

  1. Continual Unsupervised Representation Learning

作者:Dushyant Rao, Francesco Visin, Andrei Rusu, Razvan Pascanu, Yee Whye Teh, Raia Hadsell

摘要:持续学习旨在提高现代学习系统处理非平稳分布的能力,通常是通过尝试按顺序学习一系列任务。该领域的现有技术主要考虑监督或强化学习任务,并经常假设对任务标签和边界有充分的认识。在这项工作中,我们提出了一种方法(CURL)来处理一个更普遍的问题,我们称之为无监督连续学习。重点是在不了解任务身份的情况下学习表示,我们将探索任务之间的突然变化、从一个任务到另一个任务的平稳过渡,甚至是数据重组时的场景。提出的方法直接在模型中执行任务推断,能够在其生命周期内动态扩展以捕获新概念,并结合其他基于排练的技术来处理灾难性遗忘。我们用MNIST和Omniglot演示了CURL在无监督学习环境中的有效性,在这种环境中,没有标签可以确保没有关于任务的信息泄露。此外,与现有技术相比,我们在i.i.中表现出了较强的性能。在i.i.d的设置下,或将该技术应用于监督任务(如渐进式课堂学习)时。 论文链接: https://papers.nips.cc/paper/8981-continual-unsupervised-representation-learning

  1. Unsupervised Scalable Representation Learning for Multivariate Time Series

作者: Jean-Yves Franceschi, Aymeric Dieuleveut, Martin Jaggi

摘要:由于时间序列在实际应用中具有高度可变的长度和稀疏标记,因此对机器学习算法而言,时间序列是一种具有挑战性的数据类型。在本文中,我们提出了一种学习时间序列通用嵌入的无监督方法来解决这一问题。与以前的工作不同,它的长度是可伸缩的,我们通过深入实验和比较来展示学习表示的质量、可移植性和实用性。为此,我们将基于因果扩张卷积的编码器与基于时间负采样的新三重态损耗相结合,获得了可变长度和多元时间序列的通用表示。
论文链接: https://papers.nips.cc/paper/8713-unsupervised-scalable-representation-learning-for-multivariate-time-series

  1. A Refined Margin Distribution Analysis for Forest Representation Learning

作者:Shen-Huan Lyu, Liang Yang, Zhi-Hua Zhou

摘要:在本文中,我们将森林表示学习方法casForest作为一个加法模型,并证明当与边际标准差相对于边际均值的边际比率足够小时,泛化误差可以以O(ln m/m)为界。这激励我们优化比例。为此,我们设计了一种边际分布的权重调整方法,使深林模型的边际比较小。实验验证了边缘分布与泛化性能之间的关系。我们注意到,本研究从边缘理论的角度对casForest提供了一个新的理解,并进一步指导了逐层的森林表示学习。

论文链接: https://papers.nips.cc/paper/8791-a-refined-margin-distribution-analysis-for-forest-representation-learning

  1. Adversarial Fisher Vectors for Unsupervised Representation Learning

作者:Shuangfei Zhai, Walter Talbott, Carlos Guestrin, Joshua Susskind

摘要:我们通过基于深度能量的模型(EBMs)来研究生成对抗网络(GANs),目的是利用从这个公式推导出的密度模型。与传统的鉴别器在达到收敛时学习一个常数函数的观点不同,这里我们证明了它可以为后续的任务提供有用的信息,例如分类的特征提取。具体来说,在EBM公式中,鉴别器学习一个非归一化密度函数(即,负能量项),它描述了数据流形。我们建议通过从EBM中获得相应的Fisher分数和Fisher信息来评估生成器和鉴别器。我们证明了通过假设生成的示例形成了对学习密度的估计,费雪信息和归一化费雪向量都很容易计算。我们还证明了我们能够推导出例子之间和例子集之间的距离度量。我们进行的实验表明,在分类和感知相似性任务中,甘氏神经网络诱导的费雪向量作为无监督特征提取器表现出了竞争力。代码地址:https://github.com/apple/ml-afv。
论文链接: https://papers.nips.cc/paper/9295-adversarial-fisher-vectors-for-unsupervised-representation-learning

  1. vGraph: A Generative Model for Joint Community Detection and Node Representation Learning

作者:Fan-Yun Sun, Meng Qu, Jordan Hoffmann, Chin-Wei Huang, Jian Tang

摘要:本文重点研究了图数据分析的两个基本任务:社区检测和节点表示学习,它们分别捕获图数据的全局结构和局部结构。在现有的文献中,这两个任务通常是独立研究的,但实际上是高度相关的。提出了一种协作学习社区成员和节点表示的概率生成模型vGraph。具体地说,我们假设每个节点都可以表示为群落的混合,并且每个群落都定义为节点上的多项分布。混合系数和群落分布均由节点和群落的低维表示参数化。我们设计了一种有效的变分推理算法,通过反向传播进行优化,使相邻节点的社区成员关系在潜在空间中相似。在多个真实图上的实验结果表明,vGraph在社区检测和节点表示学习两方面都非常有效,在两方面都优于许多有竞争力的基线。结果表明,该vGraph框架具有良好的灵活性,可以方便地扩展到层次社区的检测。
论文链接: https://papers.nips.cc/paper/8342-vgraph-a-generative-model-for-joint-community-detection-and-node-representation-learning

成为VIP会员查看完整内容
0
43

题目: Causal Inference and Stable Learning

简介:

在一个常见的机器学习问题中,使用一个根据训练数据集估计的模型,根据观察到的特征来预测未来的结果值。当测试数据和训练数据来自相同的分布时,许多学习算法被提出并证明是成功的。然而,对于给定的训练数据分布,性能最好的模型通常利用特征之间微妙的统计关系,这使得它们在应用于测试数据时更容易出现预测错误,因为测试数据的分布与训练数据的分布不同。对于学术研究和实际应用来说,如何建立稳定、可靠的学习模型是至关重要的。因果推理是一种强大的统计建模工具,用于解释和稳定的学习。因果推理是指基于某一效应发生的条件,对某一因果关系做出结论的过程。在本教程中,我们将重点讨论因果推理和稳定学习,旨在从观察数据中探索因果知识,以提高机器学习算法的可解释性和稳定性。首先,我们将介绍因果推理,并介绍一些最近的数据驱动的方法来估计因果效应的观测数据,特别是在高维设置。摘要为了弥补因果推理与机器学习在稳定学习上的差距,我们首先给出了学习算法的稳定性和鲁棒性的定义,然后介绍了一些最近出现的稳定学习算法,以提高预测的稳定性和可解释性。最后,我们将讨论稳定学习的应用和未来方向,并为稳定学习提供基准。

邀请嘉宾:

张潼,香港科技大学计算机科学与数学教授。此前,他是罗格斯大学(Rutgers university)教授,曾在IBM、雅虎(Yahoo)、百度和腾讯(Tencent)工作。张潼的研究兴趣包括机器学习算法和理论、大数据统计方法及其应用。他是ASA和IMS的研究员,曾在主要机器学习期刊的编委会和顶级机器学习会议的项目委员会任职。张潼在康奈尔大学获得数学和计算机科学学士学位,在斯坦福大学获得计算机科学博士学位。

崔鹏,清华大学计算机系长聘副教授,博士生导师。2010年于清华大学计算机系获得博士学位。研究兴趣包括社会动力学建模、大规模网络表征学习以及大数据驱动的因果推理和稳定预测。近5年在数据挖掘及人工智能领域高水平会议和期刊发表论文60余篇,曾5次获得顶级国际会议或期刊论文奖,并先后两次入选数据挖掘领域顶级国际会议KDD最佳论文专刊。目前担任IEEE TKDE、ACM TOMM、ACM TIST、IEEE TBD等国际期刊编委。曾获得国家自然科学二等奖、教育部自然科学一等奖、电子学会自然科学一等奖、CCF-IEEE CS青年科学家奖、ACM中国新星奖。入选中组部万人计划青年拔尖人才,并当选中国科协全国委员会委员。

成为VIP会员查看完整内容
0
90

题目: A Meta-Transfer Objective for Learning to Disentangle Causal Mechanisms

简介: 我们建议使用一种元学习目标,该目标可以在修改后的分布上最大程度地提高转移速度,以学习如何模块化获取的知识。特别是,我们专注于如何根据因果关系将联合分布分解为适当的条件。我们假设分布的变化是局部的(例如,由于对变量之一的干预而导致的)处于局部分布的假设,从而解释了何时可以奏效。我们证明了在因果机制局部变化的这种假设下,正确的因果图将倾向于仅具有其一些具有非零梯度的参数,即需要进行调整的参数(那些修正变量)。我们争论并通过实验观察到,这将导致更快的适应,并使用此属性来定义元学习替代评分,该评分除了图形的连续参数化外,还将倾向于正确的因果图。最后,受AI智能体的启发(例如,机器人自动发现其环境),我们考虑将同一目标如何发现因果变量本身,作为观察到的无因果意义的低级变量的转换。在两个变量情况下的实验验证了所提出的思想和理论结果。

作者介绍: Yoshua Bengio是蒙特利尔大学计算机科学与运筹学系的教授,Mila和IVADO的科学总监和创始人,2018年图灵奖获得者,加拿大统计学习算法研究主席以及加拿大AI CIFAR主席。 他开创了深度学习的先河,并在2018年每天获得全球所有计算机科学家中最多的引用。 他是加拿大勋章的官员,加拿大皇家学会的成员,并于2017年被授予基拉姆奖,玛丽·维克多奖和年度无线电加拿大科学家,并且是NeurIPS顾问的成员。 ICLR会议的董事会和联合创始人,以及CIFAR“机器和大脑学习”计划的程序总监。 他的目标是帮助发现通过学习产生智力的原理,并促进AI的发展以造福所有人。

成为VIP会员查看完整内容
0
40
小贴士
相关VIP内容
相关论文
Emmanuel Bengio,Joelle Pineau,Doina Precup
7+阅读 · 2020年3月13日
Representation Learning with Ordered Relation Paths for Knowledge Graph Completion
Yao Zhu,Hongzhi Liu,Zhonghai Wu,Yang Song,Tao Zhang
5+阅读 · 2019年9月26日
Generalization and Regularization in DQN
Jesse Farebrother,Marlos C. Machado,Michael Bowling
5+阅读 · 2019年1月30日
Borja Ibarz,Jan Leike,Tobias Pohlen,Geoffrey Irving,Shane Legg,Dario Amodei
4+阅读 · 2018年11月15日
Brett Daley,Christopher Amato
3+阅读 · 2018年10月23日
Andreea Bobu,Andrea Bajcsy,Jaime F. Fisac,Anca D. Dragan
3+阅读 · 2018年10月11日
Hierarchical Deep Multiagent Reinforcement Learning
Hongyao Tang,Jianye Hao,Tangjie Lv,Yingfeng Chen,Zongzhang Zhang,Hangtian Jia,Chunxu Ren,Yan Zheng,Changjie Fan,Li Wang
4+阅读 · 2018年9月25日
Deep Reinforcement Learning in Ice Hockey for Context-Aware Player Evaluation
Guiliang Liu,Oliver Schulte
4+阅读 · 2018年7月11日
Ju Dai,Pingping Zhang,Huchuan Lu,Hongyu Wang
5+阅读 · 2018年2月22日
Fanyi Xiao,Yong Jae Lee
3+阅读 · 2017年12月18日
Top