在过去几年里,注意力和记忆已经成为深度学习的两个重要的新组成部分。本讲座由DeepMind研究科学家Alex Graves讲授现在广泛使用的注意力机制,包括任何深度网络中的内隐注意力,以及离散和可区分的变体的显性注意力。然后讨论了具有外部记忆的网络,并解释了注意力是如何为他们提供选择性回忆的。它简要地回顾了Transformer,一种特别成功的注意力网络类型,最后看可变计算时间,这可以被视为一种形式的“注意力集中”。

地址:

https://ua-cam.com/video/AIiwuClvH6k/deepmind-x-ucl-deep-learning-lectures-8-12-attention-and-memory-in-deep-learning.html

Alex Graves在爱丁堡大学(University of Edinburgh)完成了理论物理学的理学学士学位,在剑桥大学(University of Cambridge)完成了数学的第三部分,在IDSIA与尤尔根·施米德胡贝尔(Jurgen Schmidhuber)一起完成了人工智能博士学位,之后在慕尼黑工业大学(technology University of Munich)和杰夫·辛顿(Geoff Hinton)一起完成了博士后学位。他现在是DeepMind的一名研究科学家。他的贡献包括用于序列标签的连接主义时态分类算法,随机梯度变分推理,神经图灵机/可微分神经计算机架构,以及用于强化学习的A2C算法。

关于讲座系列:

深度学习讲座系列是DeepMind与UCL人工智能中心之间的合作。在过去的十年中,深度学习已发展成为领先的人工智能范例,使我们能够以前所未有的准确性和规模从原始数据中学习复杂的功能。深度学习已应用于对象识别,语音识别,语音合成,预测,科学计算,控制等问题。由此产生的应用程序触及我们在医疗保健和医学研究,人机交互,通信,运输,保护,制造以及人类努力的许多其他领域中的所有生活。认识到这一巨大影响,深度学习的先驱获得了2019年图灵奖,这是计算机领域的最高荣誉。

在本系列讲座中,来自领先的AI研究实验室DeepMind的研究科学家针对深度学习中的一系列令人兴奋的主题进行了12次讲座,内容涵盖了通过围绕记忆,注意力和生成建模的先进思想来训练神经网络的基础知识,以及重要的 负责任的创新主题。

深度学习注意力与记忆机制

成为VIP会员查看完整内容
0
76

相关内容

机器学习的一个分支,它基于试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的一系列算法。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等

机器学习暑期学校(MLSS)系列开始于2002年,致力于传播统计机器学习和推理的现代方法。今年因新冠疫情在线举行,从6月28号到7月10号讲述了众多机器学习主题。本文推荐来自深度学习大佬Yoshua Bengio教授讲述《深度学习教程》,104页ppt系统性讲述了深度学习基础知识和最新进展,非常干货。

Yoshua Bengio

Yoshua Bengio,蒙特利尔大学教授。Bengio 教授凭《Learning Deep Architectures for AI》、《A neural probabilistic language model》两篇经典之作在内的 300 多篇论文,对深度学习的发展起到了巨大的推动作用,他与 Geoff Hinton、Yann LeCun 两位一起造就了 2006 年始的深度学习复兴,并称深度学习三巨头。Yoshua Bengio 教授于 2017 年获得加拿大总督功勋奖。

Bengio 教授研究人工智能的动力就是发掘它的潜能,而不是对它的恐惧。他的研究成果不仅是如今 AI 热浪的基石,也是加拿大在人工智能时代占据一席领导者位置的重要原因。「要让电脑能像人类那样思考,或者起码能像人类那样理解世界,我们现在离那一步还太远」,Bengio 教授说,「但是人工智能现在的发展已经足以对经济和人类的福祉产生巨大的影响。」

深度学习 AI

深度学习指的是用计算机模拟神经元网络,以此逐渐“学会”各种任务的过程,比如识别图像、理解语音甚或是自己做决策。这项技术的基础是所谓的“人工神经网络”,它是现代人工智能的核心元素。人工神经网络和真实的大脑神经元工作方式并不完全一致,事实上它的理论基础只是普通的数学原理。但是经过训练后的人工神经网络却可以完成很多任务,比如识别照片中的人物和物体,或是在几种主要语言之间互相翻译等等。

成为VIP会员查看完整内容
0
54

【导读】DeepMind开设了一系列深度学习课程。本次课讲述了深度学习计算机视觉。

继上一讲之后,DeepMind研究科学家Viorica Patraucean介绍了图像分类之外的经典计算机视觉任务(目标检测、语义分割、光流估计),并描述了每种任务的最新模型以及标准基准。她讨论了视频处理任务的类似模型,如动作识别、跟踪和相关挑战。她特别提到了最近提高视频处理效率的工作,包括使用强化学习的元素。接下来,她介绍了单模态和多模态(vision+audio, visio+language)自监督学习的各种设置,在这些设置中,大规模学习是有益的。最后,Viorica讨论了视觉中的开放问题,以及计算机视觉研究在构建智能代理这一更广泛目标中的作用。

成为VIP会员查看完整内容
0
43

【导读】DeepMind开设了一系列深度学习课程。本次课讲述了深度学习自然语言处理。

这个报告由DeepMind研究科学家菲利克斯·希尔(Felix Hill)主持,分为三个部分。首先,他讨论了用ANN建模语言的动机:语言是高度上下文相关的,典型的非组合性的,依赖于协调许多竞争的信息来源。本节还涵盖了Elman的发现结构在时间和简单递归网络,上下文和transformers的重要性。在第二部分,他探索了从Word2Vec到BERT的语言的无监督和表征学习。最后,Felix讨论了情景语言理解,基础和具体化语言学习。。

深度学习自然语言处理

成为VIP会员查看完整内容
0
33

过去10年,卷积神经网络彻底改变了计算机视觉。在这堂课中,DeepMind研究科学家Sander Dieleman通过几个案例研究,从90年代早期到目前的技术状态,对卷积网络架构进行了更深入的研究。他还回顾了一些目前常用的构建模块,讨论了训练深度模型的挑战,以及寻找有效架构的策略,重点关注图像识别。

成为VIP会员查看完整内容
0
37

借助现代的高容量模型,大数据已经推动了机器学习的许多领域的革命,但标准方法——从标签中进行监督学习,或从奖励功能中进行强化学习——已经成为瓶颈。即使数据非常丰富,获得明确指定模型必须做什么的标签或奖励也常常是棘手的。收集简单的类别标签进行分类对于数百万计的示例来说是不可能的,结构化输出(场景解释、交互、演示)要糟糕得多,尤其是当数据分布是非平稳的时候。

自监督学习是一个很有前途的替代方法,其中开发的代理任务允许模型和代理在没有明确监督的情况下学习,这有助于对感兴趣的任务的下游性能。自监督学习的主要好处之一是提高数据效率:用较少的标记数据或较少的环境步骤(在强化学习/机器人技术中)实现可比较或更好的性能。

自监督学习(self-supervised learning, SSL)领域正在迅速发展,这些方法的性能逐渐接近完全监督方法。

成为VIP会员查看完整内容
0
56

人类的视觉系统证明,用极少的样本就可以学习新的类别;人类不需要一百万个样本就能学会区分野外的有毒蘑菇和可食用蘑菇。可以说,这种能力来自于看到了数百万个其他类别,并将学习到的表现形式转化为新的类别。本报告将正式介绍机器学习与热力学之间的联系,以描述迁移学习中学习表征的质量。我们将讨论诸如速率、畸变和分类损失等信息理论泛函如何位于一个凸的,所谓的平衡曲面上。我们规定了在约束条件下穿越该表面的动态过程,例如,一个调制速率和失真以保持分类损失不变的等分类过程。我们将演示这些过程如何完全控制从源数据集到目标数据集的传输,并保证最终模型的性能。

成为VIP会员查看完整内容
0
61

课程介绍: 最近两年,注意力模型(Attention Model)被广泛使用在自然语言处理、图像识别及语音识别等各种不同类型的深度学习任务中,是深度学习技术中最值得关注与深入了解的核心技术之一,本课程从基础着手,由浅及深,详细介绍注意力神经网络。

主讲人: Xavier Bresson,人工智能/深度学习方面的顶级研究员,培训师和顾问。在“图深度学习”上的NeurIPS'17和CVPR'17(2019年顶级人工智能会议排名)上的演讲者,在剑桥,加州大学洛杉矶分校,布朗,清华,庞加莱,海德堡等地进行了30多次国际演讲。

课程大纲:

  • 神经网络
  • 神经网络sets
  • 记忆网络
  • Transformers
  • seq2seq Transformers
  • 语言模型Transformers
  • 图网络VS神经网络
  • 总结
成为VIP会员查看完整内容
0
71

报告题目: Attention in Deep learning

摘要:

注意力是非参数模型在深度学习中的关键机制。可以说,这是深度学习模型最新进展的基础。除了在神经机器翻译中介绍,它还可以追溯到神经科学。并且可以说是通过LSTMs的门控或遗忘机制引入的。在过去的5年里,注意力一直是推动自然语言处理、计算机视觉、语音识别、图像合成、解决旅行推销员问题或强化学习等领域的技术发展的关键。本教程对各种注意事项提供了一个连贯的概述,让其亲身体验如何复制和应用注意力机制,并且更深入地了解潜在的理论,详细展示了从最早的NWE到最新的Multiple Attention Heads的相关内容。

报告主要分为六个部分:

  1. Watson Nadaraya Estimator(NWE):最早的非参数回归(Nonparametric Regression)的工具之一,更具体地说是最早核回归技术(Kernel Regression Technique)由Nadaraya和Watson两人同时于1964年独立的提出。
  2. 池化 Pooling
    • 单目标 - 从池化 pooling 到注意力池化 attention pooling
    • 层次结构 - 分层注意力网络 Hierarchical attention network
  3. 迭代池化 Iterative Pooling
    • 问答 Question answering / 记忆网络 memory networks
  4. 迭代池化与生成器 Iterative Pooling and Generation
    • 神经机器翻译
  5. 多头注意力网络 Multiple Attention Heads
    • Transformers / BERT
    • Lightweight, structured, sparse
  6. 资源

邀请嘉宾:

Alexander J. Smola是亚马逊网络服务总监,2016年7月,加入了亚马逊网络服务(Amazon Web Services),打造人工智能和机器学习工具。主要研究兴趣包括深度学习:特别是状态更新、不变性和统计测试的算法;算法的可伸缩性、统计建模。

Aston Zhang是亚马逊网络服务人工智能的一名应用科学家。他的研究兴趣是深度学习。他在伊利诺伊大学香槟分校获得了计算机科学博士学位。他曾担任大数据前沿的编委会成员和ICML、NeurIPS、WWW、KDD、SIGIR和WSDM的项目委员会成员(审稿人)。他的书《深入学习》(Dive into Deep Learning)于2019年春季在加州大学伯克利分校(UC Berkeley)教授,并已被全世界用作教科书。

成为VIP会员查看完整内容
0
33
小贴士
相关论文
Relation-Aware Graph Attention Network for Visual Question Answering
Linjie Li,Zhe Gan,Yu Cheng,Jingjing Liu
3+阅读 · 2019年10月9日
Area Attention
Yang Li,Lukasz Kaiser,Samy Bengio,Si Si
4+阅读 · 2019年5月23日
Advances in Natural Language Question Answering: A Review
K. S. D. Ishwari,A. K. R. R. Aneeze,S. Sudheesan,H. J. D. A. Karunaratne,A. Nugaliyadde,Y. Mallawarrachchi
3+阅读 · 2019年4月10日
Hao Peng,Ankur P. Parikh,Manaal Faruqui,Bhuwan Dhingra,Dipanjan Das
3+阅读 · 2019年4月9日
Loris Bazzani,Tobias Domhan,Felix Hieber
3+阅读 · 2018年10月15日
QuAC : Question Answering in Context
Eunsol Choi,He He,Mohit Iyyer,Mark Yatskar,Wen-tau Yih,Yejin Choi,Percy Liang,Luke Zettlemoyer
4+阅读 · 2018年8月21日
Chiyuan Zhang,Oriol Vinyals,Remi Munos,Samy Bengio
7+阅读 · 2018年4月20日
Alexander Trott,Caiming Xiong,Richard Socher
4+阅读 · 2018年3月2日
Top