LSTM之父粉丝猛怼 Hinton：五篇主要深度学习论文未引用Jürgen早期工作！

会员服务 ·

LSTM之父粉丝猛怼 Hinton：五篇主要深度学习论文未引用Jürgen早期工作！

2019 年 11 月 30 日 新智元

新智元报道

来源：Reddit

编辑：小芹、鹏飞

【新智元导读】Reddit有人爆料，深度学习大神Hinton的五篇主要深度学习论文都没有引用Jürgen Schmidhuber早期的相关工作。Jürgen是LSTM之父、著名深度学习专家，然而其知名度远不及“深度学习三巨头”，再次引起业界热议。你怎么看？来新智元AI朋友圈和AI大咖们一起讨论吧。

今天，一篇帖子打破了Reddit机器学习板块的平静：Geoff Hinton的五篇主要深度学习论文都没有引用Jürgen Schmidhuber早期的相关工作。

Jürgen Schmidhuber是LSTM 的发明人、著名深度学习专家。事情缘起于Jürgen上个月发表的一篇长文《Deep Learning: Our Miraculous Year 1990-1991》，他详细论述了近30年前，即1990~1991年之间他和团队进行的许多研究，并称这一年为“奇迹之年”。

新智元对这篇文章进行了翻译介绍，请参考：

世界欠他一个图灵奖！LSTM之父的深度学习“奇迹之年”

帖主自称是Jürgen“真正的粉丝”，他提到Jürgen的“奇迹之年”文章，指出：请看第1、2、8、9、10节，Jürgen提到了他们在Hinton之前很久做的工作，但Hinton都没有引用，这些研究的参考文献证实了这一点，乍一看，它并不明显，是隐藏的，必须要从参考文献中回溯才能发现。

帖主一一列举：

在“第1节，第一个非常深的神经网络，基于无监督预训练 (1991)”Jürgen“通过对RNN的层次结构进行无监督的预训练，促进了深度RNN的有监督的学习”，并且很快就能够“解决以前无法解决的深度学习任务，神经网络的层数超过了 1000 层”，他提到参考文献[UN4]，实际上是Hinton后来的类似工作：

这项工作发表十多年后，一种用于更有限的前馈神经网络的类似方法出现了，称为深度置信网络 (DBN)。该论文的证明基本上就是我在 1990 年代早期为我的 RNN 堆栈使用的证明：每一个更高的层都试图减少下面层中数据表示的描述长度 (或负对数概率)。

在那个时候，无监督的预训练是一件大事，而现在已经不那么重要了。请参阅第19节“从无监督预训练到纯粹监督学习 (1991-95 和 2006-11)”

在“第 2 节：将神经网络压缩 / 蒸馏成另一个 (1991)”，Jürgen还训练了“一个学生NN来模仿教师NN的行为”，简要提到了Geoff后来的类似工作[DIST2]：

我称之为将一个网络的行为 “collapsing” 或 “compressing” 到另一个。今天，这个概念已经被广泛使用，也被称为将教师网络的行为 “蒸馏”(distilling) 或 “克隆” 到学生网络。

在“第 9 节：通过神经网络学习序列注意力 (1990)”，Jürgen写道：我们已经有了两种现在常见的神经序列注意力类型：通过神经网络中的乘法单元来实现端到端可微分的 “软” 注意力，以及在强化学习环境下的 “硬” 注意力。博客上提到后来的大量后续工作都基于此，包括Hinton类似工作[ATT3]：

我在CMSS 1990 [ATT2]上发表的概述论文总结了我们有关注意力的早期工作，据我所知，这是第一个已实现的神经系统，用于结合glimpses，共同训练识别和预测组件与注意力组件。二十年后，我1990年论文的审稿人写了他自己作为相关论文[ATT3]：“据我们所知，这是第一个将glimpses结合在一起的可实现系统，共同训练识别组件…注意力组件。”

与第10节“分层强化学习 (1990)”类似，Jürgen介绍了HRL“使用端到端可微的基于NN的子目标生成器HRL0，以及使用循环的NN学习生成子目标序列[HRL1] [HRL2]”，提到了Hinton后期的工作HRL3:

不久之后，其他人也开始发表HRL的文章。例如，我们参考文献[ATT2]的审稿人是参考文献 [HRL3]的作者(该审稿人在第6节中总结了我们关于HRL的早期工作)。

“第 8 节：端到端可微快速权重：让神经网络学习编程神经网络 (1991)”中，Jürgen发布了一个网络“通过梯度下降学习以快速操作另一个网络的快速权重存储”，和“主动控制快速的权重通过二维张量或外部产品更新权重”，指向的[FAST4a]论文恰好是Hinton后来的论文:

四分之一个世纪后，其他人也采用了这种方法[FAST4a]

帖主总结道：

确实，Hinton并没有在任何类似的论文中引用Jürgen，更有点疯狂的是，他是Jürgen 1990年的论文[ATT2]的编辑，该论文总结了注意力学习和分层RL，之后他发表了相关的论文，但是他没有引用Jürgen。

Jürgen还有一个著名的抱怨，即Hinton在《自然》杂志上发表的深度学习综述既没有提到反向传播的发明者(1960-1970)，也没有提到“深度学习之父Alexey Grigorevich Ivakhnenko”，后者在1965年发表了首个适用于深度网络的通用学习算法。

除了Ivaknenko和Fukushima等六七十年代早期的先行者外，大多数深度学习的概念都来自于Jürgen与Sepp、 Alex和Dan等人的团队：深度网络的无监督预训练，人工好奇心和GAN，梯度消失，语言处理和语音的LSTM，蒸馏网络，注意力学习，赢得视觉比赛的CUDA CNN, 100层以上的深度网络，meta-learning，以及optimal AGI和Godel Machine的理论工作。

Jürgen 表示，深度学习革命背后的许多基本思想，是在 1990~1991 年不到 12 个月的时间里，在慕尼黑理工大学 (TU Munich) 产生的，而这些思想为当今的许多深度学习前沿研究奠定了基础，包括 LSTM、元学习、注意力机制和强化学习等。

Jürgen 称这一年为 “奇迹之年”。尽管当时他们发表的工作几乎无人问津，但四分之一个世纪后，基于这些想法的神经网络不断得到改进，其应用出现在智能手机等 30 多亿设备、每天被使用数十亿次，在全世界消耗大量的计算资源。

在 AI 领域，深度学习三巨头 Geoffrey Hinton、Yoshua Bengio 和 Yann LeCun 人尽皆知，Jürgen Schmidhuber 的知名度却远不及三人，尽管他发明的 LSTM 被认为是教科书级别的贡献。他是被图灵奖遗忘的大神。在Hinton等三巨头获图灵奖之时，Jürgen却得到了很大的呼声：“为什么Jürgen没有得图灵奖？”

除了 LSTM 之外，Jürgen Schmidhuber “引以为傲” 的还有他在 1992 年提出的 PM（Predictability Minimization）模型。他坚持认为现在大火的 GAN 就是 PM 的变种，两者的区别就在于方向是反的，为此，Jürgen 还和 GAN 的提出者 Ian Goodfellow 有过线上线下激烈的交锋，引起业界广泛讨论。

至于对深度学习三巨头 Hinton、Bengio 和 LeCun，Jürgen Schmidhuber 也打过几轮口水仗，认为三人在自己的圈子里玩，对深度学习领域其他更早期先驱人物的贡献则只字不提。

Reddit热议：Schmidhuber太过领先于时代

很多你以为新的东西其实早就存在了

feelings_arent_facts：我也一直在谈论DeepMind。DeepMind（和OpenAI）的发现并不比学术文献中已经发现的更新。他们只是碰巧拥有一支强大的前端和设计团队，以使其广为宣传，并为大众所用而已。

NER0IDE：例如DQN。以前很多人已经将函数逼近应用于Q网络。他们确实添加了一些技巧来使学习更加稳定，但是这个想法并不新鲜。

glockenspielcello：这是我认为人们会误会的地方。实际上，作为一个工程研究机构，DeepMind在许多方面其实更像个纯粹的科研机构。是的，他们并不一定在概念上取得任何突破，但这并不会减少使系统真正发挥作用的工程实践的价值。

之所以没有引用你的工作，是有客观原因的！

NewFolgers：电灯泡是两个人在同一天发明的。电话也是如此。随着GPU的处理技术的进步，2000年代末开始了深度学习的真正曙光，随后不久便开始了爆炸式增长。

我不是要淡化Schmidhuber和他的团队的才华和创新。我认为Schmidhuber及其团队的作品未得到足够重视的原因，是因为它太过领先于时代。任何领先时代的产物都需要从战略上重新审视。

相比图灵奖得主的影响力，我认为Schmidhuber及其团队成果的影响力微乎其微。从一个游戏开发人员的角度来看，这种情况一直存在。尤其是在ML不断加速行业工具和知识迭代的今天，我们要的是在最快的时间、找到正需要的东西。

Henry__Gondorff：我完全可以理解他的沮丧。由于我们的科学家没有得到足够的报酬，因此认可我们的工作就是对我们的最大奖赏。

但是，从他那里读到的内容来看，我必须说，我完全可以理解为什么他未被认可！他的作品（至少对我来说）很难理解，而且他经常将事情的“相似性”延伸得很远，与Goodfellow的互动就是一个很好的例子。科学不仅与发现有关，让其他科学家了解您的工作同样重要。在这一方面，他显然缺乏。

另外：，为什么像Hinton，Goodfellow等几乎所有的天才都拒绝了他的主张？是阴谋反对他吗？不，他们没有理由这样做。或者，更可能的一种推测是：他们都读了他的著作而忽略了它，因为它还不够重要。

另一个可能的原因是影响力会随着时间的流逝“衰落”。即使他提出了所有这些东西，都太久远了。人们的注意力跨度很短，旧的东西很快就会被人遗忘，这就是世界运转的方式。

以我个人的观点：假设Schmidhuber确实是一位出色的科学家，他也是有点自大狂妄（我想即使是他的粉丝也不能否认这一点）如果不是这次事件，可能没有人会知道他的名字。

并且，滥用审稿人的职位，来迫使另一位科学家引用你的那些显然无关的工作，是一件恶心的事情。

参考链接：https://www.reddit.com/r/MachineLearning/comments/e3buo3/d_five_major_deep_learning_papers_by_geoff_hinton/

寒冬里，这个最酷AI创新平台招人啦！新智元邀你2020勇闯AI之巅

在新智元你可以获得：

与国内外一线大咖、行业翘楚面对面交流的机会
掌握深耕人工智能领域，成为行业专家
远高于同行业的底薪
五险一金＋月度奖金＋项目奖励＋年底双薪
舒适的办公环境（北京融科资讯中心B座）
一日三餐、水果零食

新智元邀你2020勇闯AI之巅，岗位信息详见海报：

登录查看更多

相关内容

Hinton

关注 0

Yoshua Bengio最新《深度学习》MLSS2020教程，附104页PPT及视频

专知会员服务

134+阅读 · 2020年7月10日

【ICML2020-华为港科大】RNN和LSTM有长期记忆吗？

专知会员服务

78+阅读 · 2020年6月25日

近期必读的六篇顶会 ICML 2020【图神经网络 (GNN) 】相关论文

专知会员服务

143+阅读 · 2020年6月23日

【快讯】ICML 2020论文出炉，1088篇上榜，你的paper中了吗？

专知会员服务

52+阅读 · 2020年6月1日

【ICML2020投稿论文-DeepMind】时序差分学习的推理与泛化，Temporal Difference Learning

专知会员服务

26+阅读 · 2020年3月16日

GeoffreyHinton-ICML2020投稿论文-偏转对抗攻击 Deflecting Adversarial Attacks

专知会员服务

24+阅读 · 2020年2月22日

【反馈循环自编码器】FEEDBACK RECURRENT AUTOENCODER

专知会员服务

23+阅读 · 2020年1月28日

【深度学习基础原理十日谈】《10 Days Of Grad: Deep Learning From The First Principles》by Bogdan Penkovsky

专知会员服务

26+阅读 · 2020年1月23日

【资源推荐】深度学习技巧速查清单《CS 230 - Deep Learning Tips and Tricks Cheatsheet》by Afshine Amidi, Shervine Amidi

专知会员服务

27+阅读 · 2019年12月19日

【课程】Geoffrey Hinton《神经网络机器学习》经典课程，附课程PPT下载

专知会员服务

46+阅读 · 2019年11月4日

Hinton号召AI革命：重头再来；李飞飞等赞成：深度学习不是唯一

中国人工智能学会

17+阅读 · 2019年6月19日

Geoffrey Hinton 大神面向机器学习的神经网络公开课及相关视频资料

AINLP

7+阅读 · 2019年1月19日

乱！Bengio一席话引发Marcus与LeCun「舌战」，还有DL帝国主义？

机器之心

4+阅读 · 2018年11月23日

放弃深度学习，Hinton提出Capsule计划

德先生

3+阅读 · 2018年1月2日

深度学习基础之LSTM

全球人工智能

28+阅读 · 2017年12月18日

Geffory Hinton的“胶囊”里到底装的什么“药”？

AI前线

4+阅读 · 2017年11月17日

从PM到GAN——LSTM之父Schmidhuber横跨22年的怨念

AI研习社

6+阅读 · 2017年11月11日

大神Geoffrey Hinton那篇备受关注的Capsule论文终于公开了

数据玩家

13+阅读 · 2017年10月28日

【深度】浅析Geoffrey Hinton最近提出的Capsule计划

专知

4+阅读 · 2017年9月25日

重磅！Geoffrey Hinton提出capsule 概念，推翻反向传播！

人工智能学家

7+阅读 · 2017年9月17日

Attend More Times for Image Captioning

Arxiv

6+阅读 · 2018年12月8日

Reversible Recurrent Neural Networks

Arxiv

3+阅读 · 2018年10月25日

Learning with Interpretable Structure from RNN

Arxiv

19+阅读 · 2018年10月25日

DARTS: Differentiable Architecture Search

Arxiv

3+阅读 · 2018年6月24日

Deep Reinforcement Learning: An Overview

Arxiv

15+阅读 · 2018年6月23日

Learning a Robust Society of Tracking Parts using Co-occurrence Constraints

Arxiv

4+阅读 · 2018年4月5日

Mono-Camera 3D Multi-Object Tracking Using Deep Learning Detections and PMBM Filtering

Arxiv

10+阅读 · 2018年2月27日

Recurrent Residual Convolutional Neural Network based on U-Net (R2U-Net) for Medical Image Segmentation

Arxiv

13+阅读 · 2018年2月20日

Learning Intrinsic Sparse Structures within Long Short-Term Memory

Arxiv

4+阅读 · 2018年1月30日

Learning Hierarchical Features for Visual Object Tracking with Recursive Neural Networks

Arxiv

13+阅读 · 2018年1月6日

VIP会员