深度学习2017成果展

2017 年 12 月 26 日 论智 Bing

来源：Statsbot

编译：Bing

编者按：圣诞节前夕，数据公司Statsbot对过去一年（也许更久）深度学习领域的成果做了总结，全文共分为6部分，分别是文本、语音、计算机视觉、GAN、强化学习、新闻、投资。以下是论智对原文的编译，让我们看看深度学习2017年的成绩如何。

注：文中涉及到的论文、代码链接可点击「阅读原文」查看。

文本

1.1 谷歌神经机器翻译

去年9月，谷歌发布了新一代机器翻译模型，并详细介绍了该网络的架构——循环神经网络（RNN）。

最终，该模型在翻译的准确度上与人类缩小了55%~85%的差距（由人类打分，满分为6）。如果没有谷歌庞大的数据集，这个模型很难重现良好的结果。

1.2 聊天机器人的“谈判”

前段时间，Facebook的聊天机器人因为“创建了自己的语言”被紧急关闭的新闻让许多人惶恐了一阵子。这个聊天机器人是Facebook用于谈判而创建的，它的目的是与另一个agent进行文本谈判并达成协议，即如何将一物品分成两部分。每个agent在谈判中都有自己的目标，但另一个却不知道那是什么。交易没有达成，谈判就不可能结束。

为了训练这个聊天机器人，他们收集了一些人类谈判的数据，并训练了一个监督式循环网络。然后，他们训练一个受过强化学习训练的agent，让它跟自己对话，前提是要模仿人类说话的方式。

机器人已经学会了谈判策略的中一个技巧，那就是它会假装对交易的某些方面感兴趣，但最后会放弃以便达到它真正的目的。这是人们第一次尝试创建这样的聊天机器人，而且非常成功。

当然了，说机器人自创了语言完全是夸张的说法，当机器人与同样的agent训练时，它们就无法以人类说话的方式运行了，算法在这一过程中会修改语言，是很正常的。

过去一年，循环神经网络在许多人物和应用中都有所体现。RNN的架构也变得越来越复杂，但是在一些领域，利用简单的前馈网络——DSSM也可以获得类似的结果。谷歌之前将LSTM用于“智能回复”也收到了不错的效果。此外，Yandex还基于这样的网络推出了一个新的搜索引擎。

语音

2.1 WaveNet：原始音频的生成模型

DeepMind在一篇文章中介绍了该模型的原理。简而言之，研究人员基于之前图像生成的方法（PixelRNN和PixelCNN）制作了一个自回归全卷积WaveNet模型。

相关阅读：DeepMind解密WaveNet，如何让机器人自然发声

该网络是端到端训练：输入文本，输出音频。最终合成人声与真人的声音差距缩小了50%。

但是，网络的主要缺点就是生产率低，因为是自回归，声音是按照字的顺序生成的，所以制作一秒长的音频往往需要1~2分钟。

若只让网络依靠之前产生的音素生成语音而不依靠文本，网络虽然会产生类似人类的声音，但却毫无意义。

这种模式不仅适用于演讲，也适合音乐创造。想像一下，使用钢琴游戏的数据集训练出的神经网络可以教模型弹奏出一首钢琴曲。

如果你有兴趣，请点击「阅读原文」阅读DeepMind研究的完整版本。

2.2 唇语识别

唇语辨识（lip reading）是深度学习战胜人类的又一巨大成果。

去年十一月，谷歌DeepMind联合牛津大学共同发文Lip Reading Sentence in the Wild，介绍了他们利用从电视上收集到的数据集训练了一个模型，能够超越BBC的专业唇读者。

数据集中共有10万个带有音频和视频的句子，他们将LSTM用于音频，CNN和LSTM用于视频。这两个状态向量被反馈到最终的LSTM，产生结果（字符）。

训练时输入了不同类型的数据：音频、视频还有音频与视频的结合。换句话说，这是一个”多渠道“的模型。

2.3 合成奥巴马：从音频中同步合成唇部动作

华盛顿大学的研究人员利用神经网络“伪造”奥巴马的演讲视频。至于为什么选择奥巴马呢？因为网上奥巴马的在线视频数量巨大，适合用于训练。

计算机视觉

3.1 OCR：谷歌地图和街景

在谷歌的博文和论文中，谷歌大脑团队介绍了他们的用于地图上的新型光学字符识别（OCR）引擎，利用其新技术，可以识别路标和店名。

在开发过程中，团队创建了一个新的法国街道名称标志（FSNS）数据集，其中包含许多复杂的样本。

为了识别每个标志，神经网络最多使用四张图片，通过CNN提取特征后利用空间注意进行缩放（包括像素坐标），并将结果反馈到LSTM。

识别店铺招牌上的名称也用了同样的方法，虽然其中会有很多噪音数据，但是网络不会受其影响。这一算法已经应用于800亿张照片中了。

3.2 视觉推理

视觉推理任务要求神经网络通过照片来回答问题。例如：“图中是否有和黄色金属圆柱尺寸相同的橡胶物体？”这种问题直到最近才由DeepMind解决（没错又是DeepMind），但准确率只有68.5%。论文：A simple neural network module for relational reasoning。

网络的架构十分有趣：

在文本问题上适用预先训练好的LSTM，我们得到了问题的嵌入；
使用只有四层的CNN和图片，我们得到了含有图片特征信息的地图；
在特征地图上形成坐标图的成对组合（下图中黄色蓝色红色区域），并对每组添加坐标和文本嵌入。
将三个组合通过另一个网络并汇总；
最终的表征是通过另一个前馈网络运行的，它提供了softmax的答案。

3.3 Pix2Code

Uizard公司创造了一个有趣的神经网络应用：根据界面设计者的屏幕截图生成一个布局代码。

这是个非常有用的神经网络应用，它能让软件开发的过程大大缩短。作者称它的精确度为77%。但是这款应用目前仍在研究中，而且还没有正式的反馈结果。另外，也没有开源代码放出，不过该公司保证会上传。

3.4 SketchRNN：教机器画画

论智君曾介绍过谷歌的“快画”小游戏，它会要求你在20秒内绘制各种对象的草图。谷歌团队在它们的博客和文章中表示，他们收集用户的画后形成数据集以教导神经网络作画。

数据集包含了7万个草图，它们不是图片，而是图画的向量表示。研究人员已经使用RNN作为编码和解码机制来训练seq2seq的变分自编码器（VAE）。

最终，为了适应自动编码器，该模型接收到刻画原始图像的隐向量。

尽管解码器可以从这个矢量中提取一幅图画，但你可以改变它重画一个草图。

甚至执行矢量算法创造出一个“猫猪”：

相关阅读：10亿幅画，让这个被调戏了一年的AI发现了一些人类的小秘密

3.5 GANs

生成对抗网络（GANs）是深度学习最热门的话题之一，大多数情况下，这个模型是用来处理图像的。

GANs的主要由两部分组成——生成器和判别器。前者创建图片，后者判断图片是真实的还是生成的。示意图如下：

在训练期间，来自随机向量的生成器产生图像并将其输入到判别器中，判别器会根据数据集中真实的图片来判断输入的图片是否是假的。

由于很难找到这两个网络的平衡点，所以这样的结构难以训练。大多数情况下都是判别器获胜，训练停止。但是，这个系统的好处在于，我们可以解决损失函数难以确定的问题（例如提高照片的质量）。

在这个项目中，系统利用向量生成人脸图片，你可以改变向量，看看脸部是如何变化的。

同样的算法在潜在空间中也有体现：“戴眼镜的男人”减去“男人”再加上“女人”等于“戴眼镜的女人。”

相关阅读：从零学习：生成敌对网络（GAN）入门指南

神奇GANs在哪里（一）

神奇GANs在哪里（二）

3.6 用GANs“换脸”

如果你在训练过程中教授潜在向量控制参数，那么在生成潜在向量时你可以更改它，并在图片中管理必要的图片。这种方法被称为条件GAN。

Face Aging with Conditional Generative Adversarial Networks的作者也是如此。用IMDB上已知年龄的演员做成数据集，训练引擎，可以改变一个人的面部年龄。

3.7 专业照片

谷歌利用GAN生成了一个有趣的应用——挑选并改善照片。在专业照片组成的数据集上训练后，GAN的生成器试图改善差图片，鉴别器来区分改进过的图片与真正的专业照片。

训练有素的谷歌街景算法在全景中搜索最佳场景，并生成了专业和半专业水准的照片。

3.8 从文本生成图片

GANs的另一个重要成果就是用文本生成图片。

这项研究的作者认为，不仅要将文本嵌入到（Conditional GAN的）生成器的输入中，还要将其嵌入到判别器中，以便验证文本与图片的一致性。为了保证判别器能学会执行它的功能，除了训练之外，他们还在实际图片中添加了不正确的文本对。

3.9 Pix2pix

2016年最引人注目的文章之一是BAIR的Image to Image Translation with Conditional Adversarial Networks。研究人员解决了图像到图像生成的问题。例如，用卫星图像创造地图或者用草图创建逼真的纹理。

这是另一个利用Conditional GAN完成任务的例子。在这种情况下，条件会应用于整个画面。作为生成器的体系结构，UNet在图像分割中很受欢迎。另外一个新的PatchGAN分类器被用作处理模糊图像的判别器（例如图像被切分称N个补丁，判断它们每个补丁是否来自真实的图片。

以及Christopher Hesse做的“恐怖猫”实验也引起了读者极大的兴趣。

3.10 CycleGAN

为了应用Pix2Pix，你需要一个与不同领域相对应的图片数据集。但是，如果你想做些更复杂的事，例如更换对象或者造型，那就无法简单地找到对应的对象。

因此，Pix2Pix的作者提出了能在不同域之间转换的CycleGAN，无需特定的组合。

这一过程是教两对GANs把图像从一个域传到另一个域，同时保持循环的一致性——在生成器产生应用之后得到一个类似于原始L1损失的图像。循环损失函数要确保生成器不只是开始将一个域的图像传送到另一个完全无关的图像中。

这一方法可以将马变成斑马。

不过有的时候也会失败……

3.11 肿瘤分子学的发展

机器学习正应用于医学，除了识别超声波、核磁共振并用于诊断外，还可以用来新药物对抗癌症。

在对抗自动编码器（AAE）的帮助下，你可以学习分子的潜在表征，然后用它来搜索新的分子。结果发现了69个分子，其中一半可以用来对抗癌症，其他的也有很大的潜力。

3.12 对抗攻击（Adversarial-attacks）

什么是对抗攻击？例如，在ImageNet上，当给被训练过的标准网络添加特定的噪声时，他们完全无法稳定。在下面的例子中，我们看到带有噪声的图片看起来几乎没有变化，但是模型却产生了剧烈的变化，最终的预测结果是一个跟大熊猫完全不相关的类别（长臂猿）。

例如，使用快速梯度符号法（FGSM）可以实现稳定性：通过改变模型的参数，你可以改变向目标类别进行一步或多步梯度改变，最终更改原始图片。

Kaggle的任务之一就与此相关：参赛者需要创造通用的攻击和防御，这些攻击和防御都是最终互相对立的，然后确定最好的。

我们为什么要研究这些攻击呢？首先，如果我们想保护我们的产品，我们可以向验证码中添加噪音，防止自动识别。其次，算法正越来越多地影响我们的生活，从面部识别到自动驾驶。在这种情况下，算法的缺点容易被攻击者利用。

有一个例子是，特殊的眼镜可以骗过面部识别系统，让它将你看作另一个人。所以，当训练模型的时候，我们需要考虑到可能受到的攻击。

这种符号的使用也不能让它们被正确识别。

一些文章：www.kaggle.com/c/nips-2017-non-targeted-adversarial-attack/discussion/35840

对抗攻击的库：

github.com/tensorflow/cleverhans

github.com/bethgelab/foolbox

强化学习

强化学习也是机器学习中最有趣、最有前景的发展方向之一。

这种方法的本质是agent通过在一个环境中得到奖励而学会的成功行为，就像人学习一样。

强化学习在游戏、机器人和系统管理（交通等）中被广泛使用。

AlphaGo的研究人员正是用强化学习训练机器人自我改进，才能在比赛中击败专业棋手。

4.1 强化训练与不受控制的辅助任务

在过去几年，DeepMind学习利用DQN玩街机游戏，表现得比人类更好。目前算法正教授机器玩更复杂的游戏，比如Doom。

研究人员的大部分精力都放在学习加速上，因为agent与环境的交互经验需要在GPU上训练好几个小时。

在他的博客中，DeepMind表示引入额外的损失（辅助任务）例如预测帧变化，以便agent更好地理解行为的后果，大大加速了学习速度。

4.2 学习机器人

OpenAI一直在研究让人类在虚拟环境中控制机器人，这样比在实际环境中更安全。

在其中一项研究中，OpenAI的团队证明了单次学习的可能性：一个人用VR展示如何完成一项特定任务，然后算法就能学会并在现实中重复这一动作。

4.3 学习人类的偏好

这是OpenAI和DeepMind共同合作的结果，agent有一个任务，算法提供了两个解决方案并让人类指出哪个更好。该过程需要不断地重复同时算法要学习如何解决该问题。

并且，人必须意识到他在教机器干什么。例如，评估者认为算法想让机器拿起这个物体，但实际上他只是在模拟这一动作。

4.4 在复杂环境中运动

DeepMind还教了机器人如何做一系列复杂的动作，比如走路、跳跃等等，甚至让它接近人类动作。你必须重视损失函数的选择，这将影响到期望的行为。然而，算法如果能依靠简单的奖励来学习复杂行为是更好的方法。

研究人员最终成功实现了这一目标：他们通过构建一个复杂的有障碍的环境并给予agent简单的奖励，就能教它学会执行复杂行为。

其他

5.1 数据中心冷却系统

2017年7月，谷歌宣布他们利用DeepMind在机器学习方面的成果降低了数据中心的能耗成本。

基于数据中心上千个传感器的信息，谷歌开发人员训练了一个集成的神经网络来预测电力使用效率（PUE）和更高效的数据中心管理。这是机器学习在实际中应用的一个重要例子。

5.2 多任务模型

训练过的模型很难转移到其他任务中去，因为每个任务都要有训练特定的模型。而谷歌大脑的研究人员发文：One Model To Learn The All，向通用模型迈出了一小步。

研究人员已经训练了一个模型，可以执行不同领域的八个任务（文本、语音和图像等）。例如，可以翻译不同语言、进行文本解析以及识别图像和声音。

为了实现这一目标，他们建立了一个复杂的网络结构，利用不同的块处理不同的输入数据并生成结果。编码器和解码器的块分为三种类型：卷积、注意和门控专家混合层（MoE）。

主要学习成果：

得到了几乎完美的模型（作者没有微调参数）；
不同领域之间可以进行知识转移，即在数据量大的任务中，性能表现几乎相同。小问题上表现得更好，例如解析。
不同任务所需模块不会相互干扰，有时甚至可以在ImageNet的MoE上发挥作用。

顺便说一句，该模型在tensor2tensor上运行。

5.3 一小时训练ImageNet

Facebook研究人员利用256个Tesla P100教授一个ResNet-50模型在一小时内训练完ImageNet。

他们使用Gloo和Caffe2进行分布式学习。为了让过程更有效，需要对学习策略进行大量调整，包括平均梯度、预热阶段、特殊学习等。

新闻

6.1 自动驾驶汽车

最近自动驾驶汽车上路测试的新闻频发，各大公司也是纷纷抢占头条。从英特尔收购Mobileye，到Uber和谷歌的丑闻等等。

值得关注的还有谷歌Waymo推出了beta版程序。另外，最近自动驾驶汽车已经被允许在美国所有州内行驶。

6.2 医疗保健

机器学习已经开始进入医疗领域。例如谷歌正与医疗中心合作，帮助医生诊断病情。DeepMind还建立了一个独立的医疗部门。

今年，在Data Science Bowl的项目之下又建立了一项肺癌预测竞赛，奖金为一百万美元。

6.3 投资

目前的机器学习就像当年的大数据，迎来了一波投资热潮。

中国在人工智能方面投资1500亿美元，成为全球行业的领先者。

百度研究院共有1300名员工，而Facebook研究院只有80名。另外，阿里巴巴公开了其内部的分布式平台——鲲鹏，能够用万亿个参数运行1000亿个样本。

原文地址：https://blog.statsbot.co/deep-learning-achievements-4c563e034257

登录查看更多

知识荟萃

精品入门和进阶教程、论文和代码整理等

查看相关VIP内容、论文、资讯等

【DeepMind硬核课】深度学习计算机视觉前沿进展，附124页ppt

专知会员服务

168+阅读 · 2020年6月30日

【DeepMind硬核课】深度学习自然语言处理前沿进展，附103页ppt

专知会员服务

135+阅读 · 2020年6月28日

【DeepMind硬核课】卷积神经网络图像识别前沿进展，附110页ppt与视频

专知会员服务

105+阅读 · 2020年6月27日

深度学习自然语言处理进展综述论文

专知会员服务

201+阅读 · 2020年3月6日

【综述】金融领域中的深度学习，附52页论文下载

专知会员服务

165+阅读 · 2020年2月27日

2019->2020必看的十篇「深度学习领域综述」论文

专知会员服务

275+阅读 · 2020年1月1日

完整版！《GAN实战：生成对抗网络深度学习》在线书与代码，牛津大学Jakub著作 (附下载)

专知会员服务

354+阅读 · 2019年12月25日

【强化学习】深度强化学习初学者指南

专知会员服务

184+阅读 · 2019年12月14日

最新49页《深度学习异常检测综述》论文，带你全面了解深度学习异常检测方法

专知会员服务

217+阅读 · 2019年10月18日

深度学习自然语言处理综述，266篇参考文献

专知会员服务

231+阅读 · 2019年10月12日

用深度学习做文本摘要

专知

24+阅读 · 2019年3月30日

深度学习循环神经网络详解

七月在线实验室

16+阅读 · 2018年5月28日

2017年深度学习总结：文本和语音应用

专知

3+阅读 · 2018年2月4日

2017年你错过了哪些AI圈大事？最全盘点，值得收藏！

大数据文摘

5+阅读 · 2018年2月2日

8个深度学习方面的最佳实践

深度学习世界

10+阅读 · 2018年1月25日

盘点深度学习一年来在文本、语音和视觉等方向的进展，看强化学习如何无往而不利

AI100

3+阅读 · 2017年12月24日

【深度学习】从Pix2Code到CycleGAN：2017年深度学习重大研究进展全解读

产业智能官

3+阅读 · 2017年12月23日

深度学习领域四个不可不知的重大突破

深度学习世界

4+阅读 · 2017年12月22日

2017年深度学习重大研究进展全解读

深度学习世界

3+阅读 · 2017年12月22日

深度学习在计算机视觉领域的前沿进展

我爱机器学习

11+阅读 · 2017年1月7日

Meta-Transfer Learning for Zero-Shot Super-Resolution

Arxiv

43+阅读 · 2020年2月27日

A Probe into Understanding GAN and VAE models

Arxiv

9+阅读 · 2018年12月13日

You May Not Need Attention

Arxiv

4+阅读 · 2018年10月31日

CoQA: A Conversational Question Answering Challenge

Arxiv

7+阅读 · 2018年8月21日

Video-to-Video Synthesis

Arxiv

9+阅读 · 2018年8月20日

CNN+CNN: Convolutional Decoders for Image Captioning

Arxiv

21+阅读 · 2018年5月23日

High-Resolution Deep Convolutional Generative Adversarial Networks

Arxiv

8+阅读 · 2018年1月27日

PointCNN

Arxiv

8+阅读 · 2018年1月25日

Depth-Adaptive Computational Policies for Efficient Visual Tracking

Arxiv

8+阅读 · 2018年1月1日

Fully Convolutional Networks for Semantic Segmentation

Arxiv

3+阅读 · 2015年3月8日

VIP会员