CS224n笔记18 挑战深度学习与自然语言处理的极限！ - 专知

会员服务 ·

0

CS224n笔记18 挑战深度学习与自然语言处理的极限！

2017 年 11 月 24 日 全球人工智能 码农网

——免费加入AI技术专家社群>>

——免费加入AI高管投资者群>>

——日薪5k-10k招兼职AI讲师>>

－－全国招募1000名AI推广大使>>

最后一课，总结了目前这两个领域中的难题，介绍了一些前沿研究：快16倍的QRNN、自动设计神经网络的NAS等。

深度学习已经漂亮地完成了许多单项任务，但如果我们继续随机初始化模型参数，我们永远也无法得到一个可以完全理解语言的系统。模型就像蒙住眼的狗，在高原上随机游走，头撞南墙。

Richard说他同样不相信独立的无监督学习能够救世（同意），虽然这个问题还存在许多争议。因为语言有许多监督与反馈，要完成的目标也多种多样。

在达到下一个层次的路上，摆在NLP面前有许多障碍。

障碍1：通用架构

没有单个模型能够胜任多个任务，所有模型要么结构不同，要么超参数不同。

hankcs.com 2017-07-14 上午10.23.25.png

上次介绍的DMN带来了曙光。

hankcs.com 2017-07-14 上午10.28.55.png

障碍2：联合多任务学习

上次也提到过，同一个decoder/classifier，对于不同的输入，只要替换encoder就能同样输出。

不像计算机视觉，只能共享低层参数
只在任务相关性很强的时候才会有帮助
否则会影响效果

解决方案

在第一课中提到的MetaMind团队提出的A Joint Many-Task Model: Growing a Neural Network for Multiple NLP Tasks，现在详细介绍。

hankcs.com 2017-07-14 上午10.44.24.png

这是个怪兽一般的模型，多层LSTM并联，从下往上看在文本颗粒度上是越来越大，在任务上是越来越复杂。由底而上分别是词性标注、CHUNK、句法分析、两个句子的相关性、逻辑蕴涵关系。输入可能是词，也可能是字符ngram。底层任务的隐藏状态有到其他层级的直接路径。相关性encoder的输出卷积一下，供逻辑关系分类器使用。

整个模型使用同一个目标函数。左右对称只是示意可以接受两个句子用于关联分析，其实是同一套参数。

模型细节

hankcs.com 2017-07-14 上午10.50.02.png

词性标注是单层LSTM，隐藏状态softmax一下，乘上label的embedding得到每个单词的pos embedding。将词性标注LSTM的隐藏状态、pos embedding和单词输入chunking的LSTM，执行类似的流程得到chunk的embedding。

依存句法分析

hankcs.com 2017-07-14 上午11.04.03.png

依然是单层LSTM，每个时刻同时接受下级的输入。每两个时刻的单词做一次softmax，判断它们的依存关系。理论上讲，该方法无法保证结果一定是合法的句法树，但Richard说99%的case都是合法的，加上一些剪枝规则后，可以拿到最高分数（虽然论文还未发表就被另一位同行超越了）。

语义联系

hankcs.com 2017-07-14 上午11.07.57.png

依然是类似的BiLSTM，多了个CNN max池化，过一层前馈神经网络，过一层softmax得到两个句子的语义联系。

训练

hankcs.com 2017-07-14 上午11.17.29.png

如果每个softmax都用交叉熵损失函数训练的话，效果并不好。这里用到了一种新奇的技巧叫做successive regularization，在某个上层任务的损失函数中，加入一个正则化项，限制下层任务的参数不要改变太多。

在训练的时候，从低层任务出发，先专注优化一个目标函数，假装上面的东西都不存在，逐步往上。（我觉得这并不是同一个目标函数）

结果

hankcs.com 2017-07-14 上午11.23.33.png

联合训练提高了每项任务的效果，任务数据越小，提升越显著。这是因为迁移学习的帮助越大。

大部分任务都拿到了最高分：

hankcs.com 2017-07-14 上午11.25.39.png

障碍3：预测从未见过的词语

以前课程也讲过，pointer copy机制：

hankcs.com 2017-07-14 上午11.35.29.png

原文：http://www.hankcs.com/nlp/cs224n-tackling-the-limits-of-dl-for-nlp.html

热门文章推荐

招聘｜AI学院长期招聘AI课程讲师（兼职）：日薪5k-10k

浙大才女：用人耳听不到的超声波（攻击）控制语音助手！

Science：最新发现哈希可能是大脑的通用计算原理！

厉害｜波士顿动力新版人形机器人Atlas，后空翻很完美！

吴恩达：AI论文已经够多了，赶紧“搞点事”吧！

厉害了！吉利宣布收购飞行汽车公司Terrafugia ！

周志华：实验表明gcForest是最好的非深度神经网络方法

黑科技｜Adobe出图象技术神器！视频也可以PS了！！

史上第一个被授予公民身份的机器人索菲亚和人对答如流！

浙大90后女黑客在GeekPwn2017上秒破人脸识别系统！

周志华点评AlphaGo Zero：这6大特点非常值得注意！

登录查看更多

2

相关内容

CS224N

斯坦福大学经典《自然语言处理cs224n》2020课件合集

斯坦福大学经典《自然语言处理cs224n》2020课件合集

专知会员服务

97+阅读 · 2020年5月25日

史上机器学习 &深度学习课程大合集，一站搞定，Deep Learning Drizzle

史上机器学习 &深度学习课程大合集，一站搞定，Deep Learning Drizzle

专知会员服务

176+阅读 · 2020年5月10日

深度学习自然语言处理概述，216页ppt，Jindřich Helcl

深度学习自然语言处理概述，216页ppt，Jindřich Helcl

专知会员服务

216+阅读 · 2020年4月26日

深度学习自然语言处理进展综述论文

专知会员服务

201+阅读 · 2020年3月6日

Transformer文本分类代码

Transformer文本分类代码

专知会员服务

118+阅读 · 2020年2月3日

【MIT深度学习课程】深度序列建模，Deep Sequence Modeling

【MIT深度学习课程】深度序列建模，Deep Sequence Modeling

专知会员服务

78+阅读 · 2020年2月3日

花书《深度学习》笔记，深度学习规则，帮你抓住精髓！(附下载)

花书《深度学习》笔记，深度学习规则，帮你抓住精髓！(附下载)

专知会员服务

62+阅读 · 2019年12月25日

【课程推荐】普林斯顿陈丹琦COS 484: 自然语言处理课程

【课程推荐】普林斯顿陈丹琦COS 484: 自然语言处理课程

专知会员服务

85+阅读 · 2019年12月11日

深度学习自然语言处理综述，266篇参考文献

深度学习自然语言处理综述，266篇参考文献

专知会员服务

231+阅读 · 2019年10月12日

神经网络与深度学习，复旦大学邱锡鹏老师

神经网络与深度学习，复旦大学邱锡鹏老师

专知会员服务

121+阅读 · 2019年9月24日

赛尔笔记 | 自然语言处理中的迁移学习(下)

赛尔笔记 | 自然语言处理中的迁移学习(下)

AI科技评论

11+阅读 · 2019年10月21日

(2019)斯坦福CS224n深度学习自然语言处理课程(已开放Slides)

(2019)斯坦福CS224n深度学习自然语言处理课程(已开放Slides)

专知

15+阅读 · 2019年3月15日

斯坦福NLP组-2019-《CS224n: NLP与深度学习》-分享

斯坦福NLP组-2019-《CS224n: NLP与深度学习》-分享

深度学习与NLP

7+阅读 · 2019年1月14日

独家 | 带学斯坦福CS224n自然语言处理课+带打全球AI挑战赛

独家 | 带学斯坦福CS224n自然语言处理课+带打全球AI挑战赛

专知

6+阅读 · 2018年11月25日

博客 | 斯坦福大学—自然语言处理中的深度学习（CS 224D notes-1）

博客 | 斯坦福大学—自然语言处理中的深度学习（CS 224D notes-1）

AI研习社

5+阅读 · 2018年11月19日

猿桌会总结 | 邹炎炎：语义分析介绍及跨语言信息在语义分析中的应用

猿桌会总结 | 邹炎炎：语义分析介绍及跨语言信息在语义分析中的应用

AI研习社

3+阅读 · 2018年10月4日

【手把手学习笔记】基于深度学习的自然语言处理（附实现代码）

【手把手学习笔记】基于深度学习的自然语言处理（附实现代码）

中国人工智能学会

7+阅读 · 2018年9月5日

干货｜从LSTM到Seq2Seq

干货｜从LSTM到Seq2Seq

全球人工智能

15+阅读 · 2018年1月9日

干货｜挑战深度学习与自然语言处理的极限！

干货｜挑战深度学习与自然语言处理的极限！

数盟

3+阅读 · 2018年1月8日

自然语言处理中的深度学习发展史和待解难题

自然语言处理中的深度学习发展史和待解难题

量子位

4+阅读 · 2017年7月31日

Tutorial on NLP-Inspired Network Embedding

Tutorial on NLP-Inspired Network Embedding

Arxiv

7+阅读 · 2019年10月16日

How to Fine-Tune BERT for Text Classification?

How to Fine-Tune BERT for Text Classification?

Arxiv

13+阅读 · 2019年5月14日

Generalizing Across Multi-Objective Reward Functions in Deep Reinforcement Learning

Generalizing Across Multi-Objective Reward Functions in Deep Reinforcement Learning

Arxiv

5+阅读 · 2018年9月17日

Notes on Deep Learning for NLP

Arxiv

22+阅读 · 2018年8月30日

Relational Deep Reinforcement Learning

Arxiv

5+阅读 · 2018年6月5日

Generative Stock Question Answering

Arxiv

6+阅读 · 2018年4月21日

Complex Network Classification with Convolutional Neural Network

Arxiv

6+阅读 · 2018年4月8日

Recent Trends in Deep Learning Based Natural Language Processing

Arxiv

7+阅读 · 2018年2月20日

Attention Is All You Need

Arxiv

27+阅读 · 2017年12月6日

SeqGAN: Sequence Generative Adversarial Nets with Policy Gradient

Arxiv

5+阅读 · 2017年8月25日

VIP会员

相关主题

自然语言处理

长短期记忆网络

计算机科学

相关VIP内容

斯坦福大学经典《自然语言处理cs224n》2020课件合集

斯坦福大学经典《自然语言处理cs224n》2020课件合集

专知会员服务

97+阅读 · 2020年5月25日

史上机器学习 &深度学习课程大合集，一站搞定，Deep Learning Drizzle

史上机器学习 &深度学习课程大合集，一站搞定，Deep Learning Drizzle

专知会员服务

176+阅读 · 2020年5月10日

深度学习自然语言处理概述，216页ppt，Jindřich Helcl

深度学习自然语言处理概述，216页ppt，Jindřich Helcl

专知会员服务

216+阅读 · 2020年4月26日

深度学习自然语言处理进展综述论文

专知会员服务

201+阅读 · 2020年3月6日

Transformer文本分类代码

Transformer文本分类代码

专知会员服务

118+阅读 · 2020年2月3日

【MIT深度学习课程】深度序列建模，Deep Sequence Modeling

【MIT深度学习课程】深度序列建模，Deep Sequence Modeling

专知会员服务

78+阅读 · 2020年2月3日

花书《深度学习》笔记，深度学习规则，帮你抓住精髓！(附下载)

花书《深度学习》笔记，深度学习规则，帮你抓住精髓！(附下载)

专知会员服务

62+阅读 · 2019年12月25日

【课程推荐】普林斯顿陈丹琦COS 484: 自然语言处理课程

【课程推荐】普林斯顿陈丹琦COS 484: 自然语言处理课程

专知会员服务

85+阅读 · 2019年12月11日

深度学习自然语言处理综述，266篇参考文献

深度学习自然语言处理综述，266篇参考文献

专知会员服务

231+阅读 · 2019年10月12日

神经网络与深度学习，复旦大学邱锡鹏老师

神经网络与深度学习，复旦大学邱锡鹏老师

专知会员服务

121+阅读 · 2019年9月24日

热门VIP内容

开通专知VIP会员享更多权益服务

新型数字杀伤链：理解综合战术网络对野战炮兵体系的能力与效益

《对抗环境中运用数字孪生技术优化预测性维护与后勤保障》2025最新93页

《任务式指挥十六个案例研究》232页

《幻觉还是事实：国防大型语言模型的可信度评估研究》2025最新109页

相关资讯

赛尔笔记 | 自然语言处理中的迁移学习(下)

赛尔笔记 | 自然语言处理中的迁移学习(下)

AI科技评论

11+阅读 · 2019年10月21日

(2019)斯坦福CS224n深度学习自然语言处理课程(已开放Slides)

(2019)斯坦福CS224n深度学习自然语言处理课程(已开放Slides)

专知

15+阅读 · 2019年3月15日

斯坦福NLP组-2019-《CS224n: NLP与深度学习》-分享

斯坦福NLP组-2019-《CS224n: NLP与深度学习》-分享

深度学习与NLP

7+阅读 · 2019年1月14日

独家 | 带学斯坦福CS224n自然语言处理课+带打全球AI挑战赛

独家 | 带学斯坦福CS224n自然语言处理课+带打全球AI挑战赛

专知

6+阅读 · 2018年11月25日

博客 | 斯坦福大学—自然语言处理中的深度学习（CS 224D notes-1）

博客 | 斯坦福大学—自然语言处理中的深度学习（CS 224D notes-1）

AI研习社

5+阅读 · 2018年11月19日

猿桌会总结 | 邹炎炎：语义分析介绍及跨语言信息在语义分析中的应用

猿桌会总结 | 邹炎炎：语义分析介绍及跨语言信息在语义分析中的应用

AI研习社

3+阅读 · 2018年10月4日

【手把手学习笔记】基于深度学习的自然语言处理（附实现代码）

【手把手学习笔记】基于深度学习的自然语言处理（附实现代码）

中国人工智能学会

7+阅读 · 2018年9月5日

干货｜从LSTM到Seq2Seq

干货｜从LSTM到Seq2Seq

全球人工智能

15+阅读 · 2018年1月9日

干货｜挑战深度学习与自然语言处理的极限！

干货｜挑战深度学习与自然语言处理的极限！

数盟

3+阅读 · 2018年1月8日

自然语言处理中的深度学习发展史和待解难题

自然语言处理中的深度学习发展史和待解难题

量子位

4+阅读 · 2017年7月31日

相关论文

Tutorial on NLP-Inspired Network Embedding

Tutorial on NLP-Inspired Network Embedding

Arxiv

7+阅读 · 2019年10月16日

How to Fine-Tune BERT for Text Classification?

How to Fine-Tune BERT for Text Classification?

Arxiv

13+阅读 · 2019年5月14日

Generalizing Across Multi-Objective Reward Functions in Deep Reinforcement Learning

Generalizing Across Multi-Objective Reward Functions in Deep Reinforcement Learning

Arxiv

5+阅读 · 2018年9月17日

Notes on Deep Learning for NLP

Arxiv

22+阅读 · 2018年8月30日

Relational Deep Reinforcement Learning

Arxiv

5+阅读 · 2018年6月5日

Generative Stock Question Answering

Arxiv

6+阅读 · 2018年4月21日

Complex Network Classification with Convolutional Neural Network

Arxiv

6+阅读 · 2018年4月8日

Recent Trends in Deep Learning Based Natural Language Processing

Arxiv

7+阅读 · 2018年2月20日

Attention Is All You Need

Arxiv

27+阅读 · 2017年12月6日

SeqGAN: Sequence Generative Adversarial Nets with Policy Gradient

Arxiv

5+阅读 · 2017年8月25日

大家都在搜

大型语言模型

IJCAI2025教程

无人机系统

软件无线电

无人机航拍交通事故现场勘查处置系统——行业第一的警用事故处理软件

微信扫码咨询专知VIP会员