CS224n笔记18 挑战深度学习与自然语言处理的极限!

2017 年 11 月 24 日 全球人工智能 码农网


——免费加入AI技术专家社群>>

——免费加入AI高管投资者群>>

——日薪5k-10k招兼职AI讲师>>

--全国招募1000名AI推广大使>>

最后一课,总结了目前这两个领域中的难题,介绍了一些前沿研究:快16倍的QRNN、自动设计神经网络的NAS等。


深度学习已经漂亮地完成了许多单项任务,但如果我们继续随机初始化模型参数,我们永远也无法得到一个可以完全理解语言的系统。模型就像蒙住眼的狗,在高原上随机游走,头撞南墙。

Richard说他同样不相信独立的无监督学习能够救世(同意),虽然这个问题还存在许多争议。因为语言有许多监督与反馈,要完成的目标也多种多样。

在达到下一个层次的路上,摆在NLP面前有许多障碍。

障碍1:通用架构 

没有单个模型能够胜任多个任务,所有模型要么结构不同,要么超参数不同。

上次介绍的DMN带来了曙光。

障碍2:联合多任务学习

上次也提到过,同一个decoder/classifier,对于不同的输入,只要替换encoder就能同样输出。

  • 不像计算机视觉,只能共享低层参数

  • 只在任务相关性很强的时候才会有帮助

  • 否则会影响效果

解决方案

在第一课中提到的MetaMind团队提出的A Joint Many-Task Model: Growing a Neural Network for Multiple NLP Tasks,现在详细介绍。

这是个怪兽一般的模型,多层LSTM并联,从下往上看在文本颗粒度上是越来越大,在任务上是越来越复杂。由底而上分别是词性标注、CHUNK、句法分析、两个句子的相关性、逻辑蕴涵关系。输入可能是词,也可能是字符ngram。底层任务的隐藏状态有到其他层级的直接路径。相关性encoder的输出卷积一下,供逻辑关系分类器使用。

整个模型使用同一个目标函数。左右对称只是示意可以接受两个句子用于关联分析,其实是同一套参数。

模型细节

词性标注是单层LSTM,隐藏状态softmax一下,乘上label的embedding得到每个单词的pos embedding。将词性标注LSTM的隐藏状态、pos embedding和单词输入chunking的LSTM,执行类似的流程得到chunk的embedding。

依存句法分析

依然是单层LSTM,每个时刻同时接受下级的输入。每两个时刻的单词做一次softmax,判断它们的依存关系。理论上讲,该方法无法保证结果一定是合法的句法树,但Richard说99%的case都是合法的,加上一些剪枝规则后,可以拿到最高分数(虽然论文还未发表就被另一位同行超越了)。

语义联系

依然是类似的BiLSTM,多了个CNN max池化,过一层前馈神经网络,过一层softmax得到两个句子的语义联系。

训练

如果每个softmax都用交叉熵损失函数训练的话,效果并不好。这里用到了一种新奇的技巧叫做successive regularization,在某个上层任务的损失函数中,加入一个正则化项,限制下层任务的参数不要改变太多。

在训练的时候,从低层任务出发,先专注优化一个目标函数,假装上面的东西都不存在,逐步往上。(我觉得这并不是同一个目标函数)

结果

联合训练提高了每项任务的效果,任务数据越小,提升越显著。这是因为迁移学习的帮助越大。

大部分任务都拿到了最高分:

障碍3:预测从未见过的词语

以前课程也讲过,pointer copy机制:

原文:http://www.hankcs.com/nlp/cs224n-tackling-the-limits-of-dl-for-nlp.html

热门文章推荐

招聘|AI学院长期招聘AI课程讲师(兼职):日薪5k-10k

浙大才女:用人耳听不到的超声波(攻击)控制语音助手!

Science:最新发现哈希可能是大脑的通用计算原理!

厉害|波士顿动力新版人形机器人Atlas,后空翻很完美!

吴恩达:AI论文已经够多了,赶紧“搞点事”吧!

厉害了!吉利宣布收购飞行汽车公司Terrafugia !

周志华:实验表明gcForest是最好的非深度神经网络方法

黑科技|Adobe出图象技术神器!视频也可以PS了!!

史上第一个被授予公民身份的机器人索菲亚和人对答如流!

浙大90后女黑客在GeekPwn2017上秒破人脸识别系统!

周志华点评AlphaGo Zero:这6大特点非常值得注意!

登录查看更多
2

相关内容

斯坦福大学经典《自然语言处理cs224n》2020课件合集
专知会员服务
94+阅读 · 2020年5月25日
深度学习自然语言处理概述,216页ppt,Jindřich Helcl
专知会员服务
209+阅读 · 2020年4月26日
专知会员服务
198+阅读 · 2020年3月6日
Transformer文本分类代码
专知会员服务
116+阅读 · 2020年2月3日
【MIT深度学习课程】深度序列建模,Deep Sequence Modeling
专知会员服务
76+阅读 · 2020年2月3日
【课程推荐】普林斯顿陈丹琦COS 484: 自然语言处理课程
专知会员服务
82+阅读 · 2019年12月11日
深度学习自然语言处理综述,266篇参考文献
专知会员服务
225+阅读 · 2019年10月12日
神经网络与深度学习,复旦大学邱锡鹏老师
专知会员服务
116+阅读 · 2019年9月24日
赛尔笔记 | 自然语言处理中的迁移学习(下)
AI科技评论
11+阅读 · 2019年10月21日
斯坦福NLP组-2019-《CS224n: NLP与深度学习》-分享
深度学习与NLP
7+阅读 · 2019年1月14日
干货|从LSTM到Seq2Seq
全球人工智能
15+阅读 · 2018年1月9日
自然语言处理中的深度学习发展史和待解难题
Tutorial on NLP-Inspired Network Embedding
Arxiv
7+阅读 · 2019年10月16日
How to Fine-Tune BERT for Text Classification?
Arxiv
13+阅读 · 2019年5月14日
Arxiv
22+阅读 · 2018年8月30日
Arxiv
5+阅读 · 2018年6月5日
Arxiv
6+阅读 · 2018年4月21日
Arxiv
26+阅读 · 2017年12月6日
VIP会员
相关VIP内容
斯坦福大学经典《自然语言处理cs224n》2020课件合集
专知会员服务
94+阅读 · 2020年5月25日
深度学习自然语言处理概述,216页ppt,Jindřich Helcl
专知会员服务
209+阅读 · 2020年4月26日
专知会员服务
198+阅读 · 2020年3月6日
Transformer文本分类代码
专知会员服务
116+阅读 · 2020年2月3日
【MIT深度学习课程】深度序列建模,Deep Sequence Modeling
专知会员服务
76+阅读 · 2020年2月3日
【课程推荐】普林斯顿陈丹琦COS 484: 自然语言处理课程
专知会员服务
82+阅读 · 2019年12月11日
深度学习自然语言处理综述,266篇参考文献
专知会员服务
225+阅读 · 2019年10月12日
神经网络与深度学习,复旦大学邱锡鹏老师
专知会员服务
116+阅读 · 2019年9月24日
相关论文
Tutorial on NLP-Inspired Network Embedding
Arxiv
7+阅读 · 2019年10月16日
How to Fine-Tune BERT for Text Classification?
Arxiv
13+阅读 · 2019年5月14日
Arxiv
22+阅读 · 2018年8月30日
Arxiv
5+阅读 · 2018年6月5日
Arxiv
6+阅读 · 2018年4月21日
Arxiv
26+阅读 · 2017年12月6日
Top
微信扫码咨询专知VIP会员