Computer vision has benefited from initializing multiple deep layers with weights pretrained on large supervised training sets like ImageNet. Natural language processing (NLP) typically sees initialization of only the lowest layer of deep models with pretrained word vectors. In this paper, we use a deep LSTM encoder from an attentional sequence-to-sequence model trained for machine translation (MT) to contextualize word vectors. We show that adding these context vectors (CoVe) improves performance over using only unsupervised word and character vectors on a wide variety of common NLP tasks: sentiment analysis (SST, IMDb), question classification (TREC), entailment (SNLI), and question answering (SQuAD). For fine-grained sentiment analysis and entailment, CoVe improves performance of our baseline models to the state of the art.


翻译:计算机愿景得益于启动多个深层层,对图像网等大型监管培训组进行加权培训。自然语言处理(NLP)通常只看到使用预先培训的文字矢量的最低深度模型层的初始化。在本文中,我们使用从经过机器翻译培训的注意序列到序列模型的深 LSTM 编码器来将文字矢量背景化。我们表明,添加这些上下文矢量(CoVe)只会提高业绩,而仅使用未经监督的字和字符矢量来完成各种通用的NLP任务:情绪分析(SST、IMDb)、问题分类(TREC)、要求(SNLI)和问题回答(SQUAD),对于精细的情绪分析和要求,CoVe将我们基线模型的性能提高到艺术状态。

6
下载
关闭预览

相关内容

100+篇《自监督学习(Self-Supervised Learning)》论文最新合集
专知会员服务
161+阅读 · 2020年3月18日
Transformer文本分类代码
专知会员服务
116+阅读 · 2020年2月3日
Stabilizing Transformers for Reinforcement Learning
专知会员服务
56+阅读 · 2019年10月17日
强化学习最新教程,17页pdf
专知会员服务
167+阅读 · 2019年10月11日
BERT/Transformer/迁移学习NLP资源大列表
专知
19+阅读 · 2019年6月9日
Transferring Knowledge across Learning Processes
CreateAMind
25+阅读 · 2019年5月18日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
41+阅读 · 2019年1月3日
【推荐】自然语言处理(NLP)指南
机器学习研究会
35+阅读 · 2017年11月17日
自然语言处理 (NLP)资源大全
机械鸡
35+阅读 · 2017年9月17日
Arxiv
3+阅读 · 2018年11月14日
Arxiv
4+阅读 · 2018年9月6日
Arxiv
5+阅读 · 2018年6月4日
Arxiv
3+阅读 · 2018年3月28日
Arxiv
10+阅读 · 2018年3月22日
Arxiv
7+阅读 · 2018年1月30日
VIP会员
Top
微信扫码咨询专知VIP会员