In neural network-based models for natural language processing (NLP), the largest part of the parameters often consists of word embeddings. Conventional models prepare a large embedding matrix whose size depends on the vocabulary size. Therefore, storing these models in memory and disk storage is costly. In this study, to reduce the total number of parameters, the embeddings for all words are represented by transforming a shared embedding. The proposed method, ALONE (all word embeddings from one), constructs the embedding of a word by modifying the shared embedding with a filter vector, which is word-specific but non-trainable. Then, we input the constructed embedding into a feed-forward neural network to increase its expressiveness. Naively, the filter vectors occupy the same memory size as the conventional embedding matrix, which depends on the vocabulary size. To solve this issue, we also introduce a memory-efficient filter construction approach. We indicate our ALONE can be used as word representation sufficiently through an experiment on the reconstruction of pre-trained word embeddings. In addition, we also conduct experiments on NLP application tasks: machine translation and summarization. We combined ALONE with the current state-of-the-art encoder-decoder model, the Transformer, and achieved comparable scores on WMT 2014 English-to-German translation and DUC 2004 very short summarization with less parameters.


翻译:在自然语言处理(NLP)基于神经网络的模型中,基于自然语言处理(NLP)的最大参数部分往往包含字嵌入。常规模型准备了一个大型嵌入矩阵,其大小取决于词汇大小。因此,将这些模型存储在记忆和磁盘存储中的成本很高。在这项研究中,为了减少参数总数,所有单词的嵌入都代表着对共同嵌入的转变。拟议方法, ALONE(所有单词嵌入一个), 通过修改与过滤器矢量共享的嵌入, 从而构建一个单词嵌入。 然后, 我们把所建的嵌入的嵌入到一个基于词汇大小大小取决于词汇大小的嵌入神经网络。 为了解决这个问题, 我们还引入了一种记忆高效的过滤构建方法。 我们表示我们的“ALONE”可以通过对经过训练的字嵌入器的重建而充分使用词表达。 此外,我们还将NLP应用程序的嵌入嵌入纳入一个供进式神经网络,以增加其表达性。 很显然, 过滤器矢量与传统的嵌入式缩成2014年英国货币模型, 我们用了短式的机器翻译, 和超式变式变式的模型, 。

4
下载
关闭预览

相关内容

分散式表示即将语言表示为稠密、低维、连续的向量。 研究者最早发现学习得到词嵌入之间存在类比关系。比如apple−apples ≈ car−cars, man−woman ≈ king – queen 等。这些方法都可以直接在大规模无标注语料上进行训练。词嵌入的质量也非常依赖于上下文窗口大小的选择。通常大的上下文窗口学到的词嵌入更反映主题信息,而小的上下文窗口学到的词嵌入更反映词的功能和上下文语义信息。
【Google论文】ALBERT:自我监督学习语言表达的精简BERT
专知会员服务
22+阅读 · 2019年11月4日
《DeepGCNs: Making GCNs Go as Deep as CNNs》
专知会员服务
30+阅读 · 2019年10月17日
开源书:PyTorch深度学习起步
专知会员服务
49+阅读 · 2019年10月11日
从 one-hot 到 BERT,带你一步步理解 BERT
数说工作室
21+阅读 · 2019年6月25日
Transferring Knowledge across Learning Processes
CreateAMind
24+阅读 · 2019年5月18日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
【论文】图上的表示学习综述
机器学习研究会
12+阅读 · 2017年9月24日
论文共读 | Attention is All You Need
黑龙江大学自然语言处理实验室
14+阅读 · 2017年9月7日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
自然语言处理 (三) 之 word embedding
DeepLearning中文论坛
19+阅读 · 2015年8月3日
Arxiv
29+阅读 · 2020年3月16日
Arxiv
5+阅读 · 2019年9月25日
Arxiv
4+阅读 · 2018年9月6日
Arxiv
6+阅读 · 2018年6月20日
Arxiv
10+阅读 · 2018年3月22日
Arxiv
25+阅读 · 2017年12月6日
VIP会员
相关资讯
从 one-hot 到 BERT,带你一步步理解 BERT
数说工作室
21+阅读 · 2019年6月25日
Transferring Knowledge across Learning Processes
CreateAMind
24+阅读 · 2019年5月18日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
【论文】图上的表示学习综述
机器学习研究会
12+阅读 · 2017年9月24日
论文共读 | Attention is All You Need
黑龙江大学自然语言处理实验室
14+阅读 · 2017年9月7日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
自然语言处理 (三) 之 word embedding
DeepLearning中文论坛
19+阅读 · 2015年8月3日
相关论文
Arxiv
29+阅读 · 2020年3月16日
Arxiv
5+阅读 · 2019年9月25日
Arxiv
4+阅读 · 2018年9月6日
Arxiv
6+阅读 · 2018年6月20日
Arxiv
10+阅读 · 2018年3月22日
Arxiv
25+阅读 · 2017年12月6日
Top
微信扫码咨询专知VIP会员