机器翻译中丢掉词向量层会怎样？

会员服务 ·

机器翻译中丢掉词向量层会怎样？

2020 年 8 月 28 日 PaperWeekly

论文标题：

Neural Machine Translation without Embeddings

论文作者：

Uri Shaham，Omer Levy

论文链接：

https://arxiv.org/pdf/2008.09396.pdf

代码链接：

https://github.com/UriSha/EmbeddinglessNMT （待开源）

词向量

长期以来，词向量被认为是深度学习模型下不可缺少的一部分，从Word Embedding开始，词向量被普遍认为可以建模隐空间中的语言单元的语义。

但是，发展到如今基于Transformer模型的时代，词向量更多地是被默认当做模型输入和输出的一部分。它在当今模型下的作用似乎成为了业内普遍接受的规则。

词向量在当下的使用方法是将离散的语言单元映射为连续值的向量。比如字典大小为，那么我们就需要的一个矩阵去表示词向量。

在输入和输出的时候，词向量矩阵用于离散单元和模型隐藏层的“过渡”，即表示为，其中是长度为的输入句子，用one-hot表示成一个矩阵，是位置编码，在输出的时候，就是，是模型的最后一层得到的向量。

现在的问题是，能不能去掉输入和输出的矩阵？也就是能不能不要词向量，直接把one-hot送入到模型中。本文通过实验回答了这个问题。

本文使用字节（Byte）编码表示输入到模型的语言单元，并且丢掉了传统的词向量，在多个语言的机器翻译任务上进行了实验。

结果表明，基于Byte编码的无词向量模型和基于BPE编码、字编码和Byte编码的有词向量模型效果没有显著区别，甚至在一些任务上还要更优。

这启发我们进一步思考对于机器翻译而言，编码的作用为何，词向量的作用为何，我们需不需要打破现在默认的词向量用法？

用Byte编码丢掉词向量

简单来说，本文使用长度为256的one-hot编码表示一个UTF-8字节（因为一个字节有8位，一共会产生256个不同的字节），这样的一个好处是不会出现OOV。

由于使用的是UTF-8编码，所以不同的语言会有不同的长度，比如英文每个字就是一个字节，阿拉伯语每个字就是两个字节，而中文每个字用三个字节表示。

但是这并不影响我们进行编码，只是对于中文而言，得到的编码后的句子会更长一些。

下图是一个使用各编码方案的例子。使用BPE编码得到的句子最短，其次是使用字编码，最后使用Byte编码会更长，因为在阿拉伯语中，每个字需要两个Byte表示。

对于一个句子，在用Byte编码处理后，可以得到一个输入One-hot矩阵，这里是编码处理后的句子长度。

这时候，不再需要把它和词向量矩阵相乘，只需要再加上位置编码（如果需要的话），然后再送入模型就行了。对于输出也是同样的操作，这可以总结为：

实验

本文在IWSLT上实验，选择了10个不同的语言，对每个语言，测试它们和英语互译的效果，即。数据预处理、基线模型、超参设置详见原文。下表是实验结果。

首先看同样是Byte编码的有词向量模型和无词向量模型。可以看到，无词向量模型都好于有词向量模型，和字编码（Char）相比，在大多数情况下Byte+Embed-less也都更好，这说明在编码粒度较细（Char和Byte）时，不加词向量效果会更好。

再来比较有词向量的Subword和无词向量的Byte。出乎意料的是，在的10组实验里，有8组都是Byte更好。

但是在的10组实验里，都是Subword更好，这似乎说明英语这种语言更适合使用Subword编码。这是一个非常有趣的现象。

小结

本文探究了基于Byte编码的无词向量机器翻译的效果，实验表明，使用Byte编码时，丢掉输入和输出的词向量层都结果没有太大的影响。

实验还发现，不同的语言对编码似乎非常敏感，尤其是英语比其他语言更加适合subword编码。未来可以进一步研究不同语言的编码偏好，以及词向量在现代深度模型下的作用。

🔍

现在，在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

关于PaperWeekly

PaperWeekly 是一个推荐、解读、讨论、报道人工智能前沿论文成果的学术平台。如果你研究或从事 AI 领域，欢迎在公众号后台点击「交流群」，小助手将把你带入 PaperWeekly 的交流群里。

登录查看更多

相关内容

词向量

关注 0

Transformer模型-深度学习自然语言处理，17页ppt

专知会员服务

98+阅读 · 2020年8月30日

【IJCAI2020南大】上下文在神经机器翻译中的充分利用

专知会员服务

15+阅读 · 2020年8月17日

低秩稀疏矩阵优化问题的模型与算法

专知会员服务

41+阅读 · 2020年7月29日

【ACL20-哈工大】基于图注意力网络的多粒度机器阅读理解文档建模

专知会员服务

41+阅读 · 2020年7月1日

【斯坦福大学AI】BERT, ELMo， & GPT-2:上下文化的单词表示是怎样的?

专知会员服务

34+阅读 · 2020年3月28日

机器翻译深度学习最新综述

专知会员服务

97+阅读 · 2020年2月20日

Google AI博客解读论文《Reformer: The Efficient Transformer》，百万量级注意力机制

专知会员服务

69+阅读 · 2020年1月17日

无所不能的Self-Attention！洛桑理工ICLR2020论文验证「自注意力可以表达任何CNN卷积滤波层」

专知会员服务

56+阅读 · 2020年1月12日

NLP基础任务:文本分类近年发展汇总,68页超详细解析

专知会员服务

57+阅读 · 2020年1月3日

【清华大学】Bert 简介，Bidirectional Encoder Representations from Transformers，21页ppt

专知会员服务

78+阅读 · 2019年12月29日

ACL 2019 | 多语言BERT的语言表征探索

AI科技评论

20+阅读 · 2019年9月6日

跨 8 千个字学习知识，上下文要多长还是交给 Transformer 自己决定吧

机器之心

3+阅读 · 2019年7月11日

站在BERT肩膀上的NLP新秀们：XLMs、MASS和UNILM

PaperWeekly

16+阅读 · 2019年6月6日

NAACL 2019 | 怎样生成语言才能更自然，斯坦福提出超越Perplexity的评估新方法

机器之心

6+阅读 · 2019年4月19日

谷歌、CMU重磅论文：Transformer升级版，评估速度提升超1800倍！

新智元

11+阅读 · 2019年1月12日

博客 | 斯坦福大学—自然语言处理中的深度学习（CS 224D notes-1）

AI研习社

5+阅读 · 2018年11月19日

利用 Universal Transformer，翻译将无往不利！

谷歌开发者

5+阅读 · 2018年9月4日

不懂 word2vec，还敢说自己是做 NLP 的？

AI研习社

8+阅读 · 2018年5月4日

没有数据也能翻译？一文读懂「无监督」机器翻译

人工智能学家

3+阅读 · 2018年1月7日

用于神经网络机器翻译的全并行文本生成

专知

5+阅读 · 2018年1月3日

Jointly Modeling Aspect and Sentiment with Dynamic Heterogeneous Graph Neural Networks

Arxiv

8+阅读 · 2020年4月14日

Transformer-XL: Attentive Language Models Beyond a Fixed-Length Context

Arxiv

4+阅读 · 2019年1月9日

Multi-Head Attention with Disagreement Regularization

Arxiv

9+阅读 · 2018年10月24日

Doubly Attentive Transformer Machine Translation

Arxiv

4+阅读 · 2018年7月30日

Phrase Table as Recommendation Memory for Neural Machine Translation

Arxiv

3+阅读 · 2018年5月25日

Towards Neural Phrase-based Machine Translation

Arxiv

3+阅读 · 2018年4月18日

Near Human-Level Performance in Grammatical Error Correction with Hybrid Machine Translation

Arxiv

5+阅读 · 2018年4月16日

Recurrent Segmentation for Variable Computational Budgets

Arxiv

6+阅读 · 2018年3月15日

TransRev: Modeling Reviews as Translations from Users to Items

Arxiv

9+阅读 · 2018年1月30日

Improving Visually Grounded Sentence Representations with Self-Attention

Arxiv

8+阅读 · 2017年12月2日

VIP会员