神经翻译入门笔记1:n元语法简介

这一阶段,我准备阅读以下三篇关于神经翻译的tutorial,并做一些笔记。这些tutorial包括

  • [Koehn2017], Philipp Koehn,Statistical Machine Translation, Draft of Chapter 13: Neural Machine Translation, 2017.09
  • [Neubig2017], Graham Neubig,Neural Machine Translation and Sequence-to-Sequence Models: A Tutorial, 2017.03
  • [Luong2016], Thang Luong, Kyunghyun Cho and Christopher Manning,NMT Tutorial, ACL 2016

第一篇笔记主要来自于[Neubig2017]的第一章,对传统的n元语法模型做了一个简单介绍。由于不加任何修改的原始n元语法算法会将大部分n元组出现的概率判断为0,为了避免这样的现象出现,需要加入一些平滑。本文同时对插值平滑法做了简介,并给出了一些文献作为拓展。最后,简介了如何评估语言模型(语言模型的任务,可以理解为给定上文的情况下,求出接下来出现某个单词的概率)。

详细内容戳我


本部分内容虽然主要来自于三个NMT的tutorial,不过按照目前的预想,还是涵盖了CS224n的大部分内容。同时,我个人也会补充一些细节。现在构想的内容包括

  • n元语法简介
  • log-linear语言模型简介 x
  • 神经网络简介 xx
  • 词向量
  • RNN
  • 编码器-解码器体系结构
  • 注意力机制
  • 其它NMT高级内容简介

在Neubig的tutorial中,打“x”的一章介绍了若干优化方法,包括rmsprop,adam优化器等内容。现在的变数就是,我没有考虑好是否把第二部分(打“x”的部分)扩充成深度学习优化方法相关的内容,同时把第三部分(打“xx”的部分)加入神经网络正则化的内容。这两部分应该很重要,但是写深了可能需要花些功夫


这篇笔记其实在3月6号就写完发在了我的博客上,但是那天我比较不幸地受了一些外伤,这段时间只能卧床静养,所以耽误了专栏这边的发表。我从今天(3月20号)开始才能偶尔用一用电脑,因此这段时间专栏更新会很慢,请保持耐心

编辑于 2018-03-20 20:17