DeepMind新语言模型SUNDAE：教自动编码器学会「自我纠正」，WMT14英德互译任务获SOTA

会员服务 ·

DeepMind新语言模型SUNDAE：教自动编码器学会「自我纠正」，WMT14英德互译任务获SOTA

2021 年 12 月 16 日 量子位

丰色发自凹非寺
量子位报道 | 公众号 QbitAI

一直以来，自回归语言模型（Autoregressive model，AR）在文本生成任务中表现都相当出色。

现在，DeepMind通过教自动编码器学会“自我纠正”，提出了一个叫做“圣代”（SUNDAE）的非自回归模型。

它不仅能在WMT’14英德互译任务中取得非自回归模型中的SOTA，还表现出与自回归模型相当的性能。

更厉害的是，还能轻松做到自回归模型做不到的事儿——文字补全。

△ *部分即为模型要补的文字

要知道，非自回归模型一直不被看好。

而这个“圣代”的文字补全功能，也为人类和机器共同编辑、创作文本提供了新的途径。

非自回归语言模型“圣代”

“圣代”全名“逐步展开降噪自动编码器”（Step-unrolled Denoising Autoencoder，SUNDAE），作为一种新的文本生成模型，它不依赖于经典的自回归模型。

与降噪扩散技术（denoising diffusion）类似，“圣代”在训练期间采用展开降噪（unrolled denoising），将一系列token重复应用，从随机输入开始，每次都对其进行改进，直至收敛。

这就是所谓的“自我纠正”过程。

下面用一张图来说明一下降噪和展开降噪的区别。

第一行为原始文本，它被随机“污染”（corrupt）后产生新的文本（第二行），其中绿色的token代表“未污染”文本，红色代表“污染”文本。

这个中间文本再通过降噪（从生成模型中采样），生成底部的又一个“污染”文本。

标准降噪自动编码器只学习从中间文本到顶部文本的映射，逐步展开降噪自动编码器（“圣代”）则会学习从底部到顶部的映射。

而在文本生成期间，网络遇到的大多数文本都并非像上图中间那样，而是底部那种，所以展开降噪是非常有用的。

此外，研究人员还提出了一个简单的改进算子，它能实现比降噪扩散技术收敛所需的更少的迭代次数，同时在自然语言数据集上定性地生成更好的样本。

直白的说，“圣代”采用的方法让文本合成的质量和速度都变得可控了。

在机器翻译和文本生成任务上表现如何？

下面就来看看“圣代”的具体表现。

研究人员首先在机器翻译基准上评估“圣代”。

使用BLEU分数作为衡量标准，将“圣代”在WMT’14德英互译任务上的翻译质量与自回归模型（AR）和非AR模型进行比较。

结果发现，在不使用序列级知识蒸馏等技术的情况下，“圣代”的性能几乎与AR模型相当，并且打败了所有非AR模型。

接着是对“圣代”在文本生成任务上的评估。

研究人员在大型高质量公开数据集 Colossal Clean Common Crawl (C4) 上训练“圣代”。

模型一共包含335M参数，24层，embedding size为1024 , hidden size为4096 , 以及16 个attention head，使用bacth size为4096的Adam optimizer训练了多达40万步。

最终生成的文本如下，未经cherry pick：

这10句里面，除了第4，都挺合理。

不过由于C4数据集来自网络，所以无论是训练集还是生成的最终结果，换行符都挺多。

此外，由于“圣代”模型的非自回归性，研究人员也测试了它的文本“修复”能力。

要知道，这对于只能从左到右按序生成的AR模型来说根本就办不到。

结果如下（cherry-pick过）：

C4数据集

GitHub上的Python程序组成的数据集

大家觉得这效果如何？语法和逻辑似乎都没有问题。

更多数据和内容欢迎戳下方链接。

论文地址：

https://arxiv.org/abs/2112.06749

— 完 —

本文系网易新闻•网易号特色内容激励计划签约账号【量子位】原创内容，未经账号授权，禁止随意转载。

「智能汽车」交流群招募中！

欢迎关注智能汽车、自动驾驶的小伙伴们加入社群，与行业大咖交流、切磋，不错过智能汽车行业发展&技术进展。

ps.加好友请务必备注您的姓名-公司-职位哦~

点这里👇关注我，记得标星哦～

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见~

登录查看更多

相关内容

自回归模型

关注 2

知识增强的文本生成研究进展

专知会员服务

100+阅读 · 2021年3月6日

少即是多？非参数语言模型，68页ppt

专知会员服务

24+阅读 · 2020年11月22日

【EMNLP2020】自然语言分类任务的自监督元学习

专知会员服务

30+阅读 · 2020年9月18日

【ICML2020】统一预训练伪掩码语言模型

专知会员服务

27+阅读 · 2020年7月23日

1750亿参数！GPT-3来了！31位作者，OpenAI发布小样本学习器语言模型

专知会员服务

73+阅读 · 2020年5月30日

【斯坦福大学AI】BERT, ELMo， & GPT-2:上下文化的单词表示是怎样的?

专知会员服务

35+阅读 · 2020年3月28日

【DeepMind】PolyGen: 一种三维网格的自回归生成模型，PolyGen: An Autoregressive Generative Model of 3D Meshes

专知会员服务

37+阅读 · 2020年2月27日

谷歌提出“T5” 新NLP模型，突破迁移学习局限，多基准测试达SOTA！

专知会员服务

41+阅读 · 2020年2月26日

BERT进展2019四篇必读论文

专知会员服务

69+阅读 · 2020年1月2日

【AAAI2020接受论文】隐式关系语言模型，CMU&微软，Latent Relation Language Models

专知会员服务

54+阅读 · 2019年11月12日

重磅！谷歌用扩散模型来生成视频了！刷新SOTA

CVer

1+阅读 · 2022年4月12日

视频也可以用扩散模型来生成了，效果很能打：新SOTA已达成 | 谷歌

量子位

1+阅读 · 2022年4月11日

GPT-3好“搭档”：这种方法缓解模型退化，让输出更自然

大数据文摘

0+阅读 · 2022年3月30日

谷歌提出MaskGIT：掩码生成图像Transformer

CVer

2+阅读 · 2022年3月21日

自回归解码加速64倍，谷歌提出图像合成新模型MaskGIT

机器之心

1+阅读 · 2022年3月12日

不拆分单词也可以做NLP，哈工大最新模型在多项任务中打败BERT，还能直接训练中文

量子位

0+阅读 · 2022年2月28日

WMT 2021冠军来了！重建巴别塔之多语言翻译模型

新智元

0+阅读 · 2022年1月5日

一文详解DeepMind最新模型SUNDAE，了解迭代去噪模型的前世今生

PaperWeekly

0+阅读 · 2021年12月27日

5亿个句子，188种语言，Jörg Tiedemann 发布的数据集让非洲语言也能「机翻」！

新智元

0+阅读 · 2021年3月24日

多项NLP任务新SOTA，Facebook提出预训练模型BART

机器之心

22+阅读 · 2019年11月4日

中文句子语义概念图自动构建方法及应用研究

国家自然科学基金

2+阅读 · 2014年12月31日

低功耗射频收发技术研究

国家自然科学基金

2+阅读 · 2014年12月31日

TTMB赋能干预模式对慢性肾病血液透析患者自我管理和身心健康的效果和机制研究

国家自然科学基金

0+阅读 · 2013年12月31日

基于句子语义结构的统计机器翻译研究

国家自然科学基金

1+阅读 · 2013年12月31日

基于概率化SC文法的多策略机器翻译研究

国家自然科学基金

0+阅读 · 2012年12月31日

基于语义的敦煌壁画的模拟与渲染

国家自然科学基金

0+阅读 · 2012年12月31日

类神经网络结构开放式电路电磁损伤故障自修复研究

国家自然科学基金

0+阅读 · 2012年12月31日

静电纺生物活性纳米纤维及传感性能研究

国家自然科学基金

0+阅读 · 2011年12月31日

双亲性共聚物自组装表面活性胶体粒子及其乳化性能研究

国家自然科学基金

0+阅读 · 2009年12月31日

中文句法分析与语义角色标注的联合学习机制研究

国家自然科学基金

1+阅读 · 2009年12月31日

A general family of MSRD codes and PMDS codes with smaller field sizes from extended Moore matrices

Arxiv

1+阅读 · 2022年4月20日

Step-unrolled Denoising Autoencoders for Text Generation

Arxiv

0+阅读 · 2022年4月19日

PaLM: Scaling Language Modeling with Pathways

Arxiv

0+阅读 · 2022年4月19日

Linear codes using simplicial complexes

Arxiv

1+阅读 · 2022年4月18日

Adaptive Attentional Network for Few-Shot Knowledge Graph Completion

Arxiv

17+阅读 · 2020年10月19日

Towards Building a Multilingual Sememe Knowledge Base: Predicting Sememes for BabelNet Synsets

Arxiv

15+阅读 · 2019年12月4日

Knowledge Graph Alignment Network with Gated Multi-hop Neighborhood Aggregation

Arxiv

19+阅读 · 2019年11月20日

Emu: Enhancing Multilingual Sentence Embeddings with Semantic Specialization

Arxiv

10+阅读 · 2019年9月15日

XLNet: Generalized Autoregressive Pretraining for Language Understanding

Arxiv

14+阅读 · 2019年6月19日

Transformer-XL: Attentive Language Models Beyond a Fixed-Length Context

Arxiv

11+阅读 · 2019年6月2日

VIP会员