【ICLR2021】十三大主题100篇值得一读的NLP论文，还不安排上？

会员服务 ·

【ICLR2021】十三大主题100篇值得一读的NLP论文，还不安排上？

2020 年 11 月 26 日 深度学习自然语言处理

来源 | 香侬科技

我们从 ICLR 2021开放投稿的3000篇论文中，粗略筛选了近100篇与自然语言处理领域中也许值得一读的论文，供大家查阅。

理论、模型与经验性分析：38篇
问答与阅读理解：4篇
知识图谱：4篇
文本生成：9篇
机器翻译：7篇
对抗攻击：4篇
文本分类：2篇
信息抽取：4篇
可解释性：1篇
模型压缩与集成：4篇
数据增强：2篇
向量表示：12篇
其他：5篇

注，由于论文过多，故直接使用谷歌翻译机翻了论文部分摘要作为文章主旨的参考（结果表明，NMT仍然有极大发展空间），对于过于离谱的翻译转为人工校对。之后我们会陆续选取部分文章进行详细介绍，其中的不便还望读者谅解。

理论、模型与经验性分析

论文标题：Isotropy in the Contextual Embedding Space: Clusters and Manifolds

论文链接：https://openreview.net/forum?id=xYGNO86OWDH

论文摘要：近年来，诸如BERT和ERNIE的深度语言模型的上下文嵌入空间的几何特性引起了相当大的关注。对上下文嵌入的研究表明，强烈的各向异性空间使得大多数矢量都落在一个狭窄的圆锥体中，从而导致较高的余弦相似度。在本文中，我们认为从不同但更具建设性的角度来看，各向同性确实存在于空间中。我们在上下文嵌入空间中识别孤立的簇和低维流形，并介绍工具进行定性和定量分析。

论文标题：Hopfield Networks is All You Need

论文链接：https://openreview.net/forum?id=tL89RnzIiCd

论文摘要：我们介绍了具有连续状态和相应更新规则的现代Hopfield网络。新的Hopfield网络可以按指数形式（按维度）存储许多模式，一次更新即可收敛，并且检索误差呈指数形式。

论文标题：VECO: Variable Encoder-Decoder Pretraining for Cross-Lingual Understanding and Generation

论文链接：https://openreview.net/forum?id=YjNv-hzM8BE

论文摘要：本文提出可变的编码器-解码器预训练方法，将Transformer的三个主要模块分开，对不同的预训练任务加以组合，然后再对下游任务微调。不但可以节约参数，还能取得较好的效果。

论文标题：AlgebraNets

论文链接：https://openreview.net/forum?id=guEuB3FPcd

论文摘要：常规的神经网络由实值加权和激活以及实值算子组成。我们提出了AlgebraNets，这是一种一般范式，可以用其他方式从其他关联代数中替换权重和运算符来代替实际价值权重和运算符。

论文标题：EarlyBERT: Efficient BERT Training via Early-bird Lottery Tickets

论文链接：https://openreview.net/forum?id=I-VfjSBzi36

论文摘要：在本文中，我们提出了EarlyBERT，这是用于大规模语言模型预训练和微调的有效训练框架。EarlyBERT会在早期阶段识别结构化的中奖彩票，然后使用经过修剪的网络进行有效训练。

论文标题：Variational Information Bottleneck for Effective Low-Resource Fine-Tuning

论文链接：https://openreview.net/forum?id=kvhzKz-_DMF

论文摘要：我们建议在对低资源目标任务进行微调时使用变分信息瓶颈（VIB）来抑制不相关的功能，并表明我们的方法成功地减少了过拟合。此外，我们表明，我们的VIB模型发现的句子表示形式对自然语言推理数据集中的偏倚更为鲁棒，从而获得了对域外数据集的更好概括。

论文标题：Transformers are Deep Infinite-Dimensional Non-Mercer Binary Kernel Machines

论文链接：https://openreview.net/forum?id=AVKFuhH1Fo4

论文摘要：在本文中，我们提出了一个新的视角，以了解Transformer的工作方式。尤其是，我们证明了可以将Transformer操作的核心点积注意力描述为一对Banach空间上的核学习方法。特别是，Transformer的内核具有无限的特征尺寸。在此过程中，我们将标准内核学习问题概括为所谓的“二进制”内核学习问题，其中数据来自两个输入域，并且为每个跨域对定义了一个响应。

论文标题：Pretrain Knowledge-Aware Language Models

论文链接：https://openreview.net/forum?id=OAdGsaptOXy

论文摘要：在本文中，我们将知识意识纳入语言模型预训练中，而无需更改Transformer架构，插入明确的知识层或添加语义信息的外部存储。相反，我们只是通过实体扩展的标记器在预训练中向Transformer的输入简单地表示实体的存在。在输出处，还有一个额外的实体预测任务。

论文标题：Structured Prediction as Translation between Augmented Natural Languages

论文链接：https://openreview.net/forum?id=US-TP-xnXI

论文摘要：我们提出了一个新的框架，即增强自然语言之间的翻译（TANL），以解决许多结构化预测语言任务，包括联合实体和关系提取，嵌套命名实体识别，关系分类，语义角色标签，事件提取，共指解析和对话状态跟踪。

论文标题：Information-theoretic Vocabularization via Optimal Transport

论文链接：https://openreview.net/forum?id=1fLunL_hDj_

论文摘要：我们发现信息理论功能与NLP任务（例如具有给定词汇的机器翻译）的性能之间存在令人兴奋的关系。通过这种观察，我们将找到具有适当大小的最佳令牌词典作为最佳传输问题。然后，我们提出info-VOT，这是一种简单有效的解决方案，无需对下游任务进行全面且昂贵的试用训练。

论文标题：Understanding and Improving Encoder Layer Fusion in Sequence-to-Sequence Learning

论文链接：https://openreview.net/forum?id=n1HD8M6WGn

论文摘要：在本文中，我们的主要贡献是进一步了解EncoderFusion。我们发现编码器嵌入层比其他中间编码器层更重要。此外，最上层的解码器层始终在NLP任务中更加关注编码器嵌入层。基于此观察，我们通过仅融合softmax层的编码器嵌入层，提出了一种简单的融合方法SurfaceFusion。

论文标题：On Position Embeddings in BERT

论文链接：https://openreview.net/forum?id=onxoVA9FxMw

论文摘要：我们提出了在向量空间中捕获单词距离的PE的三个预期特性：平移不变性，单调性和对称性。这些属性可以正式捕获PE的行为，并允许我们以有原则的方式重新解释正弦PE。对七个PE（及其组合）进行分类和跨度预测的经验评估表明，可完全学习的绝对PE在分类中表现更好，而相对PE在跨度预测中表现更好。

论文标题：MVP-BERT: Redesigning Vocabularies for Chinese BERT and Multi-Vocab Pretraining

论文链接：https://openreview.net/forum?id=sxZvLS2ZPfH

论文摘要：我们首先提出一种新颖的方法，借助中文分词（CWS）和子词标记化来形成中文BERT的词汇。然后，我们提出了三种版本的多词汇量预训练（MVP），以提高模型的表达能力。

论文标题：Progressively Stacking 2.0: A multi-stage layerwise training method for BERT training speedup

论文链接：https://openreview.net/forum?id=2LiGI26kRdt

论文摘要：我们提出了一种有效的多阶段分层训练（MSLT）方法，以减少BERT的训练时间。我们将整个训练过程分解为几个阶段。训练从只有几个编码器层的小模型开始，然后我们通过添加新的编码器层来逐渐增加模型的深度。在每个阶段，我们只训练最顶层（在输出层附近）几个新添加的编码器层。该方法可以大大减少训练时间，而不会明显降低性能。

论文标题：Length-Adaptive Transformer: Train Once with Length Drop, Use Anytime with Search

论文链接：https://openreview.net/forum?id=tqc8n6oHCtZ

论文摘要：我们训练一个大型Transformer，称为“长度自适应Transformer”，并将其用于各种推理场景而无需重新训练。为此，我们使用LengthDrop训练Transformer，它随机确定每一层序列的长度。然后，我们使用多目标进化搜索来找到长度配置，该长度配置可在任何给定的计算预算下最大化准确性并最小化计算复杂性。

论文标题：On the Stability of Fine-tuning BERT: Misconceptions, Explanations, and Strong Baselines

论文链接：https://openreview.net/forum?id=nzpLWnVAyah

论文摘要：确定了观察到BERT微调不稳定的两个潜在原因：灾难性的遗忘和微调数据集的小规模。在本文中，我们证明了这两种假设都无法解释微调的不稳定性。我们分析了BERT，RoBERTa和ALBERT，并根据GLUE基准对常用数据集进行了微调，并表明观察到的不稳定性是由导致梯度消失的优化困难引起的。此外，我们表明，下游任务性能的剩余差异可以归因于泛化差异，其中具有相同训练损失的微调模型表现出明显不同的测试性能。

论文标题：Learning Better Structured Representations Using Low-rank Adaptive Label Smoothing

论文链接：https://openreview.net/forum?id=5NsEIflpbSv

论文摘要：我们提出了低阶自适应标签平滑（LORAS）：一种简单而新颖的方法，用于对学习的软目标进行训练，该方法可以概括标签平滑并适应结构化预测任务中标签空间的潜在结构。具体来说，我们评估了我们针对面向任务的语义解析任务的方法，并表明，与适当的普通标签平滑相比，仅通过使用适当平滑的软目标进行训练，就可以将模型的准确性提高多达2％，并将校准错误减少55％平滑。

论文标题：Multi-Head Attention: Collaborate Instead of Concatenate

论文链接：https://openreview.net/forum?id=bK-rJMKrOsm

论文摘要：注意层广泛用于自然语言处理（NLP）中，并开始影响计算机视觉体系结构。但是，它们遭受过度参数化的困扰。我们提出了一个协作的多头关注层，该层使学习者能够学习共享的预测。我们的方案减少了注意层中的参数数量，并且可以用作任何Transformer体系结构中的替代品。

论文标题：Sequence-Level Features: How GRU and LSTM Cells Capture N-grams

论文链接：https://openreview.net/forum?id=Au1gNqq4brw

论文摘要：现代的递归神经网络（RNN），如门控递归单元（GRU）和长短期记忆（LSTM），已在涉及顺序数据的实践中证明了令人印象深刻的结果。我们提出了一项研究，通过数学扩展和展开隐藏状态来理解GRU / LSTM单元捕获的基本特征。具体而言，我们表明在某些温和的假设下，Cell的基本成分将由类似于N-gram的序列级特征组成。基于这样的发现，我们还发现，用近似的隐藏状态表示替换标准单元并不一定会降低情感分析和语言建模任务的性能。

论文标题：You Only Sample (Almost) Once: Linear Cost Self-Attention Via Bernoulli Sampling

论文链接：https://openreview.net/forum?id=7K0UUL9y9lE

论文摘要：我们表明，基于局部敏感哈希（LSH）的伯努利抽样注意机制，将二次复杂度降低为线性。我们通过将自我注意力视为与伯努利随机变量相关联的单个标记的总和来绕过二次成本，原则上可以通过单个散列一次对其进行采样（尽管实际上，此数字可能是一个小常数）。这导致一种有效的抽样方案来估计自我注意力，该方案依赖于LSH的特定修改（基于在GPU架构上部署的可行性）。我们在GLUE基准上以标准的512序列长度评估了我们提出的算法，并且我们的方法与标准的预训练Transformer相比具有可比甚至更好的性能。为了评估我们的方法是否确实可以处理更长的序列，我们在长序列（4096）语言模型预训练上进行了实验，并获得了一致的结果，作为标准的自我注意，同时观察到了相当大的推理速度和内存节省。

论文标题：Representational correlates of hierarchical phrase structure in deep language models

论文链接：https://openreview.net/forum?id=mhEd8uOyNTI

论文摘要：尽管基于Transformer的体系结构的上下文表示为许多NLP任务设置了新的标准，但尚未完全了解其内部工作原理。特别是，尚不清楚这些表示法捕获了句子级语法的哪些方面，也不清楚（如果有的话）它们是如何沿着网络的堆叠层构建的。在本文中，我们旨在通过基于输入扰动的通用类分析来解决此类问题。从计算和认知神经科学中引入表示不变性的概念，我们执行了一系列旨在测试Transformer表示对句子中几种结构的敏感性的探针。每个探查都涉及交换句子中的单词，并将被干扰的句子中的表示与原始表达进行比较。

论文标题：Why is Attention Not So Interpretable?

论文链接：https://openreview.net/forum?id=pQhnag-dIt

论文摘要：本文从因果效应估计的角度分析了为什么有时注意机制无法提供可解释的结果，并提供了两种方法来提高注意机制的可解释性。

论文标题：Revisiting Few-sample BERT Fine-tuning

论文链接：https://openreview.net/forum?id=cO1IH43yUF

论文摘要：本文是对BERT上下文表示的微调研究，重点是在少数样本情况下通常观察到的不稳定性。我们确定了导致这种不稳定的几个因素：带有偏斜估计的非标准优化方法的普遍使用；BERT网络的重要部分在下游任务中的适用性有限；以及使用预定的少量训练迭代的普遍做法。

论文标题：Later Span Adaptation for Language Understanding

论文链接：https://openreview.net/forum?id=HMEiDPTOTmY

论文摘要：我们提出了一种新颖的方法，该方法将跨度信息组合到微调阶段的PrLM生成的表示中，以提供更好的灵活性。这样，跨度级别文本的建模过程可以更适应于不同的下游任务。详细地说，我们根据预采样字典生成的分段将句子分为几个跨度。基于PrLM提供的子令牌级别表示，我们增强了每个跨度中令牌之间的连接，并获得具有增强的跨度级别信息的表示。

论文标题：DeLighT: Deep and Light-weight Transformer

论文链接：https://openreview.net/forum?id=ujmgfuxSLrO

论文摘要：本文提出DeLight，一种轻巧的深度Transformer，可在标准机器翻译和语言建模任务中将参数降低或降低2至3倍，从而达到或提高基准Transformer的性能。

论文标题：Interpreting Graph Neural Networks for NLP With Differentiable Edge Masking

论文链接：https://openreview.net/forum?id=WznmQa42ZAx

论文摘要：我们介绍了一种事后方法来解释GNN的预测，该方法可以识别不必要的边。给定训练的GNN模型，我们将学习一个简单的分类器，该分类器可针对每一层的每个边预测是否可以丢弃该边。

论文标题：Adaptive Self-training for Neural Sequence Labeling with Few Labels

论文链接：https://openreview.net/forum?id=ARFshOO1Iu

论文摘要：我们开发了自训练和元学习技术来解决神经序列标签模型的标签稀缺性挑战。自我训练是从大量未标记数据中学习的有效机制，而元学习可帮助对样本进行自适应加权，从而减轻了嘈杂的伪标记的错误传播。

论文标题：Random Feature Attention

论文链接：https://openreview.net/forum?id=QtTKTdVrFBB

论文摘要：我们提出了一种基于随机特征的注意力，该注意力在序列长度上线性扩展，并且在语言建模和机器翻译方面与强大的Transformer基线相当。

论文标题：Learning to Disentangle Textual Representations and Attributes via Mutual Information

论文链接：https://openreview.net/forum?id=qJIvFn8sOs

论文摘要：我们调查了学习通过相互信息最小化来解开文本表示形式和属性的问题，并将其应用于公平分类和句子生成。

论文标题：Synthesizer: Rethinking Self-Attention for Transformer Models

论文链接：https://openreview.net/forum?id=H-SPvQtMwm

论文摘要：我们提出合成注意力矩阵，并实现简单，高效和有竞争力的表现。

论文标题：The Lipschitz Constant of Self-Attention

论文链接：https://openreview.net/forum?id=DHSNrGhAY7W

论文摘要：理论研究表明，标准点积的自注意力不是Lipschitz，并且提供了基于L2距离的Lipschitz的自我注意的替代表达。

论文标题：K-Adapter: Infusing Knowledge into Pre-Trained Models with Adapters

论文链接：https://openreview.net/forum?id=CLnj31GZ4cI

论文摘要：我们提出K-Adapter，它保持了预先训练模型的原始参数不变，并支持持续的知识注入。以RoBERTa为预训练模型，K-Adapter具有用于每种注入的知识的神经适配器，在不同的适配器之间没有信息流，因此以分布式方式有效地训练了不同的适配器。

论文标题：Rethinking Positional Encoding in Language Pre-training

论文链接：https://openreview.net/forum?id=09-528y2Fgf

论文摘要：在这项工作中，我们研究了语言预训练中使用的位置编码方法（例如BERT），并确定了现有公式中的几个问题。我们提出了一种新的位置编码方法，TUPE。在自我注意模块中，TUPE使用不同的参数化分别计算单词上下文相关性和位置相关性，然后将它们加在一起。

论文标题：Rethinking Attention with Performers

论文链接：https://openreview.net/forum?id=Ua6zuk0WRH

论文摘要：我们介绍了Performer，仅使用线性（而不是二次）空间和时间复杂度，而无需依赖于诸如稀疏性或低等级的先验条件。为了近似softmax注意力内核，Performer使用一种新颖的通过正正交随机特征方法（FAVOR +）实现的快速注意力，它对于可扩展内核方法可能是独立关注的。

论文标题：Efficiently labelling sequences using semi-supervised active learning

论文链接：https://openreview.net/forum?id=BHBb-QVVkNS

论文摘要：我们提出一种使用主动学习的序列标记方法，该方法结合了标记和未标记的数据。我们以半监督的方式训练具有深层非线性潜力的局部上下文条件随机场，将未标记句子的缺失标记视为潜在变量。

论文标题：Taking Notes on the Fly Helps Language Pre-Training

论文链接：https://openreview.net/forum?id=lU5Rs_wCweN

论文摘要：我们采用“动态记录”（TNF），它会在预训练期间即时记录稀有单词，以帮助模型在下次出现时理解它们。具体而言，TNF会维护注释词典，并在句子中出现稀有单词时将稀有单词的上下文信息保存为注释。当在训练过程中再次出现相同的稀有单词时，可以使用事先保存的笔记信息来增强当前句子的语义。

论文标题：Reservoir Transformers

论文链接：https://openreview.net/forum?id=5FRJWsiLRmA

论文摘要：我们证明，即使某些层被随机初始化并且从未更新，Transformer也能获得令人印象深刻的性能。

论文标题：Conditionally Adaptive Multi-Task Learning: Improving Transfer Learning in NLP Using Fewer Parameters & Less Data

论文链接：https://openreview.net/forum?id=de11dbHzAMF

论文摘要：我们提出了一种基于Transformer的新型体系结构，该体系结构由新的条件注意机制以及一组有助于权重分配的任务条件模块组成。通过这种构造，我们可以通过保持固定的预训练模型权重的一半固定来实现更有效的参数共享并减轻遗忘。我们还使用一种新的多任务数据采样策略来减轻跨任务数据不平衡的负面影响。

问答与阅读理解

论文标题：Is Retriever Merely an Approximator of Reader?

论文链接：https://openreview.net/forum?id=dvXFpV6boX

论文摘要：开放域问答（QA）的最新技术依赖于有效的检索器，该检索器可大大减少昂贵阅读器的搜索空间。在社区中，一个相当被忽视的问题是检索者和读者之间的关系，特别是如果检索者的全部目的仅仅是读者的快速近似。我们的经验证据表明答案是否定的，即使仅在准确性方面，阅读器和检索器也是互补的。

论文标题：Cluster-Former: Clustering-based Sparse Transformer for Question Answering

论文链接：https://openreview.net/forum?id=VyENEGiEYAQ

论文摘要：在本文中，我们提出了Cluster-Former，这是一种新颖的基于聚类的稀疏Transformer，可在分块序列之间进行关注。所提出的框架集中在两种独特的Transformer层类型上：滑动窗口层和Cluster-Former层，它们共同并迭代地编码局部序列信息和全局上下文。这种新设计允许在本地窗口之外进行信息集成，这对于依赖于远程依赖关系的问答（QA）任务特别有用。

论文标题：Open Question Answering over Tables and Text

论文链接：https://openreview.net/forum?id=MmCRswl1UYl

论文摘要：我们提出了通过网络表格和文本回答开放域问题的新任务，并设计了新技术：1）融合检索2）跨块阅读器，以解决新任务带来的挑战。

论文标题：Uncertainty-Based Adaptive Learning for Reading Comprehension

论文链接：https://openreview.net/forum?id=s4D2nnwCcM

论文摘要：我们提出了一种用于阅读理解的基于不确定性的自适应学习算法，该算法将数据注释和模型更新交织在一起，以减轻标签的需求。

知识图谱

论文标题：Learning Contextualized Knowledge Graph Structures for Commonsense Reasoning

论文链接：https://openreview.net/forum?id=lJuOUWlAC8i

论文摘要：在本文中，我们提出了一种新的神经符号方法，称为混合图网络（HGN），该方法可联合生成新三元组的特征表示（作为对KG中现有边缘的补充），确定三元组与推理环境的相关性，并学习用于对关系信息进行编码的图形模型参数。我们的方法通过过滤对推理过程无用的边来学习紧凑的图结构（包含检索的边和生成的边）。

论文标题：Language Models are Open Knowledge Graphs

论文链接：https://openreview.net/forum?id=aRTRjVPkm-

论文摘要：本文介绍了由预先训练的语言模型（例如BERT，GPT-2）构建的知识图（KGs），无需人工监督。在本文中，我们提出了一种无监督的方法来将语言模型中的学习知识作为KG进行回忆。

论文标题：Interpreting Knowledge Graph Relation Representation from Word Embeddings

论文链接：https://openreview.net/forum?id=gLWj29369lW

论文摘要：基于对词嵌入的最新理论理解，我们将知识图关系分为三种类型，每种类型都推导了它们表示的明确要求。我们表明，关系表示的经验性质和领先的知识图表示方法的相对性能通过我们的分析是合理的。

论文标题：QuatRE: Relation-Aware Quaternions for Knowledge Graph Embeddings

论文链接：https://openreview.net/forum?id=hga0T0Qcli5

论文摘要：我们提出了一种有效的嵌入模型QuatRE，以学习知识图中实体和关系的四元数嵌入。QuatRE的目的是在四元数空间内具有汉密尔顿积的关系下增强头和尾实体之间的相关性。QuatRE通过进一步将每个关系与两个关系感知的四元数向量（分别用于旋转头和尾实体的四元数嵌入）相关联来实现此目标。

论文标题：JAKET: Joint Pre-training of Knowledge Graph and Language Understanding

论文链接：https://openreview.net/forum?id=SOVSJZ9PTO7

论文摘要：一个联合的预训练框架，可以同时对知识图和文本进行建模，并且可以在微调期间轻松适应新领域中看不见的知识图。

文本生成

论文标题：CoCon: A Self-Supervised Approach for Controlled Text Generation

论文链接：https://openreview.net/forum?id=VD_ozqvBy4W

论文摘要：我们使用Content-Conditioner（CoCon）来以细粒度级别控制具有内容输入的LM的输出文本。在我们的自我监督方法中，CoCon块学习通过以LM保留的内容输入为条件来帮助LM完成部分可观察的文本序列。

论文标题：GeDi: Generative Discriminator Guided Sequence Generation

论文链接：https://openreview.net/forum?id=TJSOfuZEd1B

论文摘要：我们使用GeDi作为将较小的LM用作生成鉴别符的有效方法，以指导大型LM的生成，使其更安全，更可控。GeDi通过对两个类条件分布进行归一化，通过贝叶斯规则计算所有可能的下一个标记的分类概率，从而指导每一步的生成；一个以期望的属性或控制代码为条件，而另一个以不期望的属性或反控制代码为条件。

论文标题：A Distributional Approach to Controlled Text Generation

论文链接：https://openreview.net/forum?id=jWkw45-9AbL

论文摘要：我们提出了一种分布式方法来解决从预训练的语言模型（LM）生成受控文本的问题。这种观点允许在单个正式框架中定义目标LM的“逐点”约束和“分布”约束，同时将初始LM的KL差异最小化分配。然后，将最佳目标分布唯一确定为明确的EBM（基于能量的模型）表示。从最佳表示中，我们然后通过策略梯度的自适应分布变量训练目标受控自回归LM。

论文标题：Resurrecting Submodularity for Neural Text Generation

论文链接：https://openreview.net/forum?id=FVhZIBWqykk

论文摘要：我们定义了具有亚模块功能的一类新颖的注意力机制，进而证明了有效神经覆盖的亚模块性。所得的注意模块提供了一种体系结构简单且凭经验有效的方法，可改善神经文本生成的覆盖范围。

论文标题：Straight to the Gradient: Learning to Use Novel Tokens for Neural Text Generation

论文链接：https://openreview.net/forum?id=JAlqRs9duhz

论文摘要：我们基于梯度分析提出了对MLE的简单修改，并在不同任务中对Token级退化进行了重大改进。

论文标题：A Text GAN for Language Generation with Non-Autoregressive Generator

论文链接：https://openreview.net/forum?id=wOI9hqkvu_

论文摘要：我们提出了带有非自回归生成器的文本GAN，可以使用基于梯度的方法从头开始对其进行有效训练，并将其应用于需要潜在变量的文本生成应用程序。

论文标题：Pre-training Text-to-Text Transformers to Write and Reason with Concepts

论文链接：https://openreview.net/forum?id=3k20LAiHYL2

论文摘要：为了增强常识性的预训练语言模型，我们提出了生成性和对比性目标，作为一般预训练和下游特定任务的微调之间的中间自我监督式预训练任务。我们还提出了一个联合训练框架，以统一生成目标和对比目标，从而使这些目标更加有效。

论文标题：TextSETTR: Label-Free Text Style Extraction and Tunable Targeted Restyling

论文链接：https://openreview.net/forum?id=T6RYeudzf1

论文摘要：我们提出了一种在完全没有标签的情况下训练样式转移模型的技术，并显示了生成的模型可以在测试时控制许多不同的样式属性（情感，方言，形式等）。

论文标题：Contrastive Learning with Adversarial Perturbations for Conditional Text Generation

论文链接：https://openreview.net/forum?id=Wga_hrCa3P3

论文摘要：我们通过将正对与负对进行对比来解决条件文本生成问题，从而使模型暴露于输入的各种有效或不正确的扰动下，以提高通用性。我们通过还在输入序列中添加较小的扰动以最小化其条件可能性来生成否定示例，并通过在施加较大的扰动的同时将其强制具有较高的条件可能性来生成正示例。

机器翻译

论文标题：Learning to Use Future Information in Simultaneous Translation

论文链接：https://openreview.net/forum?id=YjXnezbeCwG

论文摘要：我们提出了一种同时翻译的新方法，该方法由控制器（通过强化学习进行训练）指导，可以自适应地利用将来的信息来提高翻译质量。

论文标题：Self-supervised and Supervised Joint Training for Resource-rich Machine Translation

论文链接：https://openreview.net/forum?id=1yDrpckYHnN

论文摘要：自我监督的文本表示形式的预训练已成功应用于低资源神经机器翻译（NMT）。但是，它通常无法在资源丰富的NMT上获得显着收益。在本文中，我们提出了一种联合训练方法F2-XEnDec，以结合自我监督和监督学习来优化NMT模型。为了利用互补的自我监督信号进行监督学习，NMT模型在样本上进行了训练，这些样本是通过一种称为交叉编码器/解码器的新过程从单语和并行句子中杂交而来的。

论文标题：Hybrid-Regressive Neural Machine Translation

论文链接：https://openreview.net/forum?id=jYVY_piet7m

论文摘要：当使用小批量时，具有多次迭代的常规非自回归翻译不能加速解码，因此我们提出了混合回归翻译（HRT）来解决此问题。

论文标题：Gradient Vaccine: Investigating and Improving Multi-task Optimization in Massively Multilingual Models

论文链接：https://openreview.net/forum?id=F1vEjWK-lH_

论文摘要：在本文中，我们尝试通过损失函数几何的形式窥视多语言优化的黑匣子。我们发现沿优化轨迹测得的梯度相似度是一个重要信号，不仅与语言接近度而且与整体模型性能都很好地相关。这样的观察有助于我们发现现有基于梯度的多任务学习方法的关键局限性，因此，我们得出了一个简单且可扩展的优化程序，名为“梯度疫苗”，该方法鼓励针对完成任务的几何排列参数更新。

论文标题：Meta Back-Translation

论文链接：https://openreview.net/forum?id=3jjmdp7Hha

论文摘要：在本文中，我们提出了一种生成伪并行数据以进行反翻译的新方法，该方法可直接优化最终模型的性能。具体来说，我们提出了一种元学习框架，其中反向翻译模型学习将开发数据上的正向翻译模型的梯度与伪并行数据上的梯度进行匹配。

论文标题：Nearest Neighbor Machine Translation

论文链接：https://openreview.net/forum?id=7wCBOfJ8hJM

论文摘要：我们使用最近的邻居分类器扩展了经过预训练的机器翻译模型的解码器，从而在没有任何其他训练的情况下，极大地提高了单语言对，多语言和领域自适应设置下的性能。

论文标题：Deep Encoder, Shallow Decoder: Reevaluating Non-autoregressive Machine Translation

论文链接：https://openreview.net/forum?id=KpfasTaLUpq

论文摘要：我们研究具有不同深度的编码器和解码器的自回归模型。在给定足够深的编码器的情况下，单层自回归解码器可以以可比的推理速度大大胜过强大的非自回归模型。我们表明，与非自回归方法相比，自回归基线的速度劣势在三个方面被高估了：欠佳的层分配，速度测量不足和缺乏知识提炼。

对抗攻击

论文标题：Grey-box Extraction of Natural Language Models

论文链接：https://openreview.net/forum?id=cotg54BSX8

论文摘要：在本文中，我们介绍了在灰盒设置中针对大规模自然语言模型的代数攻击，其目标模型是经过预先训练的（公共）编码器，然后是单个（私有）分类层。我们的主要观察结果是，一小组任意的嵌入向量很可能构成分类层输入空间的基础，而灰匣子对手可以计算输入空间。

论文标题：InfoBERT: Improving Robustness of Language Models from An Information Theoretic Perspective

论文链接：https://openreview.net/forum?id=hpH98mK5Puk

论文摘要：我们提出了一种新颖的学习框架InfoBERT，用于从信息论的角度对预训练语言模型进行鲁棒的微调，并在NLI和QA任务的多个对抗性数据集上实现了最新的鲁棒性。

论文标题：Towards Robustness Against Natural Language Word Substitutions

论文链接：https://openreview.net/forum?id=ks5nebunVn_

论文摘要：我们介绍了一种新颖的对抗性稀疏凸组合（ASCC）方法。我们将单词替换攻击空间建模为凸包，并利用正则化项对实际替换实施扰动，从而使我们的建模与离散文本空间更好地保持一致。基于ASCC方法，我们进一步提出了ASCC防御，该防御利用ASCC生成最坏情况的扰动并将对抗性训练纳入鲁棒性。

论文标题：Better Fine-Tuning by Reducing Representational Collapse

论文链接：https://openreview.net/forum?id=OQ08SN70M1V

论文摘要：我们提出了一种对标准微调的轻量级增强功能，用参数噪声（从正态分布或均匀分布采样）替换了以前使用的对抗目标，从而在可能的情况下阻止了微调过程中的表示变化而不会损害性能。其性能优于整体方法，同时在计算上比其他微调方法廉价。

文本分类

论文标题：Neural Text Classification by Jointly Learning to Cluster and Align

论文链接：https://openreview.net/forum?id=PTG9NdIn3wt

论文摘要：分布文本聚类提供语义上有意义的表示，并捕获每个单词与语义聚类质心之间的相关性。我们通过潜在变量模型诱导聚类中心并与分布词嵌入进行交互，从而将神经文本聚类方法扩展到文本分类任务，以丰富标记的表示并测量标记与每个可学习的聚类质心之间的相关性。

论文标题：Cluster & Tune: Enhance BERT Performance in Low Resource Text Classification

论文链接：https://openreview.net/forum?id=Oz_4sa7hKhl

论文摘要：我们建议在调优之前和对BERT进行预训练之后添加一个无监督的中间分类步骤，并表明它可以提高数据受限情况下的性能。

信息抽取

论文标题：Counterfactual Thinking for Long-tailed Information Extraction

论文链接：https://openreview.net/forum?id=xYJpCgSZff

论文摘要：信息提取（IE）旨在从非结构化文本中提取结构化信息。但是，在实践中，长尾数据不平衡可能会导致深度学习模型出现严重的偏差问题，这是因为用于尾类的训练实例很少。为此，我们提出了一种基于语言结构和因果推理的新颖框架（名为Counterfactual-IE）三个关键成分。首先，通过将语法信息融合到各种主流的IE任务的结构化因果模型中，包括关系提取（RE），命名实体识别（NER）和事件检测（ED），我们的方法能够从不平衡的数据集。其次，基于事实语言结构生成反事实，以更好地计算推断阶段的直接影响。第三，我们提出了一种灵活的去偏方法，以便在推理阶段进行更可靠的预测。

论文标题：Prototypical Representation Learning for Relation Extraction

论文链接：https://openreview.net/forum?id=aCgLmfhIy_f

论文摘要：本文旨在从文本数据中学习预测性，可解释性和鲁棒性的关系表示形式，这些表示形式在不同的情况下均有效，包括监督学习，远程监督学习和few-shot学习。我们建议不要从上下文信息中推断每个关系的潜在原型，而不是仅仅依靠标签的监督，以最好地探索关系的内在语义。

论文标题：Empirical Analysis of Unlabeled Entity Problem in Named Entity Recognition

论文链接：https://openreview.net/forum?id=5jRVa89sZk

论文摘要：通过对综合数据集进行的经验研究，我们发现了性能下降的两个原因。一种是减少带注释的实体，另一种是将未标记的实体视为否定实例。我们提出了一种通用方法，该方法能够消除未标记实体带来的误导。核心思想是使用负采样将未标记实体进行训练的概率保持在非常低的水平。

论文标题：Segmenting Natural Language Sentences via Lexical Unit Analysis

论文链接：https://openreview.net/forum?id=PQlC91XxqK5

论文摘要：在这项工作中，我们提出了词法单元分析（LUA），这是用于一般序列分割任务的框架。给定自然语言句子后，LUA会为所有有效的细分候选者评分，并利用动态编程（DP）来提取得分最高的一个。

可解释性

论文标题：Unsupervised Discovery of Interpretable Latent Manipulations in Language VAEs

论文链接：https://openreview.net/forum?id=DGttsPh502x

论文摘要：在这项工作中，我们迈出了在语言潜在空间中无监督地解释可理解方向的第一步。令人惊讶地，我们发现在训练数据的VAE表示上运行PCA始终优于沿坐标和随机方向的移动。这种方法简单，可适应数据，不需要训练，并且可以发现有意义的方向。

模型压缩与集成

论文标题：MixKD: Towards Efficient Distillation of Large-scale Language Models

论文链接：https://openreview.net/forum?id=UFGEelJkLu5

论文摘要：我们使用数据混合蒸馏框架MixKD，该框架利用简单而有效的数据扩充方法Mixup，为生成的模型赋予更强的泛化能力。具体而言，除了原始的训练示例外，还鼓励学生模型在示例对的线性插值上模仿老师的行为。我们从理论上证明，MixKD在泛化误差和经验误差之间产生了较小的差距。

论文标题：Task-Agnostic and Adaptive-Size BERT Compression

论文链接：https://openreview.net/forum?id=wZ4yWvQ_g2y

论文摘要：我们提出了NAS-BERT，它利用神经结构搜索对自适应模型大小和跨下游任务的BERT压缩。

论文标题：Knowledge Distillation based Ensemble Learning for Neural Machine Translation

论文链接：https://openreview.net/forum?id=dGF96IxczpW

论文摘要：我们为NMT提出了一种基于知识蒸馏的集成学习方法，可以将多个模型的知识汇总到一个模型中。

论文标题：Structural Knowledge Distillation

论文链接：https://openreview.net/forum?id=3Jldbtfqfa

论文摘要：在本文中，我们推导了用于结构化预测的知识蒸馏目标的因式分解形式，对于教师和学生模型的许多典型选择而言，该形式易于处理。特别是，我们展示了在四种不同情况下，序列标签和依赖关系解析模型之间的结构知识精炼的可操作性和经验有效性：1）师生共享输出结构评分函数的相同分解形式；2）与教师分解相比，学生分解产生的子结构更小；3）教师分解比学生分解产生的子结构小；4）教师和学生的因式分解形式不兼容。

数据增强

论文标题：CoDA: Contrast-enhanced and Diversity-promoting Data Augmentation for Natural Language Understanding

论文链接：https://openreview.net/forum?id=Ozk9MrX1hvA

论文摘要：在本文中，我们提出了一种名为CoDA的新型数据增强框架，该框架通过有机地整合多个转换来合成各种信息丰富的增强示例。此外，引入了对比正则化以捕获所有数据样本之间的全局关系。

论文标题：XLA: A Robust Unsupervised Data Augmentation Framework for Cross-Lingual NLP

论文链接：https://openreview.net/forum?id=w5uur-ZwCXn

论文摘要：我们提出了XLA，这是一种在零资源转移学习场景中用于自我监督学习的新颖数据增强框架。特别地，假设目标语言任务中没有训练标签，XLA旨在解决从源语言任务分发到未知目标语言任务分发的跨语言适应问题。XLA的核心是通过数据增强和无监督样本选择来同时进行自我训练。

向量表示

论文标题：Universal Sentence Representations Learning with Conditional Masked Language Model

论文链接：https://openreview.net/forum?id=WDVD4lUCTzU

论文摘要：本文提出了一种新的训练方法，即条件屏蔽语言建模（CMLM），以有效地学习大规模未标记语料库中的句子表示。CMLM通过以相邻句子的编码向量为条件，将句子表示学习整合到MLM训练中。

论文标题：Rethinking Embedding Coupling in Pre-trained Language Models

论文链接：https://openreview.net/forum?id=xpFFI_NtgpW

论文摘要：我们在最新的预训练语言模型中重新评估在输入和输出嵌入之间共享权重的标准做法。我们表明，解耦的嵌入提供了增加的建模灵活性，从而使我们能够在多语言模型的输入嵌入中显着提高参数分配的效率。通过在Transformer层中重新分配输入的嵌入参数，我们可以在微调期间以相同数量的参数在标准自然语言理解任务上获得显着更好的性能。我们还表明，为输出嵌入分配额外的容量可以为模型提供好处，即使在预训练后将输出嵌入丢弃，该模型也可以在微调阶段持续存在。

论文标题：Disentangling Representations of Text by Masking Transformers

论文链接：https://openreview.net/forum?id=Dmpi13JiqcX

论文摘要：我们探讨了是否有可能通过识别预编码模型中的子网来学习解纠缠的表示形式，这些模型对表示形式的不同互补方面进行编码。具体来说，我们学习关于Transformer权重或隐藏单位的二进制掩码，以发现与特定变化因子相关的特征子集。这回避了在特定领域内从头开始训练解开模型的需求。

论文标题：Polar Embedding

论文链接：https://openreview.net/forum?id=TLfjwEFI527

论文摘要：层次结构的有效表示对于开发智能系统至关重要，因为大多数现实世界中的对象都按层次结构排列。我们使用极坐标嵌入来学习极坐标系统的表示形式。在极坐标中，对象用两个独立变量表示：半径和角度，这使我们可以根据层次结构中对象的普遍性和相似性的明确对应关系分别优化其值。此外，我们介绍了一种优化方法，该方法结合了控制梯度的损失函数和分布的迭代均匀化。

论文标题：Discrete Word Embedding for Logical Natural Language Understanding

论文链接：https://openreview.net/forum?id=4LHz4IFGLQ-

论文摘要：我们提出了一种无监督的神经模型，用于学习单词的离散嵌入。与现有的离散嵌入不同，我们的二进制嵌入支持类似于连续嵌入的矢量算术运算。我们的嵌入将每个单词表示为一组命题陈述，描述了经典/ STRIPS规划形式主义中的过渡规则。这使得嵌入与符号化，最新的经典规划求解器直接兼容。

论文标题：Filtered Inner Product Projection for Multilingual Embedding Alignment

论文链接：https://openreview.net/forum?id=A2gNouoXE7

论文摘要：在本文中，我们提出了一种将内部嵌入映射到公共表示空间的方法，即过滤内积投影（FIPP）。由于语义变化在语言和领域中无处不在，因此FIPP首先在两个嵌入中标识出通用的几何结构，然后仅在该通用结构上对齐这些嵌入的Gram矩阵。

论文标题：Anchor & Transform: Learning Sparse Embeddings for Large Vocabularies

论文链接：https://openreview.net/forum?id=Vd7lCMvtLqg

论文摘要：通过贝叶斯非参数解释对大型词汇的稀疏嵌入进行端到端学习，从而使嵌入表缩小多达40倍。

论文标题：Ruminating Word Representations with Random Noise Masking

论文链接：https://openreview.net/forum?id=pXi-zY262sE

论文摘要：我们介绍了一种更好的单词表示和性能训练方法，该方法是在训练模型后，逐步地，反复地向词嵌入中添加随机噪声和偏差，然后从头开始重新训练模型，但使用有噪声的词嵌入进行初始化。

论文标题：Neural Topic Model via Optimal Transport

论文链接：https://openreview.net/forum?id=Oos98K9Lv-k

论文摘要：本文提出了一种通过最佳传输的神经主题模型，该模型可以发现更连贯和多样的主题，并为常规文本和短文本提供更好的文档表示形式。

论文标题：Probing BERT in Hyperbolic Spaces

论文链接：https://openreview.net/forum?id=17VnwXYZyhH

论文摘要：这项工作提出了一系列几何上特殊的空间，即双曲空间，它们对层次结构表现出更好的归纳偏差，并且可能更好地揭示了在上下文表示中编码的语言层次。我们引入Poincare probe，可将这些嵌入投射到具有明确定义的层次结构的Poincaré子空间中。

论文标题：Contrasting distinct structured views to learn sentence embeddings

论文链接：https://openreview.net/forum?id=ZlIfK1wCubc

论文摘要：我们提出了一种自我监督的方法，该方法可通过多种显式句法结构的组合来构建句子嵌入。

论文标题：On Learning Universal Representations Across Languages

论文链接：https://openreview.net/forum?id=Uu1Nw-eeTxJ

论文摘要：在这项工作中，我们扩展了预训练的语言模型，以学习多种语言之间的通用表示，并展示了对跨语言理解和生成的有效性。

其他

论文标题：Transformer protein language models are unsupervised structure learners

论文链接：https://openreview.net/forum?id=fylclEqgvgd

论文摘要：无监督的接触预测对于揭示蛋白质结构确定和设计的物理，结构和功能限制至关重要。我们证明了Transformer注意图是从无监督语言建模目标中学习联系的。

论文标题：Token-Level Contrast for Video and Language Alignment

论文链接：https://openreview.net/forum?id=GRbZ91LKIya

论文摘要：建立视频和语言理解模型需要将语言概念和视频内容置于一个共享空间中。本文介绍了一种通过语法类（例如名词和动词）告知的简单令牌级别的对比损失（ToCo），以迫使模型优先考虑具体的语义方位词。ToCo不会掩盖输入，而是以对比方式为多模式对齐提供局部（上下文标记）和全局（词法类型）压力。

论文标题：Learning Chess Blindfolded

论文链接：https://openreview.net/forum?id=DGIXvEAJVd

论文摘要：我们提出了国际象棋语言建模的任务，以评估语言模型如何很好地捕获世界（棋盘）状态。国际象棋的简单而精确的动态特性允许（a）训练具有各种显式状态的模型，以及（b）在细粒度的水平上评估模型预测。

论文标题：Long Range Arena : A Benchmark for Efficient Transformers

论文链接：https://openreview.net/forum?id=qVyeW-grC2k

论文摘要：本文提出了一个系统且统一的基准，即“Long Range Arena”，专门用于评估在长上下文情况下的模型质量。我们的基准测试是一整套任务，由从1K到16K Token的一系列序列组成，涵盖了广泛的数据类型和形式，例如文本，自然，合成图像以及需要相似，结构和视觉空间推理的数学表达式。