【纽约大学博士论文】在大型语言模型时代的自然语言处理评估，152页pdf

自然语言处理（NLP）领域因创建和大量传播预训练的大型语言模型而发生了巨大变化，这些模型是在互联网规模的文本数据上预训练的。这些模型在众多NLP任务上带来了显著的改进。然而，随着这些模型的能力提高现有任务基准的性能，迫切需要与当前模型同步更新的评估指标。在这篇论文中，我们开发了基准和利用预训练语言模型的NLP评估方法。我们首先提出了两个多任务基准，用于评估NLP模型的泛化能力，并讨论了这些基准在大型语言模型开发中的作用。接下来，我们展示了我们可以利用预训练语言模型的能力来开发新的自动评估指标，更好地衡量模型生成文本的语义。具体来说，我们利用预训练模型的问答能力来评估自动生成摘要的准确性。最后，我们探索了为解决语言模型复制基准数据集中的噪声所暴露的数据质量问题而众包高质量且具有挑战性的文本生成数据的方法。总的来说，我们展示了预训练语言模型的崛起在如何评估NLP系统方面既带来了挑战也带来了机遇，并且将这些模型纳入我们的评估方法提供了一条有前景的路径。

在标准的监督式机器学习问题中，我们会获得一个数据集来训练模型，以及另一个从与训练相同分布中抽取的保留数据集，用来评估所学习模型的质量。然而，在自然语言处理（NLP）中，任务输入和/或输出为文本时，对于那些可以应用于任意NLP任务的模型（不仅仅是那些与模型训练数据分布相匹配的任务）的兴趣日益增加。因为这些任务都在某种程度上涉及到人类语言，所以希望某种理解语言的模型能够将这种理解转移到不同的任务上。这种希望催生了预训练语言模型，这些庞大的机器学习模型在数百亿的令牌上进行语言建模目标的训练，并且在下游NLP任务上具有极好的泛化能力。预训练语言模型的快速发展和传播对各种长期存在的NLP任务产生了深远的影响，例如文本分类和问题回答[Devlin et al. 2019; Radford et al. 2018; Lewis et al. 2020; Raffel et al. 2020, 等]，并且也迅速促进了令人惊讶的新能力的发展，如编写代码[Austin et al. 2021]和解决数学问题[Hendrycks et al. 2021]。

预训练语言模型带来的进步为我们评估NLP系统的方式提供了一系列机会。预训练语言模型在各种任务的长期基准数据集上推动了迅速进展，饱和了这些数据集并限制了它们的效用。为了继续能够准确地衡量这些模型的能力，我们必须开发构建更具挑战性和更高质量评估数据的新方法。此外，由于它们泛化到下游任务的能力不受以前方法的限制，我们必须创建新的评估范式来量化这种泛化能力，并衡量它们执行新技能的能力。与此同时，我们可以尝试将这些模型的新兴能力纳入评估方法本身。在这篇论文中，我们探索了这些问题和机会。

首先，我们开发评估资源来衡量预训练模型适应不同任务的效果。在第2章中，我们介绍了GLUE基准，该基准衡量NLP系统泛化到多样化任务和设置的能力。GLUE基准是一个多任务基准，所有任务共享相同的任务格式，但其中一些任务训练数据集只包含几百个示例，需要从某个外部来源转移知识以在任务上表现良好。GLUE在领域中迅速被采纳，其最新成果迅速达到了与人类众包工作者在该基准上的表现相饱和的程度。在第3章中，我们介绍了SuperGLUE基准，该基准通过选择一组更多样化的任务格式和更具挑战性的任务集来刷新GLUE基准。与GLUE基准一样，SuperGLUE基准已成为衡量NLP模型泛化的标准方法之一。

接下来，随着基于大型LM的NLP模型能力的不断发展，我们可以利用它们以前所未有的方式更稳健地评估系统能力。在第4章中，我们探索了在检测神经文本摘要系统输出中的幻觉方面使用预训练语言模型的用途。尽管文本生成模型的输出变得高度流畅，但它们经常包含与之前生成的令牌或它们所依赖的输入文档相矛盾的不一致之处。这些幻觉或不一致是文本生成系统可用性和可靠性的主要障碍，但现有的自然语言生成系统评估指标对这类错误不敏感。我们将检测这些幻觉的问题分解为问答和问题生成两个问题，这两个问题是预训练语言模型近年来取得显著进展的领域。我们展示了基于预训练语言模型的评估指标在检测生成文本中的幻觉方面，与现有评估指标相比有显著的改进。该方法的成功预示了利用预训练模型衡量生成文本的各种属性的前景，这些属性是前一代评估指标所无法涵盖的。

最后，随着系统能力的发展，我们的评估数据也需要相应地发展，因为旧数据集饱和，更强大的模型更能利用意外偏见并揭示评估数据中的问题。为文本生成任务获取和维护高质量数据尤其具有挑战性，因为文本生成数据集通常依赖于查找自然发生的数据源或使用启发式方法将数据源转化为任务格式。在摘要的背景下，这种数据集创建方法导致基准数据集包含了许多被模型捕获的问题[Kryscinski et al. 2019]。在第5章中，我们探索了为自然语言生成任务创建高质量测试集的替代方法。特别是，我们专注于以成本效益的方式为短篇小说众包摘要。所产生的数据集SQuALITY是一个高质量的多参考摘要数据集，超出了现有摘要模型的能力。总而言之，我们展示了大型语言模型时代NLP模型评估领域的概览，包括评估这些模型的方法以及将这些模型纳入评估方法。我们在第6章以开放问题和进一步研究现代NLP系统的稳健评估的机会的讨论作为总结。

成为VIP会员查看完整内容

相关内容

博士论文

关注 96

博士论文是由攻读博士学位的研究生所撰写的学术论文。它要求作者在博士生导师的指导下，选择自己能够把握和驾驭的潜在的研究方向，开辟新的研究领域。由此可见，这就对作者提出了较高要求，它要求作者必须在本学科的专业领域具备大量的理论知识，并对所学专业的理论知识有相当深入的理解和思考，同时还要具有相当水平的独立科学研究能力，能够为在学科领域提出独创性的见解和有价值的科研成果。因而，较之学士论文、硕士论文，博士论文具有更高的学术价值，对学科的发展具有重要的推动作用。

【慕尼黑大学博士论文】可解释自动化机器学习，200页pdf

专知会员服务

38+阅读 · 2023年12月17日

【剑桥大学博士论文】机器学习中的分布外泛化，214页pdf

专知会员服务

80+阅读 · 2023年9月13日

【斯坦福博士论文】基于结构化状态空间的序列建模，330页pdf

专知会员服务

41+阅读 · 2023年6月28日

【CMU博士论文】基于机器学习的预测: 准确性、可解释性和效率，161页pdf

专知会员服务

66+阅读 · 2023年6月8日