Recently proposed BERT-based evaluation metrics for text generation perform well on standard benchmarks but are vulnerable to adversarial attacks, e.g., relating to information correctness. We argue that this stems (in part) from the fact that they are models of semantic similarity. In contrast, we develop evaluation metrics based on Natural Language Inference (NLI), which we deem a more appropriate modeling. We design a preference-based adversarial attack framework and show that our NLI based metrics are much more robust to the attacks than the recent BERT-based metrics. On standard benchmarks, our NLI based metrics outperform existing summarization metrics, but perform below SOTA MT metrics. However, when combining existing metrics with our NLI metrics, we obtain both higher adversarial robustness (15%-30%) and higher quality metrics as measured on standard benchmarks (+5% to 30%).


翻译:最近提出的基于BERT的文本生成评价指标在标准基准测试中表现良好,但容易受到对信息正确性的敌对攻击。我们认为这在一定程度上源于它们是语义相似性模型。相比之下,我们开发了基于自然语言推断(NLI)的评价指标,认为这是更合适的建模方法。我们设计了一个基于偏好的敌对攻击框架,并证明我们基于NLI的指标比最近的基于BERT的指标更加鲁棒。在标准基准测试中,我们的NLI指标优于现有的摘要指标,但低于最先进的机器翻译指标。然而,当将现有指标与我们的NLI指标相结合时,我们获得了更高的敌对鲁棒性(15%-30%)和在标准基准测试中测量的更高质量指标(+5%至30%)。

0
下载
关闭预览

相关内容

NeurlPS 2022 | 自然语言处理相关论文分类整理
专知会员服务
51+阅读 · 2022年10月2日
专知会员服务
18+阅读 · 2021年9月17日
【ACL2020放榜!】事件抽取、关系抽取、NER、Few-Shot 相关论文整理
深度学习自然语言处理
18+阅读 · 2020年5月22日
【推荐】自然语言处理(NLP)指南
机器学习研究会
35+阅读 · 2017年11月17日
国家自然科学基金
3+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
VIP会员
相关基金
国家自然科学基金
3+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
Top
微信扫码咨询专知VIP会员