https://arxiv.org/abs/2007.01488

文本生成模型的基本目标是拟合文本数据的真实概率分布,拟合的程度一般可以由散度(Divergence)来度量。然而散度对于模型诊断所提供的信息有限,仅凭散度无法判断模型效果不好是由于生成文本可读性差还是多样性不足造成的。因此在模型研究或应用的评价阶段,研究者往往使用质量和多样性两类指标进行联合评价。高质量意味着生成的文本所含语法逻辑错误较少,而高多样性指的是生成的多条文本之间有足够大的差异。尽管质量/多样性的联合评价已被广泛应用于新模型的评价,两者之间所呈现的互为权衡的现象仍没有可靠的解释;而且这种评价方式是否还能充分反映原来分布拟合的目标仍是一个未知的问题。本文主要针对以上问题展开理论和实验上的分析。

成为VIP会员查看完整内容
17

相关内容

【ICML2020】统一预训练伪掩码语言模型
专知会员服务
27+阅读 · 2020年7月23日
【ICML2020-浙江大学】对抗性互信息的文本生成
专知会员服务
44+阅读 · 2020年7月4日
AAAI 2020 | 多模态基准指导的生成式多模态自动文摘
AI科技评论
16+阅读 · 2020年1月5日
从无到有!自动化所提出海量虚拟数据生成新方法
中国科学院自动化研究所
5+阅读 · 2019年9月16日
交通评价指标概略
智能交通技术
15+阅读 · 2019年7月21日
干货 | 一文详解隐含狄利克雷分布(LDA)
人工智能头条
10+阅读 · 2018年7月8日
Attentive Graph Neural Networks for Few-Shot Learning
Arxiv
40+阅读 · 2020年7月14日
Adversarial Transfer Learning
Arxiv
12+阅读 · 2018年12月6日
Arxiv
5+阅读 · 2018年5月21日
VIP会员
相关资讯
AAAI 2020 | 多模态基准指导的生成式多模态自动文摘
AI科技评论
16+阅读 · 2020年1月5日
从无到有!自动化所提出海量虚拟数据生成新方法
中国科学院自动化研究所
5+阅读 · 2019年9月16日
交通评价指标概略
智能交通技术
15+阅读 · 2019年7月21日
干货 | 一文详解隐含狄利克雷分布(LDA)
人工智能头条
10+阅读 · 2018年7月8日
相关论文
Attentive Graph Neural Networks for Few-Shot Learning
Arxiv
40+阅读 · 2020年7月14日
Adversarial Transfer Learning
Arxiv
12+阅读 · 2018年12月6日
Arxiv
5+阅读 · 2018年5月21日
微信扫码咨询专知VIP会员