深度学习的进步在许多自然语言处理(NLP)任务中取得了巨大成就。考虑到语言的性质,即序列数据,大多数NLP任务可以框架化为序列学习框架,如文本生成。作为现代NLP技术最重要的基础之一,自回归生成模型在大量NLP任务中实现了卓越的表现。因此,本论文强调了针对不同NLP任务改进自回归生成模型的重要性。尽管许多任务可以自然地适应序列学习框架,但其中一些任务,例如构建话语解析树,需要复杂的设计才能适应神经模型。因此,本论文首先强调了一个新颖的统一框架用于话语解析,该框架以自顶向下的深度优先方式构建话语树,并将任务框架为一个自回归生成任务,其目标是预测给定文本片段的节点位置。所提出的方法通过广泛的实证实验证明是有效的。

此外,我通过提出一个层次解码器扩展了上述框架,该解码器利用了当前处理节点的父节点和兄弟节点的信息。所提出的解码器利用了树结构的性质,并进一步提高了话语解析和依存解析任务的实验性能。 另一方面,用于训练自回归生成模型的事实策略,即交叉熵损失和教师强制,在某些方面被证明是有问题的。例如,交叉熵损失,作为一种广泛使用的训练目标函数,常常导致文本生成中的文本退化,而教师强制则遭受曝光偏差问题,即训练和测试设置之间存在不匹配。针对文本退化,我引入了一类递减注意力机制,该机制强制序列到序列模型中通过交叉注意力计算的覆盖度的次模性。所提出的递减注意力在几个神经文本生成任务上取得了显著改进,包括文本摘要、机器翻译和图像段落生成。

进一步,我提出了一个新的训练目标ScaleGrad,以替代交叉熵,显著减少了不同文本生成任务中的退化问题。实际上,ScaleGrad可以扩展到文本退化之外的问题。它为通过直接修改输出层中的梯度信息将不同的归纳偏差注入文本生成模型提供了广泛的灵活性。

接下来,对于曝光偏差问题,本论文引入了一种基于训练准确性的新型计划采样,与现有的计划采样方法相比,只需要极少的超参数调整。此外,提出了一种新颖的模仿损失,以进一步强制模型的生成行为与教师强制行为相匹配。此外,本论文证明,减少曝光偏差可以提高语言模型对重复和有害错误的鲁棒性。

成为VIP会员查看完整内容
23

相关内容

博士论文是由攻读博士学位的研究生所撰写的学术论文。它要求作者在博士生导师的指导下,选择自己能够把握和驾驭的潜在的研究方向,开辟新的研究领域。由此可见,这就对作者提出了较高要求,它要求作者必须在本学科的专业领域具备大量的理论知识,并对所学专业的理论知识有相当深入的理解和思考,同时还要具有相当水平的独立科学研究能力,能够为在学科领域提出独创性的见解和有价值的科研成果。因而,较之学士论文、硕士论文,博士论文具有更高的学术价值,对学科的发展具有重要的推动作用。
【CMU博士论文】语言理解与生成优化技术,145页pdf
专知会员服务
34+阅读 · 2023年11月22日
【MIT博士论文】人工智能系统的组合泛化,194页pdf
专知会员服务
53+阅读 · 2023年11月15日
【MIT博士论文】从未整理数据中的鲁棒学习,220页pdf
专知会员服务
47+阅读 · 2023年11月10日
【ETHZ博士论文】物理启发式机器学习,185页pdf
专知会员服务
58+阅读 · 2023年10月22日
【MIT博士论文】用于口语处理的迁移学习,202页pdf
专知会员服务
26+阅读 · 2023年8月14日
【MIT博士论文】实用机器学习的高效鲁棒算法,142页pdf
专知会员服务
55+阅读 · 2022年9月7日
专知会员服务
62+阅读 · 2021年4月11日
【MIT博士论文】数据高效强化学习,176页pdf
最新《图嵌入组合优化》综述论文,40页pdf
【干货书】计算机科学离散数学,627页pdf
专知
54+阅读 · 2020年8月31日
【KDD2020】图神经网络:基础与应用,322页ppt
国家自然科学基金
3+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
29+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2008年12月31日
Arxiv
131+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
325+阅读 · 2023年3月31日
Arxiv
53+阅读 · 2023年3月26日
Arxiv
111+阅读 · 2023年3月24日
Arxiv
15+阅读 · 2023年3月17日
VIP会员
相关VIP内容
【CMU博士论文】语言理解与生成优化技术,145页pdf
专知会员服务
34+阅读 · 2023年11月22日
【MIT博士论文】人工智能系统的组合泛化,194页pdf
专知会员服务
53+阅读 · 2023年11月15日
【MIT博士论文】从未整理数据中的鲁棒学习,220页pdf
专知会员服务
47+阅读 · 2023年11月10日
【ETHZ博士论文】物理启发式机器学习,185页pdf
专知会员服务
58+阅读 · 2023年10月22日
【MIT博士论文】用于口语处理的迁移学习,202页pdf
专知会员服务
26+阅读 · 2023年8月14日
【MIT博士论文】实用机器学习的高效鲁棒算法,142页pdf
专知会员服务
55+阅读 · 2022年9月7日
专知会员服务
62+阅读 · 2021年4月11日
相关基金
国家自然科学基金
3+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
29+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2008年12月31日
微信扫码咨询专知VIP会员