论文摘要: 我们提出了一个大型的可调神经会话响应生成模型DIALOGPT(对话生成预训练Transformer)。经过2005年至2017年期间从Reddit评论中提取147M大小的类似的对话内容,DialoGPT扩展了Hugging Face PyTorch transformer,在单轮对话设置中实现了在自动和人类评估性方面都接近人类。我们表明,利用DialoGPT的会话系统比基线系统生成更相关、更有内容和上下文一致的响应。预训练的模型和训练方法已经公开发布,以促进对神经响应生成的研究和更智能的open-domain对话系统的开发。

代码链接https://github.com/microsoft/DialoGPT

成为VIP会员查看完整内容
0
17

相关内容

计算学习理论(Computational learning theory)研究的是关于通过“计算”来进行“学习”的理论,即关于机器学习的理论基础,其目的是分析学习任务的困难本质,为学习算法提供理论保证,并根据分析结果指导算法设计。

题目: Span-ConveRT: Few-shot Span Extraction for Dialog with Pretrained Conversational Representations

摘要:

本文介绍了Span-ConveRT,这是一种用于对话框槽填充的轻量级模型,它将任务描述为基于轮的span提取任务。这个公式允许简单地集成编码在大型预先训练的会话模型中的会话知识,如ConveRT (Henderson等人,2019)。我们展示了在Span-ConveRT中利用这些知识对于很少的学习场景特别有用:

  • 一个跨度提取器,在目标域从零开始训练表示,
  • 基于bert的跨度提取器。

为了激发更多关于填槽任务的span提取的工作,我们还发布了RESTAURANTS-8K,这是一个新的具有挑战性的数据集,包含8,198个话语,是从餐馆预订领域的实际对话中汇编而成。

成为VIP会员查看完整内容
0
12

最近的研究表明,预训练文本表示能够显著提高许多自然语言处理任务的性能。训练的中心目标是学习对后续任务有用的文本表示形式。然而,现有的方法是通过最小化代理目标(如语言建模的负日志可能性)来优化的。在这项工作中,我们介绍了一个学习算法,它直接优化模型学习文本表示的能力,以有效地学习下游任务。我们证明了多任务预训练和模型不可知的元学习之间有着内在的联系。BERT中采用的标准多任务学习目标是元训练深度为零的学习算法的一个特例。我们在两种情况下研究了这个问题:无监督的预训练和有监督的预训练,不同的预训练对象验证了我们的方法的通用性。实验结果表明,我们的算法对各种下游任务进行了改进,获得了更好的初始化。

成为VIP会员查看完整内容
0
31

题目: TinyMBERT: Multi-Stage Distillation Framework for Massive Multi-lingual NER

简介: 深度和大型预训练语言模型是各种自然语言处理任务的最新技术。但是,这些模型的巨大规模可能会阻碍在实践中使用它们。一些近期和并行的工作使用知识蒸馏将这些巨大的模型压缩为浅层模型。在这项工作中,我们重点研究多语言命名实体识别(NER)的知识提炼。特别是,我们研究了几种蒸馏策略,并提出了一个阶段性的优化方案,该方案利用了与教师架构无关的教师内部表示形式,并表明它优于先前工作中采用的策略。此外,我们调查了几个因素的作用,例如未标记数据的数量,注释资源,模型架构和推理延迟仅举几例。我们证明了我们的方法可以对MBERT类教师模型进行大规模压缩,在参数推断方面最多可压缩35倍,在延迟方面则可压缩51倍,同时为41种语言的NER有95%的F1分数。

成为VIP会员查看完整内容
0
25

As a crucial component in task-oriented dialog systems, the Natural Language Generation (NLG) module converts a dialog act represented in a semantic form into a response in natural language. The success of traditional template-based or statistical models typically relies on heavily annotated data, which is infeasible for new domains. Therefore, it is pivotal for an NLG system to generalize well with limited labelled data in real applications. To this end, we present FewShotWoz, the first NLG benchmark to simulate the few-shot learning setting in task-oriented dialog systems. Further, we develop the SC-GPT model. It is pre-trained on a large set of annotated NLG corpus to acquire the controllable generation ability, and fine-tuned with only a few domain-specific labels to adapt to new domains. Experiments on FewShotWoz and the large Multi-Domain-WOZ datasets show that the proposed SC-GPT significantly outperforms existing methods, measured by various automatic metrics and human evaluations.

0
22
下载
预览

题目: Pre-training Tasks for Embedding-based Large-scale Retrieval

摘要:

我们考虑大型查询文档检索问题:给定一个查询(例如,一个问题),从大型文档语料库返回相关文档集(例如,包含答案的段落)。这个问题通常分两步解决。检索阶段首先减少解决方案空间,返回候选文档的子集。然后评分阶段重新排列文档。关键是,该检索算法不仅要求较高的查全率,而且要求具有较高的效率,能够及时返回与文档数量成次线性关系的候选对象。不像评分阶段,由于交叉注意力模型上的伯特式训练任务,最近取得了重大进展,检索阶段仍然没有得到很好的研究。以前的大部分工作依赖于经典的信息检索(IR)方法,如BM-25(令牌匹配+ TF-IDF权值)。这些模型只接受稀疏的手工特性,不能针对感兴趣的不同下游任务进行优化。本文对基于嵌入式的检索模型进行了全面的研究。我们证明了学习强嵌入式变压器模型的关键是训练前的任务集。通过充分设计分段级的预训练任务,变压器模型比广泛使用的BM-25模型以及没有变压器的嵌入模型有显著的改进。我们研究的分段式预训练任务包括Inverse Close Task(ICT)、Body First Selection(BFS)、Wiki Link Prediction(WLP)以及三者的结合。

成为VIP会员查看完整内容
0
22

题目: IMAGEBERT: CROSS-MODAL PRE-TRAINING WITH LARGE-SCALE WEAK-SUPERVISED IMAGE-TEXT DATA

摘要: 本文介绍了一种新的用于图像-文本联合嵌入的视觉语言预训练模型图像BERT。我们的模型是一个基于Transformer的模型,它以不同的模态作为输入,对它们之间的关系进行建模。该模型同时进行了四项任务的预训练:掩蔽语言建模(MLM)、掩蔽对象分类(MOC)、掩蔽区域特征回归(MRFR)和图像文本匹配(ITM)。为了进一步提高预训练的质量,我们从Web上收集了一个大规模的弱监督图像-文本(LAIT)数据集。我们首先在这个数据集上对模型进行预训练,然后对概念字幕和SBU字幕进行第二阶段的预训练。实验结果表明,多阶段预训练策略优于单阶段预训练策略。我们还在图像检索和文本检索任务上对预先训练好的ImageBERT模型进行了调优和评估,并在MSCOCO和Flickr30k数据集上获得了最好的效果。

成为VIP会员查看完整内容
0
31

题目

知识增强的常识性故事生成预训练模型,A Knowledge-Enhanced Pretraining Model for Commonsense Story Generation

关键字

知识增强,故事生成,预训练,机器学习,神经网络,语言模型

简介

故事生成,即从主导语境中生成真实的故事,是一项重要而富有挑战性的任务。尽管成功建模流畅性和本地化,现有的神经语言生成模型(例如,GPT-2)仍然遭受重复,逻辑冲突,缺乏长期连贯性在生成的故事。我们推测,这是由于关联相关常识知识、理解因果关系、规划实体和事件具有适当的时间顺序等方面的困难,本文设计了一个常识故事生成的知识增强预训练模型,并提出了利用常识知识的方法来自外部知识库的知识,以生成合理的故事。为了进一步捕捉可推理故事中句子之间的因果关系和时间依赖关系,我们采用了多任务学习法,在微调过程中结合辨别目标来区分真假故事。自动和手动评估表明,我们的模型可以生成比艺术基线状态更合理的故事,特别是在逻辑和全局一致性方面。

作者

Jian Guan, Fei Huang, Xiaoyan Zhu, Minlie Huang,来自人工智能研究所,智能技术与系统国家重点实验室;北京国家信息科学技术研究中心;清华大学计算机科学与技术系。 Zhihao Zhao,来自北京航空航天大学软件学院。

成为VIP会员查看完整内容
0
35

论文题目: A Pre-training Based Personalized Dialogue Generation Model with Persona-sparse Data

论文摘要: 赋予对话系统以人物角色是实现更人性化对话的关键。然而,由于在自然语言中很难体现个性,以及在大多数对话语料库中观察到的人物稀疏性问题,这一问题还远未得到很好的探讨。本论文提出了一种基于预训练的个性化对话模型,该模型可以利用人物角色稀疏对话数据生成一致响应。该方法利用预先训练好的语言模型来初始化编解码器,并通过将说话人的角色和对话历史一起编码,设计了个人属性嵌入来建模更丰富的对话上下文。此外,为了在解码过程中合并目标人物角色并平衡其贡献,在解码器中设计了注意路由结构,以使用动态预测权重合并从目标人物角色提取的特征和对话上下文。我们的模型可以在训练过程中统一使用人物角色稀疏对话,也可以控制推理过程中要显示的人物角色相关特征的数量。无论是自动评估还是手动评估都表明,该模型在使用人物角色稀疏数据生成更一致和人物角色一致的响应方面优于最新方法。

成为VIP会员查看完整内容
0
22

We present a large, tunable neural conversational response generation model, DialoGPT (dialogue generative pre-trained transformer). Trained on 147M conversation-like exchanges extracted from Reddit comment chains over a period spanning from 2005 through 2017, DialoGPT extends the Hugging Face PyTorch transformer to attain a performance close to human both in terms of automatic and human evaluation in single-turn dialogue settings. We show that conversational systems that leverage DialoGPT generate more relevant, contentful and context-consistent responses than strong baseline systems. The pre-trained model and training pipeline are publicly released to facilitate research into neural response generation and the development of more intelligent open-domain dialogue systems.

0
5
下载
预览
小贴士
相关VIP内容
专知会员服务
21+阅读 · 2020年4月7日
相关论文
Few-shot Natural Language Generation for Task-Oriented Dialog
Baolin Peng,Chenguang Zhu,Chunyuan Li,Xiujun Li,Jinchao Li,Michael Zeng,Jianfeng Gao
22+阅读 · 2020年2月27日
UniViLM: A Unified Video and Language Pre-Training Model for Multimodal Understanding and Generation
Huaishao Luo,Lei Ji,Botian Shi,Haoyang Huang,Nan Duan,Tianrui Li,Xilin Chen,Ming Zhou
14+阅读 · 2020年2月15日
Jian Wang,Junhao Liu,Wei Bi,Xiaojiang Liu,Kejing He,Ruifeng Xu,Min Yang
12+阅读 · 2019年12月16日
DialoGPT: Large-Scale Generative Pre-training for Conversational Response Generation
Yizhe Zhang,Siqi Sun,Michel Galley,Yen-Chun Chen,Chris Brockett,Xiang Gao,Jianfeng Gao,Jingjing Liu,Bill Dolan
5+阅读 · 2019年11月1日
Question Generation by Transformers
Kettip Kriangchaivech,Artit Wangperawong
3+阅读 · 2019年9月14日
Zhilin Yang,Zihang Dai,Yiming Yang,Jaime Carbonell,Ruslan Salakhutdinov,Quoc V. Le
13+阅读 · 2019年6月19日
Sergey Edunov,Alexei Baevski,Michael Auli
3+阅读 · 2019年4月1日
Chris Alberti,Kenton Lee,Michael Collins
6+阅读 · 2019年3月21日
Oluwatobi Olabiyi,Alan Salimov,Anish Khazane,Erik T. Mueller
4+阅读 · 2018年6月11日
Furu Wei
4+阅读 · 2018年5月10日
Top