【ACL2020-Allen AI】预训练语言模型中的无监督域聚类

2020 年 4 月 7 日 专知

在NLP中,“域内数据”的概念常常过于简单和模糊,因为文本数据在许多细微的语言方面存在差异,比如主题、风格或正式程度。此外,域标签很多时候是不可用的,这使得构建特定于域的系统变得很困难。我们证明了大量的预先训练的语言模型隐式地学习句子表示,这些句子表示在没有监督的情况下由域进行聚类——这表明文本数据中域的简单数据驱动定义。我们利用这一特性,提出了基于这些模型的域数据选择方法,这些方法只需要少量的域内单语数据。我们评估了我们的神经机器翻译的数据选择方法在五个不同的领域,在这些领域中,它们的表现优于现有的方法,包括BLEU和句子选择的精确度以及对oracle的召回率。


https://www.zhuanzhi.ai/paper/5062ad19e073eefacbe9497a201f71d6


专知便捷查看

便捷下载,请关注专知公众号(点击上方蓝色专知关注)

  • 后台回复“UDC” 就可以获取【ACL2020-Allen AI】预训练语言模型中的无监督域聚类》专知下载链接

专知,专业可信的人工智能知识分发,让认知协作更快更好!欢迎注册登录专知www.zhuanzhi.ai,获取5000+AI主题干货知识资料!
欢迎微信扫一扫加入专知人工智能知识星球群,获取最新AI专业干货知识教程资料和与专家交流咨询
点击“ 阅读原文 ”,了解使用 专知 ,查看获取5000+AI主题知识资源
登录查看更多
0

相关内容

【ACL2020】多模态信息抽取,365页ppt
专知会员服务
140+阅读 · 2020年7月6日
【ACL2020】利用模拟退火实现无监督复述
专知会员服务
13+阅读 · 2020年5月26日
【ACL2020-复旦大学NLP】异构图神经网络的文档摘要提取
专知会员服务
34+阅读 · 2020年5月1日
【ACL2020-Google】逆向工程配置的神经文本生成模型
专知会员服务
16+阅读 · 2020年4月20日
【ACL2020-伯克利】预训练Transformer提高分布外鲁棒性
专知会员服务
19+阅读 · 2020年4月14日
【ACL2020-Facebook AI】大规模无监督跨语言表示学习
专知会员服务
33+阅读 · 2020年4月5日
零样本图像识别综述论文
专知
20+阅读 · 2020年4月4日
基于深度学习的文本生成【附217页PPT下载】
专知
35+阅读 · 2018年11月24日
Neural Module Networks for Reasoning over Text
Arxiv
9+阅读 · 2019年12月10日
VIP会员
Top
微信扫码咨询专知VIP会员