The model's ability to understand synonymous expression is crucial in many kinds of downstream tasks. It will make the model to better understand the similarity between context, and more robust to the synonym substitution attack. However, many Pretrained Language Model (PLM) lack synonym knowledge due to limitation of small-scale synsets and PLM's pretraining objectives. In this paper, we propose a framework called Sem4SAP to mine synsets from Open Knowledge Graph (Open-KG) and using the mined synsets to do synonym-aware pretraining for language models. We propose to coarsly filter the content in Open-KG and use the frequency information to better help the clustering process under low-resource unsupervised conditions. We expand the mined synsets by migrating core semantics between synonymous expressions.We also propose two novel and effective synonym-aware pre-training methods for injecting synonym knowledge into PLMs.Extensive experiments demonstrate that Sem4SAP can dramatically outperform the original PLMs and other baselines on ten different tasks.


翻译:模型理解同义表达式的能力对于许多下游任务是至关重要的。它将使模型更好地理解上下文之间的相似性,并对同义词替换攻击更加鲁棒。然而,许多预训练语言模型(PLM)由于小型同义词集和PLM的预训练目标的限制而缺乏同义知识。因此,本文提出一种名为Sem4SAP的框架,该框架可从开放知识图谱(Open-KG)中挖掘同义词集,并使用挖掘到的同义词集用于模型的同义词感知预训练。我们提出了对Open-KG中的内容进行粗筛选并使用频率信息来更好地帮助小资源无监督条件下的聚类过程。我们通过迁移同义表达式之间的核心语义来扩展挖掘到的同义词集。我们还提出了两种新颖有效的为PLMs注入同义知识的同义词感知预训练方法。广泛实验表明,Sem4SAP可以在10个不同的任务上比原始PLMs和其他基线显著提高性能。

0
下载
关闭预览

相关内容

NeurlPS 2022 | 深度双向语言-知识图谱预训练
专知会员服务
9+阅读 · 2022年11月28日
「知识增强预训练语言模型」最新研究综述
专知会员服务
58+阅读 · 2022年11月18日
专知会员服务
41+阅读 · 2021年6月6日
【AAAI2021】知识增强的视觉-语言预训练技术 ERNIE-ViL
专知会员服务
25+阅读 · 2021年1月29日
最新BERT相关论文清单,BERT-related Papers
专知会员服务
52+阅读 · 2019年9月29日
「知识增强预训练语言模型」最新研究综述
专知
17+阅读 · 2022年11月18日
ACL2020 | 基于Knowledge Embedding的多跳知识图谱问答
AI科技评论
18+阅读 · 2020年6月29日
RoBERTa中文预训练模型:RoBERTa for Chinese
PaperWeekly
57+阅读 · 2019年9月16日
Transferring Knowledge across Learning Processes
CreateAMind
26+阅读 · 2019年5月18日
【推荐】自然语言处理(NLP)指南
机器学习研究会
35+阅读 · 2017年11月17日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
6+阅读 · 2011年12月31日
国家自然科学基金
2+阅读 · 2009年12月31日
国家自然科学基金
4+阅读 · 2009年12月31日
Arxiv
0+阅读 · 2023年5月15日
CSKG: The CommonSense Knowledge Graph
Arxiv
18+阅读 · 2020年12月21日
Arxiv
15+阅读 · 2019年9月11日
Arxiv
21+阅读 · 2019年8月21日
Arxiv
28+阅读 · 2018年4月6日
VIP会员
相关论文
相关基金
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
6+阅读 · 2011年12月31日
国家自然科学基金
2+阅读 · 2009年12月31日
国家自然科学基金
4+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员