Training a model for grammatical error correction (GEC) requires a set of labeled ungrammatical / grammatical sentence pairs, but manually annotating such pairs can be expensive. Recently, the Break-It-Fix-It (BIFI) framework has demonstrated strong results on learning to repair a broken program without any labeled examples, but this relies on a perfect critic (e.g., a compiler) that returns whether an example is valid or not, which does not exist for the GEC task. In this work, we show how to leverage a pretrained language model (LM) in defining an LM-Critic, which judges a sentence to be grammatical if the LM assigns it a higher probability than its local perturbations. We apply this LM-Critic and BIFI along with a large set of unlabeled sentences to bootstrap realistic ungrammatical / grammatical pairs for training a corrector. We evaluate our approach on GEC datasets across multiple domains (CoNLL-2014, BEA-2019, GMEG-wiki and GMEG-yahoo) and show that it outperforms existing methods in both the unsupervised setting (+7.7 F0.5) and the supervised setting (+0.5 F0.5).


翻译:用于校正语法错误校正的模型( GEC ) 需要一套标记的未语法/ 语法句配对的非语法/ 语法句配对, 但手动批注这种配对可能很昂贵。 最近, 突破 lt- Fix- lt (BIFI) 框架( Break- It- Fix- It (BIFI) 框架( BIFI) 在学习修补破碎的程序方面展示了强大的成果, 但没有贴标签的例子, 但是这依赖于一个完美的批评者( 例如, 编译者), 该评论者返回一个范例是否有效, 而对于 GEC 的任务来说, 并不存在。 在这项工作中, 我们展示了如何利用预先训练的语言模式来定义 LM- Critic, 如果 LM 指派的概率高于 本地扰动率, 则判断一个语法则语法系化的语法系。 我们应用这个语法系和无标签的语系组合, 将现有GEGF7+25 ( GEG+G) 设置方法。

0
下载
关闭预览

相关内容

金融人工智能,40页pdf
专知会员服务
147+阅读 · 2021年10月9日
Keras François Chollet 《Deep Learning with Python 》, 386页pdf
专知会员服务
158+阅读 · 2019年10月12日
Transferring Knowledge across Learning Processes
CreateAMind
29+阅读 · 2019年5月18日
基于PyTorch/TorchText的自然语言处理库
专知
28+阅读 · 2019年4月22日
弱监督语义分割最新方法资源列表
专知
9+阅读 · 2019年2月26日
强化学习的Unsupervised Meta-Learning
CreateAMind
18+阅读 · 2019年1月7日
无监督元学习表示学习
CreateAMind
27+阅读 · 2019年1月4日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
【推荐】ResNet, AlexNet, VGG, Inception:各种卷积网络架构的理解
机器学习研究会
20+阅读 · 2017年12月17日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Arxiv
4+阅读 · 2018年9月6日
Arxiv
6+阅读 · 2018年2月26日
VIP会员
相关VIP内容
金融人工智能,40页pdf
专知会员服务
147+阅读 · 2021年10月9日
Keras François Chollet 《Deep Learning with Python 》, 386页pdf
专知会员服务
158+阅读 · 2019年10月12日
Top
微信扫码咨询专知VIP会员