预训练语言模型(PLMs),如BERT,已被证明能够编码丰富的语言信息和丰富的世界知识。通过迁移学习,这些PLMs在多种语言的NLP任务中都有显著的优势。然而,性能提升也带来了两个明显的缺点。首先,简单的迁移学习在参数效率方面是不足的,即每个下游任务都需要一个保存的检查点进行推理。这是有问题的,因为PLMs通常包含数亿个参数,而这个数量还在迅速增长。其次,简单的迁移学习在标签效率上也不足,即依然需要数千个标注注释,以便PLMs能够表现良好。本论文对PLMs进行了全面分析,探讨了参数和标签效率更高的迁移学习方法。第一篇论文调查了PLMs中广泛采用的分词方法:字节对编码(BPE)。我们以与语言无关的方式应用BPE,对超过一千种语言的文本进行分词,然后创建一个容纳它们的嵌入空间。然后,我们将情感信息从英语转移到其他语言,为它们创建情感词典。第二篇论文调查了BERT中词汇的上下文化过程。我们通过研究一个词的语义类别可以从上下文化嵌入中准确地推断出来的程度,来量化上下文化的数量。重要的是,我们表明,在对BERT进行下游任务的微调之后,预先训练有关上下文化的知识仍然得以很好地保留。受第二篇论文的启发,我们在第三篇论文中设计了一种高效的将PLMs的知识迁移到下游任务的方法。我们学习预训练权重的选择性二进制掩码,而不是通过微调来修改它们。这种新方法在多个任务需要进行推理时具有更小的内存占用,而性能与微调相当。损失景观的分析证实了这种新方法的正确性。第四篇论文调查了一种标签高效的方法,即提示(prompting),用于与多语种PLMs进行跨语言迁移。提示将分类任务改写为填空式查询,更好地匹配PLMs的预训练目标。我们证明,在少样本跨语言迁移和在语言内训练方案中,提示均优于微调。第五篇论文突出了在少样本情境下进行跨语言迁移学习的一个基础风险:PLMs对少样本的选择具有很高的敏感性。我们提供了作为标准化少样本跨语言实验的一个步骤的采样少样本。最后一篇论文探索了基于PLM的少样本学习器的实用性。我们提出了LMTurk,该方法利用PLMs为训练一个可部署在实际场景中解决任务的高效模型标注资源。LMTurk是有效利用基于PLM的少样本学习器迈出的重要一步。

成为VIP会员查看完整内容
33

相关内容

【剑桥大学博士论文】机器学习中的分布外泛化,214页pdf
【伯克利博士论文】学习在动态环境中泛化,103页pdf
专知会员服务
70+阅读 · 2022年10月12日
国家自然科学基金
36+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Arxiv
131+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
326+阅读 · 2023年3月31日
Arxiv
54+阅读 · 2023年3月26日
Arxiv
111+阅读 · 2023年3月24日
VIP会员
相关基金
国家自然科学基金
36+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
微信扫码咨询专知VIP会员