来自清华大学的丁宁博士论文,入选2023年度“CCF博士学位论文激励计划”初评名单!

https://www.ccf.org.cn/Focus/2023-11-29/798503.shtml

大规模预训练语言模型正在重塑现代自然语言处理的基本范式。这类模型首 先在大规模的无标注语料中进行自监督地预训练,然后以预训练后的模型为初始 点进一步适配到各类下游任务中。作为预训练语言模型应用的重要一环,适配可 以使得模型应用到具体的场景和任务,同时使得其输出更加稳定和鲁棒,并与人 类的价值观对齐。然而,随着模型规模的不断增大,大规模预训练模型的适配面临 着严峻的挑战。如何在数据量不足的情况下进行泛化,以及如何减少其巨大的计 算和存储消耗,是当前亟待解决的问题。本文从数据高效和计算高效两个层面入 手,研究大规模预训练语言模型的高效适配技术,并且根据相应的技术构建系统、 数据和评测来促进具体的应用落地。

面向数据高效的模型适配,本文以知识获取应用为落脚点,针对存在大量弱 监督文本数据的场景,提出具有几何意义的原型学习的方法来学习类别的隐态表 征以更好地应对精标注数据不足的情况。针对不存在弱监督文本的场景,进一步 提出超球原型学习的表示方法来提升少样本学习的稳定性。对少样本的命名实体 识别,本文构建了第一个也是业内规模最大的细粒度实体识别数据集和三个具体 的识别任务,促进了少样本知识获取的发展。提出利用语言模型在预训练中的固 有特性,使用提示学习的方法来完成细粒度知识获取,在少样本和零样本的场景 上大幅超越传统的微调算法。

面向计算高效的模型适配,本文提出增量微调(Delta Tuning)框架,对大规 模语言模型的参数高效适配进行全面地分析、理论讨论和实验探索,在100 余个 任务上研究了增量微调的实验表现、迁移性、模型规模影响、组合性、泛化误差 和计算效率。同时将二阶优化应用至增量微调框架下的大规模预训练语言模型中, 并且提出了牛顿步裁剪的方法来稳定训练。

本文同时构建了模型数据高效和计算高效适配的开源系统。在数据高效层面, 本文构建了统一范式的提示学习系统OpenPrompt,打通了提示学习从数据处理到 模板构建再到模型训练的全流程。在计算高效层面,本文构建了统一范式的增量 微调系统OpenDelta,实现了不修改任何模型源代码的张量流转换,使得增量微调 可以适配到任意模型和模型的具体位置。

成为VIP会员查看完整内容
47

相关内容

博士论文是由攻读博士学位的研究生所撰写的学术论文。它要求作者在博士生导师的指导下,选择自己能够把握和驾驭的潜在的研究方向,开辟新的研究领域。由此可见,这就对作者提出了较高要求,它要求作者必须在本学科的专业领域具备大量的理论知识,并对所学专业的理论知识有相当深入的理解和思考,同时还要具有相当水平的独立科学研究能力,能够为在学科领域提出独创性的见解和有价值的科研成果。因而,较之学士论文、硕士论文,博士论文具有更高的学术价值,对学科的发展具有重要的推动作用。
【博士论文】图像数据先验的数学建模及其应用
专知会员服务
21+阅读 · 2022年12月29日
【博士论文】面向大规模部署的室内定位关键技术研究
专知会员服务
21+阅读 · 2022年12月19日
【博士论文】自然场景中不规则文字的检测和识别研究
专知会员服务
27+阅读 · 2022年12月18日
【博士论文】开放域文本的结构化知识获取
专知会员服务
42+阅读 · 2022年12月17日
【博士论文】深度卷积神经网络架构设计及优化问题研究
专知会员服务
47+阅读 · 2022年12月11日
【博士论文】图处理加速架构研究
专知会员服务
25+阅读 · 2022年12月10日
【长文综述】基于图神经网络的知识图谱研究进展
深度学习自然语言处理
14+阅读 · 2020年8月23日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Arxiv
131+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
326+阅读 · 2023年3月31日
Arxiv
54+阅读 · 2023年3月26日
Arxiv
111+阅读 · 2023年3月24日
Arxiv
15+阅读 · 2023年3月17日
VIP会员
相关VIP内容
【博士论文】图像数据先验的数学建模及其应用
专知会员服务
21+阅读 · 2022年12月29日
【博士论文】面向大规模部署的室内定位关键技术研究
专知会员服务
21+阅读 · 2022年12月19日
【博士论文】自然场景中不规则文字的检测和识别研究
专知会员服务
27+阅读 · 2022年12月18日
【博士论文】开放域文本的结构化知识获取
专知会员服务
42+阅读 · 2022年12月17日
【博士论文】深度卷积神经网络架构设计及优化问题研究
专知会员服务
47+阅读 · 2022年12月11日
【博士论文】图处理加速架构研究
专知会员服务
25+阅读 · 2022年12月10日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
微信扫码咨询专知VIP会员