国内数十位NLP大佬合作，综述预训练模型的过去、现在与未来 - 专知VIP

会员服务 ·

1

预训练模型 · 综述论文 ·

2021 年 9 月 8 日

国内数十位NLP大佬合作，综述预训练模型的过去、现在与未来

专知会员服务

专知，提供专业可信的知识分发服务，让认知协作更快更好！

来自清华大学计算机科学与技术系、中国人民大学信息学院等机构的多位学者深入地研究了预训练模型的历史和发展趋势，并在这篇综述论文中从技术的角度理清了预训练的来龙去脉。

BERT 、GPT 等大规模预训练模型（PTM）近年来取得了巨大成功，成为人工智能领域的一个里程碑。由于复杂的预训练目标和巨大的模型参数，大规模 PTM 可以有效地从大量标记和未标记的数据中获取知识。通过将知识存储到巨大的参数中并对特定任务进行微调，巨大参数中隐式编码的丰富知识可以使各种下游任务受益。现在 AI 社区的共识是采用 PTM 作为下游任务的主干，而不是从头开始学习模型。

本文中，来自清华大学计算机科学与技术系、中国人民大学信息学院等机构的多位学者深入研究了预训练模型的历史，特别是它与迁移学习和自监督学习的特殊关系，揭示了 PTM 在 AI 发展图谱中的重要地位。

论文地址：http://keg.cs.tsinghua.edu.cn/jietang/publications/AIOPEN21-Han-et-al-Pre-Trained%20Models-%20Past,%20Present%20and%20Future.pdf

清华大学教授、悟道项目负责人唐杰表示：这篇 40 多页的预训练模型综述基本上算是从技术上理清了预训练的来龙去脉。

此外，该研究还回顾了 PTM 的最新突破。这些突破得益于算力的激增和数据可用性的增加，目前正在向四个重要方向发展：设计有效的架构、利用丰富的上下文、提高计算效率以及进行解释和理论分析。最后，该研究讨论了关于 PTM 一系列有待解决的问题和研究方向，并且希望他们的观点能够对 PTM 的未来研究起到启发和推动作用。

成为VIP会员查看完整内容

33

相关内容

预训练模型

预训练模型

预训练模型是深度学习架构，已经过训练以执行大量数据上的特定任务（例如，识别图片中的分类问题）。这种训练不容易执行，并且通常需要大量资源，超出许多可用于深度学习模型的人可用的资源。

人大最新《基于Transformer 的视频语言预训练》综述论文

人大最新《基于Transformer 的视频语言预训练》综述论文

专知会员服务

47+阅读 · 2021年9月27日

知识感知的预训练语言模型综述

专知会员服务

51+阅读 · 2021年9月25日

最新「基于Transformer的预训练模型」综述论文，42页pdf304篇文献

最新「基于Transformer的预训练模型」综述论文，42页pdf304篇文献

专知会员服务

109+阅读 · 2021年8月13日

联邦学习自然语言处理综述论文

专知会员服务

66+阅读 · 2021年8月1日

预训练模型最新综述：过去、现在和未来，43页pdf

专知会员服务

84+阅读 · 2021年6月20日

面向自然语言处理任务的预训练模型综述

专知会员服务

61+阅读 · 2021年5月28日

自然语言处理预训练模型的研究综述

专知会员服务

123+阅读 · 2020年12月9日

【KDD2020-UCLA-微软】GPT-GNN：图神经网络的预训练

【KDD2020-UCLA-微软】GPT-GNN：图神经网络的预训练

专知会员服务

63+阅读 · 2020年8月19日

【北航】面向自然语言处理的预训练技术研究综述

【北航】面向自然语言处理的预训练技术研究综述

专知会员服务

114+阅读 · 2020年4月23日

【复旦大学】最新《预训练语言模型》2020综述论文大全，50+PTMs分类体系，25页pdf205篇参考文献

【复旦大学】最新《预训练语言模型》2020综述论文大全，50+PTMs分类体系，25页pdf205篇参考文献

专知会员服务

105+阅读 · 2020年3月19日

【复旦大学】最新《预训练语言模型》2020综述论文大全，50+PTMs分类体系，25页pdf205篇参考文献

【复旦大学】最新《预训练语言模型》2020综述论文大全，50+PTMs分类体系，25页pdf205篇参考文献

专知

22+阅读 · 2020年3月19日

NLP领域预训练模型的现状及分析

NLP领域预训练模型的现状及分析

AI科技评论

5+阅读 · 2019年11月1日

超越 BERT 和 GPT，微软亚洲研究院开源新模型 MASS！

超越 BERT 和 GPT，微软亚洲研究院开源新模型 MASS！

雷锋网

10+阅读 · 2019年6月27日

谷歌更强 NLP 模型 XLNet 开源：20 项任务全面碾压 BERT！

谷歌更强 NLP 模型 XLNet 开源：20 项任务全面碾压 BERT！

雷锋网

5+阅读 · 2019年6月20日

开发 | 谷歌更强NLP模型XLNet开源：20项任务全面碾压BERT！

开发 | 谷歌更强NLP模型XLNet开源：20项任务全面碾压BERT！

AI科技评论

6+阅读 · 2019年6月20日

【ICML 2019】微软最新通用预训练模型MASS，超越BERT、GPT！

【ICML 2019】微软最新通用预训练模型MASS，超越BERT、GPT！

新智元

6+阅读 · 2019年5月10日

面向自然语言处理的神经网络迁移学习，NLP网红Ruder博士329页论文（附下载）

面向自然语言处理的神经网络迁移学习，NLP网红Ruder博士329页论文（附下载）

专知

18+阅读 · 2019年3月24日

万字长文概述NLP中的深度学习技术

万字长文概述NLP中的深度学习技术

机器之心

5+阅读 · 2019年2月28日

一文看尽2018全年AI技术大突破

一文看尽2018全年AI技术大突破

量子位

4+阅读 · 2018年12月21日

自然语言处理(NLP)前沿进展报告

自然语言处理(NLP)前沿进展报告

人工智能学家

20+阅读 · 2018年9月30日

Fairer LP-based Online Allocation

Fairer LP-based Online Allocation

Arxiv

0+阅读 · 2021年10月27日

A Survey of Knowledge Enhanced Pre-trained Models

Arxiv

28+阅读 · 2021年10月1日

AMMUS : A Survey of Transformer-based Pretrained Models in Natural Language Processing

Arxiv

23+阅读 · 2021年8月12日

A Survey of Transformers

Arxiv

103+阅读 · 2021年6月8日

Pre-trained Models for Natural Language Processing: A Survey

Arxiv

113+阅读 · 2020年3月18日

A Survey on Contextual Embeddings

Arxiv

29+阅读 · 2020年3月16日

Integrating Graph Contextualized Knowledge into Pre-trained Language Models

Integrating Graph Contextualized Knowledge into Pre-trained Language Models

Arxiv

5+阅读 · 2019年12月3日

CEDR: Contextualized Embeddings for Document Ranking

Arxiv

4+阅读 · 2019年8月19日

Transformer-XL: Attentive Language Models Beyond a Fixed-Length Context

Transformer-XL: Attentive Language Models Beyond a Fixed-Length Context

Arxiv

11+阅读 · 2019年6月2日

Passage Re-ranking with BERT

Arxiv

4+阅读 · 2019年2月18日

VIP会员

相关主题

预训练模型

相关VIP内容

人大最新《基于Transformer 的视频语言预训练》综述论文

人大最新《基于Transformer 的视频语言预训练》综述论文

专知会员服务

47+阅读 · 2021年9月27日

知识感知的预训练语言模型综述

专知会员服务

51+阅读 · 2021年9月25日

最新「基于Transformer的预训练模型」综述论文，42页pdf304篇文献

最新「基于Transformer的预训练模型」综述论文，42页pdf304篇文献

专知会员服务

109+阅读 · 2021年8月13日

联邦学习自然语言处理综述论文

专知会员服务

66+阅读 · 2021年8月1日

预训练模型最新综述：过去、现在和未来，43页pdf

专知会员服务

84+阅读 · 2021年6月20日

面向自然语言处理任务的预训练模型综述

专知会员服务

61+阅读 · 2021年5月28日

自然语言处理预训练模型的研究综述

专知会员服务

123+阅读 · 2020年12月9日

【KDD2020-UCLA-微软】GPT-GNN：图神经网络的预训练

【KDD2020-UCLA-微软】GPT-GNN：图神经网络的预训练

专知会员服务

63+阅读 · 2020年8月19日

【北航】面向自然语言处理的预训练技术研究综述

【北航】面向自然语言处理的预训练技术研究综述

专知会员服务

114+阅读 · 2020年4月23日

【复旦大学】最新《预训练语言模型》2020综述论文大全，50+PTMs分类体系，25页pdf205篇参考文献

【复旦大学】最新《预训练语言模型》2020综述论文大全，50+PTMs分类体系，25页pdf205篇参考文献

专知会员服务

105+阅读 · 2020年3月19日

热门VIP内容

开通专知VIP会员享更多权益服务

大语言模型中的检索与结构化增强生成综述

《实现多层防御多轮交战机制的扩展型随机齐射模型》2025年最新83页

【CMU博士论文】交互驱动的人体动作估计与生成

如何避免生成式人工智能在作战中失控失效

相关资讯

【复旦大学】最新《预训练语言模型》2020综述论文大全，50+PTMs分类体系，25页pdf205篇参考文献

【复旦大学】最新《预训练语言模型》2020综述论文大全，50+PTMs分类体系，25页pdf205篇参考文献

专知

22+阅读 · 2020年3月19日

NLP领域预训练模型的现状及分析

NLP领域预训练模型的现状及分析

AI科技评论

5+阅读 · 2019年11月1日

超越 BERT 和 GPT，微软亚洲研究院开源新模型 MASS！

超越 BERT 和 GPT，微软亚洲研究院开源新模型 MASS！

雷锋网

10+阅读 · 2019年6月27日

谷歌更强 NLP 模型 XLNet 开源：20 项任务全面碾压 BERT！

谷歌更强 NLP 模型 XLNet 开源：20 项任务全面碾压 BERT！

雷锋网

5+阅读 · 2019年6月20日

开发 | 谷歌更强NLP模型XLNet开源：20项任务全面碾压BERT！

开发 | 谷歌更强NLP模型XLNet开源：20项任务全面碾压BERT！

AI科技评论

6+阅读 · 2019年6月20日

【ICML 2019】微软最新通用预训练模型MASS，超越BERT、GPT！

【ICML 2019】微软最新通用预训练模型MASS，超越BERT、GPT！

新智元

6+阅读 · 2019年5月10日

面向自然语言处理的神经网络迁移学习，NLP网红Ruder博士329页论文（附下载）

面向自然语言处理的神经网络迁移学习，NLP网红Ruder博士329页论文（附下载）

专知

18+阅读 · 2019年3月24日

万字长文概述NLP中的深度学习技术

万字长文概述NLP中的深度学习技术

机器之心

5+阅读 · 2019年2月28日

一文看尽2018全年AI技术大突破

一文看尽2018全年AI技术大突破

量子位

4+阅读 · 2018年12月21日

自然语言处理(NLP)前沿进展报告

自然语言处理(NLP)前沿进展报告

人工智能学家

20+阅读 · 2018年9月30日

相关论文

Fairer LP-based Online Allocation

Fairer LP-based Online Allocation

Arxiv

0+阅读 · 2021年10月27日

A Survey of Knowledge Enhanced Pre-trained Models

Arxiv

28+阅读 · 2021年10月1日

AMMUS : A Survey of Transformer-based Pretrained Models in Natural Language Processing

Arxiv

23+阅读 · 2021年8月12日

A Survey of Transformers

Arxiv

103+阅读 · 2021年6月8日

Pre-trained Models for Natural Language Processing: A Survey

Arxiv

113+阅读 · 2020年3月18日

A Survey on Contextual Embeddings

Arxiv

29+阅读 · 2020年3月16日

Integrating Graph Contextualized Knowledge into Pre-trained Language Models

Integrating Graph Contextualized Knowledge into Pre-trained Language Models

Arxiv

5+阅读 · 2019年12月3日

CEDR: Contextualized Embeddings for Document Ranking

Arxiv

4+阅读 · 2019年8月19日

Transformer-XL: Attentive Language Models Beyond a Fixed-Length Context

Transformer-XL: Attentive Language Models Beyond a Fixed-Length Context

Arxiv

11+阅读 · 2019年6月2日

Passage Re-ranking with BERT

Arxiv

4+阅读 · 2019年2月18日

微信扫码咨询专知VIP会员