We demonstrate that transformers obtain impressive performance even when some of the layers are randomly initialized and never updated. Inspired by old and well-established ideas in machine learning, we explore a variety of non-linear "reservoir" layers interspersed with regular transformer layers, and show improvements in wall-clock compute time until convergence, as well as overall performance, on various machine translation and (masked) language modelling tasks.


翻译:我们证明变压器的性能令人印象深刻,即使其中一些层是随机初始化的,从未更新过。 在机器学习中古老和既定的理念的启发下,我们探索了各种非线性“存储”层与常规变压器层交接,并展示了在各种机器翻译和(合成的)语言建模任务上,墙上时钟计算时间的改进,直至汇合,以及总体性能的改善。

0
下载
关闭预览

相关内容

专知会员服务
90+阅读 · 2021年6月29日
最新《Transformers模型》教程,64页ppt
专知会员服务
325+阅读 · 2020年11月26日
ExBert — 可视化分析Transformer学到的表示
专知会员服务
32+阅读 · 2019年10月16日
Unsupervised Learning via Meta-Learning
CreateAMind
43+阅读 · 2019年1月3日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
条件GAN重大改进!cGANs with Projection Discriminator
CreateAMind
8+阅读 · 2018年2月7日
Star-Transformer
Arxiv
5+阅读 · 2019年2月28日
Arxiv
5+阅读 · 2018年6月4日
Arxiv
27+阅读 · 2018年4月12日
VIP会员
相关VIP内容
专知会员服务
90+阅读 · 2021年6月29日
最新《Transformers模型》教程,64页ppt
专知会员服务
325+阅读 · 2020年11月26日
ExBert — 可视化分析Transformer学到的表示
专知会员服务
32+阅读 · 2019年10月16日
相关论文
Star-Transformer
Arxiv
5+阅读 · 2019年2月28日
Arxiv
5+阅读 · 2018年6月4日
Arxiv
27+阅读 · 2018年4月12日
Top
微信扫码咨询专知VIP会员