【微软Sebastien Bubeck】Transformers with LEGO,最新报告

2022 年 11 月 9 日 专知

本文提出一个合成任务LEGO(学习平等和组操作),封装了遵循推理链的问题,研究了transformer架构如何学习这一任务。我们特别关注数据效果,如预训练(对看似不相关的NLP任务)和数据集组成(例如,训练和测试时不同的链长度),以及体系结构变量,如权重绑定层或添加卷积组件。我们研究经过训练的模型如何最终成功完成任务,特别是,我们能够(在一定程度上)理解一些注意力头以及信息如何在网络中流动。基于这些观察,我们提出了一个假设,预训练的帮助仅仅是因为它是一个聪明的初始化,而不是存储在网络中的一些深入的知识。在一些数据环境中,经过训练的transformer找到了"捷径"解决方案来遵循推理链,这妨碍了模型泛化到主要任务的简单变体的能力,而且可以通过适当的架构修改或仔细的数据准备来防止这种捷径。在发现的激励下,开始探索学习执行C程序的任务,其中对transformer的卷积修改,即在键/查询/值映射中添加卷积结构,显示了令人鼓舞的优势。



专知便捷查看

便捷下载,请关注专知公众号(点击上方蓝色专知关注)

  • 后台回复“T81” 就可以获取【微软Sebastien Bubeck】Transformers with LEGO,最新报告》专知下载链接

                       
专知,专业可信的人工智能知识分发 ,让认知协作更快更好!欢迎注册登录专知www.zhuanzhi.ai,获取100000+AI(AI与军事、医药、公安等)主题干货知识资料!
欢迎微信扫一扫加入专知人工智能知识星球群,获取最新AI专业干货知识教程资料和与专家交流咨询
点击“ 阅读原文 ”,了解使用 专知 ,查看获取100000+AI主题知识资料

登录查看更多
0

相关内容

微软 (英文名称:Microsoft;中文名称:微软公司或美国微软公司)始建于1975年,是一家美国跨国科技公司,也是世界PC(Personal Computer,个人计算机)软件开发的先导,由比尔·盖茨与保罗·艾伦创办于1975年,公司总部设立在华盛顿州的雷德蒙德(Redmond,邻近西雅图)。以研发、制造、授权和提供广泛的电脑软件服务业务为主。
最新《Transformers》报告,Google Lucas Beyer 报告
专知会员服务
67+阅读 · 2022年9月13日
ICCV 2021最佳论文出炉!微软Swin Transformer摘得马尔奖
专知会员服务
29+阅读 · 2021年10月13日
【NAACL2021】长序列自然语言处理, 250页ppt
专知会员服务
61+阅读 · 2021年6月7日
最新《Transformers模型》教程,64页ppt
专知会员服务
276+阅读 · 2020年11月26日
「扩散模型」Awesome资料最新大合集
专知
3+阅读 · 2022年10月10日
《自监督学习》最新报告,45页ppt
专知
1+阅读 · 2022年9月14日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
Arxiv
69+阅读 · 2022年6月13日
Arxiv
39+阅读 · 2021年11月11日
Arxiv
19+阅读 · 2020年12月23日
已删除
Arxiv
31+阅读 · 2020年3月23日
VIP会员
相关VIP内容
最新《Transformers》报告,Google Lucas Beyer 报告
专知会员服务
67+阅读 · 2022年9月13日
ICCV 2021最佳论文出炉!微软Swin Transformer摘得马尔奖
专知会员服务
29+阅读 · 2021年10月13日
【NAACL2021】长序列自然语言处理, 250页ppt
专知会员服务
61+阅读 · 2021年6月7日
最新《Transformers模型》教程,64页ppt
专知会员服务
276+阅读 · 2020年11月26日
相关基金
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
相关论文
Arxiv
69+阅读 · 2022年6月13日
Arxiv
39+阅读 · 2021年11月11日
Arxiv
19+阅读 · 2020年12月23日
已删除
Arxiv
31+阅读 · 2020年3月23日
Top
微信扫码咨询专知VIP会员