【微软Sebastien Bubeck】Transformers with LEGO，最新报告 - 专知VIP

会员服务 ·

8

Transformers ·

2022 年 11 月 9 日

【微软Sebastien Bubeck】Transformers with LEGO，最新报告

专知会员服务

专知，提供专业可信的知识分发服务，让认知协作更快更好！

本文提出一个合成任务LEGO(学习平等和组操作)，封装了遵循推理链的问题，研究了transformer架构如何学习这一任务。我们特别关注数据效果，如预训练(对看似不相关的NLP任务)和数据集组成(例如，训练和测试时不同的链长度)，以及体系结构变量，如权重绑定层或添加卷积组件。我们研究经过训练的模型如何最终成功完成任务，特别是，我们能够(在一定程度上)理解一些注意力头以及信息如何在网络中流动。基于这些观察，我们提出了一个假设，预训练的帮助仅仅是因为它是一个聪明的初始化，而不是存储在网络中的一些深入的知识。在一些数据环境中，经过训练的transformer找到了"捷径"解决方案来遵循推理链，这妨碍了模型泛化到主要任务的简单变体的能力，而且可以通过适当的架构修改或仔细的数据准备来防止这种捷径。在发现的激励下，开始探索学习执行C程序的任务，其中对transformer的卷积修改，即在键/查询/值映射中添加卷积结构，显示了令人鼓舞的优势。

成为VIP会员查看完整内容

16

相关内容

深度学习如何促进搜索？微软Bhaskar Mitra最新《深度学习搜索引擎》报告和书籍，附126页pdf

深度学习如何促进搜索？微软Bhaskar Mitra最新《深度学习搜索引擎》报告和书籍，附126页pdf

专知会员服务

16+阅读 · 2022年11月18日

最新《Transformers》报告，Google Lucas Beyer 报告

最新《Transformers》报告，Google Lucas Beyer 报告

专知会员服务

67+阅读 · 2022年9月13日

【KDD2022教程】Transformers多模态数据分类，41页ppt

【KDD2022教程】Transformers多模态数据分类，41页ppt

专知会员服务

84+阅读 · 2022年8月18日

历时2年442位作者132个机构！Google发布语言模型评价新基准BIG-bench，204个任务全面评价大语言模型的能力

历时2年442位作者132个机构！Google发布语言模型评价新基准BIG-bench，204个任务全面评价大语言模型的能力

专知会员服务

19+阅读 · 2022年6月10日

预训练如何用于机器翻译？字节跳动ACL2021这份190页ppt教程带你全面了解

预训练如何用于机器翻译？字节跳动ACL2021这份190页ppt教程带你全面了解

专知会员服务

69+阅读 · 2021年8月2日

深度学习如何又好又快? Google最新《高效深度学习: 更小、更快、更好》综述论文，43页pdf

深度学习如何又好又快? Google最新《高效深度学习: 更小、更快、更好》综述论文，43页pdf

专知会员服务

89+阅读 · 2021年6月18日

复旦最新「Transformers全面综述」论文，40页pdf概述Transformers各种变体模型与应用

复旦最新「Transformers全面综述」论文，40页pdf概述Transformers各种变体模型与应用

专知会员服务

192+阅读 · 2021年6月10日

SiT: 自监督视觉Transformer

专知会员服务

62+阅读 · 2021年4月11日

【KDD2020-UCLA-微软】GPT-GNN：图神经网络的预训练

【KDD2020-UCLA-微软】GPT-GNN：图神经网络的预训练

专知会员服务

61+阅读 · 2020年8月19日

1750亿参数！GPT-3来了！31位作者，OpenAI发布小样本学习器语言模型

1750亿参数！GPT-3来了！31位作者，OpenAI发布小样本学习器语言模型

专知会员服务

72+阅读 · 2020年5月30日

深度学习如何促进搜索？微软Bhaskar Mitra最新《深度学习搜索引擎》报告和书籍，附126页pdf

深度学习如何促进搜索？微软Bhaskar Mitra最新《深度学习搜索引擎》报告和书籍，附126页pdf

专知

0+阅读 · 2022年11月18日

纯卷积Backbone巅峰MogaNet：超越ConvNeXt、ParC-Net和SWin

纯卷积Backbone巅峰MogaNet：超越ConvNeXt、ParC-Net和SWin

极市平台

0+阅读 · 2022年11月12日

最新《Transformers》报告，Google Lucas Beyer 报告, 附Slides与视频

最新《Transformers》报告，Google Lucas Beyer 报告, 附Slides与视频

专知

1+阅读 · 2022年9月13日

历时2年442位作者132个机构！Google发布语言模型评价新基准BIG-bench，204个任务全面评价语言模型能力，附论文

历时2年442位作者132个机构！Google发布语言模型评价新基准BIG-bench，204个任务全面评价语言模型能力，附论文

专知

0+阅读 · 2022年6月10日

Transformer打开了通用人工智能的一扇门？

Transformer打开了通用人工智能的一扇门？

THU数据派

2+阅读 · 2022年6月2日

CVPR 2022 | 超越RepVGG！浙大&阿里提出OREPA：在线卷积重参数化

CVPR 2022 | 超越RepVGG！浙大&阿里提出OREPA：在线卷积重参数化

CVer

1+阅读 · 2022年4月11日

ICLR 2022 | 视觉Transformer超越ResNet！从头开始训练！

ICLR 2022 | 视觉Transformer超越ResNet！从头开始训练！

CVer

0+阅读 · 2022年2月14日

【AAAI2022】视觉语言Transformer学习多模态表示吗?探索的角度来看

【AAAI2022】视觉语言Transformer学习多模态表示吗?探索的角度来看

专知

0+阅读 · 2022年1月26日

超越ImageNet预训练，Meta AI提出SplitMask，小数据集也能自监督预训练

超越ImageNet预训练，Meta AI提出SplitMask，小数据集也能自监督预训练

PaperWeekly

0+阅读 · 2022年1月17日

【干货】一文读懂什么是变分自编码器

【干货】一文读懂什么是变分自编码器

专知

12+阅读 · 2018年2月11日

Fe基块体非晶合金中异质非晶结构及纳米晶形成演变机理

国家自然科学基金

0+阅读 · 2015年12月31日

zkscan3基因新功能的解析

国家自然科学基金

0+阅读 · 2014年12月31日

C17-氮杂环修饰的黄体酮衍生物的合成、抗癌活性及其机制研究

国家自然科学基金

0+阅读 · 2013年12月31日

纳米银的致毒机制及毒性调控研究

国家自然科学基金

0+阅读 · 2013年12月31日

非参数与半参数混合模型的统计推断及应用

国家自然科学基金

3+阅读 · 2012年12月31日

面向商务智能的思维主题发现

国家自然科学基金

0+阅读 · 2012年12月31日

规则驱动的自适应多代理系统研究

国家自然科学基金

3+阅读 · 2012年12月31日

混合策略的机器翻译方法研究

国家自然科学基金

0+阅读 · 2011年12月31日

β2-微管蛋白基因（β2-tub）发生点突变导致亚洲镰孢菌对多菌灵抗药性菌株合成DON类毒素显著增强的分子机制

国家自然科学基金

0+阅读 · 2011年12月31日

天名精内酯酮衍生物合成及抑菌构效关系研究

国家自然科学基金

0+阅读 · 2009年12月31日

Local Learning on Transformers via Feature Reconstruction

Arxiv

0+阅读 · 2022年12月29日

WarpGate: A Semantic Join Discovery System for Cloud Data Warehouse

Arxiv

0+阅读 · 2022年12月29日

Robust Bayesian Subspace Identification for Small Data Sets

Arxiv

0+阅读 · 2022年12月29日

Langevin algorithms for very deep Neural Networks with application to image classification

Arxiv

0+阅读 · 2022年12月27日

Transformers in Time Series: A Survey

Arxiv

32+阅读 · 2022年2月15日

TransMIL: Transformer based Correlated Multiple Instance Learning for Whole Slide Image Classication

Arxiv

17+阅读 · 2021年6月2日

Network of Tensor Time Series

Arxiv

20+阅读 · 2021年2月28日

A Survey on Visual Transformer

Arxiv

19+阅读 · 2020年12月23日

Efficient Transformers: A Survey

Arxiv

23+阅读 · 2020年9月16日

Aspect-based Sentiment Classification with Aspect-specific Graph Convolutional Networks

Arxiv

11+阅读 · 2019年9月8日

VIP会员

相关主题

相关VIP内容

深度学习如何促进搜索？微软Bhaskar Mitra最新《深度学习搜索引擎》报告和书籍，附126页pdf

深度学习如何促进搜索？微软Bhaskar Mitra最新《深度学习搜索引擎》报告和书籍，附126页pdf

专知会员服务

16+阅读 · 2022年11月18日

最新《Transformers》报告，Google Lucas Beyer 报告

最新《Transformers》报告，Google Lucas Beyer 报告

专知会员服务

67+阅读 · 2022年9月13日

【KDD2022教程】Transformers多模态数据分类，41页ppt

【KDD2022教程】Transformers多模态数据分类，41页ppt

专知会员服务

84+阅读 · 2022年8月18日

历时2年442位作者132个机构！Google发布语言模型评价新基准BIG-bench，204个任务全面评价大语言模型的能力

历时2年442位作者132个机构！Google发布语言模型评价新基准BIG-bench，204个任务全面评价大语言模型的能力

专知会员服务

19+阅读 · 2022年6月10日

预训练如何用于机器翻译？字节跳动ACL2021这份190页ppt教程带你全面了解

预训练如何用于机器翻译？字节跳动ACL2021这份190页ppt教程带你全面了解

专知会员服务

69+阅读 · 2021年8月2日

深度学习如何又好又快? Google最新《高效深度学习: 更小、更快、更好》综述论文，43页pdf

深度学习如何又好又快? Google最新《高效深度学习: 更小、更快、更好》综述论文，43页pdf

专知会员服务

89+阅读 · 2021年6月18日

复旦最新「Transformers全面综述」论文，40页pdf概述Transformers各种变体模型与应用

复旦最新「Transformers全面综述」论文，40页pdf概述Transformers各种变体模型与应用

专知会员服务

192+阅读 · 2021年6月10日

SiT: 自监督视觉Transformer

专知会员服务

62+阅读 · 2021年4月11日

【KDD2020-UCLA-微软】GPT-GNN：图神经网络的预训练

【KDD2020-UCLA-微软】GPT-GNN：图神经网络的预训练

专知会员服务

61+阅读 · 2020年8月19日

1750亿参数！GPT-3来了！31位作者，OpenAI发布小样本学习器语言模型

1750亿参数！GPT-3来了！31位作者，OpenAI发布小样本学习器语言模型

专知会员服务

72+阅读 · 2020年5月30日

热门VIP内容

相关资讯

深度学习如何促进搜索？微软Bhaskar Mitra最新《深度学习搜索引擎》报告和书籍，附126页pdf

深度学习如何促进搜索？微软Bhaskar Mitra最新《深度学习搜索引擎》报告和书籍，附126页pdf

专知

0+阅读 · 2022年11月18日

纯卷积Backbone巅峰MogaNet：超越ConvNeXt、ParC-Net和SWin

纯卷积Backbone巅峰MogaNet：超越ConvNeXt、ParC-Net和SWin

极市平台

0+阅读 · 2022年11月12日

最新《Transformers》报告，Google Lucas Beyer 报告, 附Slides与视频

最新《Transformers》报告，Google Lucas Beyer 报告, 附Slides与视频

专知

1+阅读 · 2022年9月13日

历时2年442位作者132个机构！Google发布语言模型评价新基准BIG-bench，204个任务全面评价语言模型能力，附论文

历时2年442位作者132个机构！Google发布语言模型评价新基准BIG-bench，204个任务全面评价语言模型能力，附论文

专知

0+阅读 · 2022年6月10日

Transformer打开了通用人工智能的一扇门？

Transformer打开了通用人工智能的一扇门？

THU数据派

2+阅读 · 2022年6月2日

CVPR 2022 | 超越RepVGG！浙大&阿里提出OREPA：在线卷积重参数化

CVPR 2022 | 超越RepVGG！浙大&阿里提出OREPA：在线卷积重参数化

CVer

1+阅读 · 2022年4月11日

ICLR 2022 | 视觉Transformer超越ResNet！从头开始训练！

ICLR 2022 | 视觉Transformer超越ResNet！从头开始训练！

CVer

0+阅读 · 2022年2月14日

【AAAI2022】视觉语言Transformer学习多模态表示吗?探索的角度来看

【AAAI2022】视觉语言Transformer学习多模态表示吗?探索的角度来看

专知

0+阅读 · 2022年1月26日

超越ImageNet预训练，Meta AI提出SplitMask，小数据集也能自监督预训练

超越ImageNet预训练，Meta AI提出SplitMask，小数据集也能自监督预训练

PaperWeekly

0+阅读 · 2022年1月17日

【干货】一文读懂什么是变分自编码器

【干货】一文读懂什么是变分自编码器

专知

12+阅读 · 2018年2月11日

相关基金

Fe基块体非晶合金中异质非晶结构及纳米晶形成演变机理

国家自然科学基金

0+阅读 · 2015年12月31日

zkscan3基因新功能的解析

国家自然科学基金

0+阅读 · 2014年12月31日

C17-氮杂环修饰的黄体酮衍生物的合成、抗癌活性及其机制研究

国家自然科学基金

0+阅读 · 2013年12月31日

纳米银的致毒机制及毒性调控研究

国家自然科学基金

0+阅读 · 2013年12月31日

非参数与半参数混合模型的统计推断及应用

国家自然科学基金

3+阅读 · 2012年12月31日

面向商务智能的思维主题发现

国家自然科学基金

0+阅读 · 2012年12月31日

规则驱动的自适应多代理系统研究

国家自然科学基金

3+阅读 · 2012年12月31日

混合策略的机器翻译方法研究

国家自然科学基金

0+阅读 · 2011年12月31日

β2-微管蛋白基因（β2-tub）发生点突变导致亚洲镰孢菌对多菌灵抗药性菌株合成DON类毒素显著增强的分子机制

国家自然科学基金

0+阅读 · 2011年12月31日

天名精内酯酮衍生物合成及抑菌构效关系研究

国家自然科学基金

0+阅读 · 2009年12月31日

相关论文

Local Learning on Transformers via Feature Reconstruction

Arxiv

0+阅读 · 2022年12月29日

WarpGate: A Semantic Join Discovery System for Cloud Data Warehouse

Arxiv

0+阅读 · 2022年12月29日

Robust Bayesian Subspace Identification for Small Data Sets

Arxiv

0+阅读 · 2022年12月29日

Langevin algorithms for very deep Neural Networks with application to image classification

Arxiv

0+阅读 · 2022年12月27日

Transformers in Time Series: A Survey

Arxiv

32+阅读 · 2022年2月15日

TransMIL: Transformer based Correlated Multiple Instance Learning for Whole Slide Image Classication

Arxiv

17+阅读 · 2021年6月2日

Network of Tensor Time Series

Arxiv

20+阅读 · 2021年2月28日

A Survey on Visual Transformer

Arxiv

19+阅读 · 2020年12月23日

Efficient Transformers: A Survey

Arxiv

23+阅读 · 2020年9月16日

Aspect-based Sentiment Classification with Aspect-specific Graph Convolutional Networks

Arxiv

11+阅读 · 2019年9月8日

微信扫码咨询专知VIP会员