【斯坦福马腾宇】理解预训练的三个方面:自监督丢失、归纳偏差和内隐偏差 - 专知

会员服务 ·

0

【斯坦福马腾宇】理解预训练的三个方面:自监督丢失、归纳偏差和内隐偏差

2022 年 11 月 8 日 专知

工智能正在经历范式转变，一些经过自监督预训练、然后适应广泛下游任务的模型正在兴起。然而，它们的工作原理在很大程度上仍然是个谜;经典的学习理论无法解释为什么对无监督任务的预训练可以帮助许多不同的下游任务。本次演讲将首先研究预训练损失在从未标记数据中提取有意义的结构信息方面的作用，特别是在无限数据状态下。具体来说，我将展示对比损失可能产生的嵌入，其欧氏距离捕获了原始数据之间的流形距离(或者更一般地说，所谓的正对图的图距离)。此外，嵌入空间中的方向对应于正对图中簇之间的关系。然后，我将讨论对实际预训练模型的行为进行清晰解释所必需的另外两个元素:体系结构的归纳偏差和优化器的隐式偏差。我将介绍两个最近正在进行的项目，其中我们(1)通过纳入体系结构的归纳偏差来加强之前的理论框架，(2)从经验和理论上证明优化器在预训练中的隐式偏差，即使使用无限的预训练数据。

马腾宇，2012届姚班校友，于普林斯顿大学获得博士学位，现为斯坦福大学计算机科学与统计学的助理教授。研究兴趣包括机器学习和深度学习，深度强化学习和高维统计。曾获得NIPS'16最佳学生论文奖，COLT'18最佳论文奖、ACM博士论文奖荣誉奖和2021斯隆研究奖。

专知便捷查看

便捷下载，请关注专知公众号（点击上方蓝色专知关注）

后台回复“TFUP” 就可以获取《【斯坦福马腾宇】理解预训练的三个方面:自监督丢失、归纳偏差和内隐偏差》专知下载链接

专知，专业可信的人工智能知识分发 ，让认知协作更快更好！欢迎注册登录专知www.zhuanzhi.ai，获取100000+AI(AI与军事、医药、公安等)主题干货知识资料！

欢迎微信扫一扫加入专知人工智能知识星球群，获取最新AI专业干货知识教程资料和与专家交流咨询！

点击“ 阅读原文 ”，了解使用专知 ，查看获取100000+AI主题知识资料

登录查看更多

0

相关内容

【哈佛大学博士论文】构建深度学习的理论基础:一种实证方法

【哈佛大学博士论文】构建深度学习的理论基础:一种实证方法

专知会员服务

49+阅读 · 2022年11月28日

【斯坦福马腾宇】理解预训练的三个方面:自监督损失、归纳偏差和内隐偏差

【斯坦福马腾宇】理解预训练的三个方面:自监督损失、归纳偏差和内隐偏差

专知会员服务

39+阅读 · 2022年11月8日

【CMU博士论文】《多任务环境下的学习原则：概率论的视角》

【CMU博士论文】《多任务环境下的学习原则：概率论的视角》

专知会员服务

32+阅读 · 2022年9月23日

【CMU博士论文】多视图上下文理解的知识增强表示学习

【CMU博士论文】多视图上下文理解的知识增强表示学习

专知会员服务

35+阅读 · 2022年8月11日

【斯坦福大学博士论文】监督和自监督深度学习泛化的理论见解

【斯坦福大学博士论文】监督和自监督深度学习泛化的理论见解

专知会员服务

89+阅读 · 2022年7月9日

《机器学习的最优传输》教程，63页PPT

《机器学习的最优传输》教程，63页PPT

专知会员服务

63+阅读 · 2022年4月30日

【UC伯克利-清华】隐式图神经网络

专知会员服务

24+阅读 · 2020年9月15日

【ST2020硬核课】深度神经网络，57页ppt

【ST2020硬核课】深度神经网络，57页ppt

专知会员服务

48+阅读 · 2020年8月19日

麻省理工学院MIT-ICLR2020《神经网络能推断出什么?》

麻省理工学院MIT-ICLR2020《神经网络能推断出什么?》

专知会员服务

51+阅读 · 2020年2月19日

【ICCV 2019 Workshop】Universal Features – Information Extraction for Transfer Learning（迁移学习中的信息提取），麻省理工学院（MIT）郑立中教授

【ICCV 2019 Workshop】Universal Features – Information Extraction for Transfer Learning（迁移学习中的信息提取），麻省理工学院（MIT）郑立中教授

专知会员服务

23+阅读 · 2019年10月30日

【哈佛大学博士论文】构建深度学习的理论基础:一种实证方法，164页pdf

【哈佛大学博士论文】构建深度学习的理论基础:一种实证方法，164页pdf

专知

9+阅读 · 2022年11月28日

MIT韩松《知识蒸馏》课程，94页ppt

MIT韩松《知识蒸馏》课程，94页ppt

专知

5+阅读 · 2022年10月30日

【牛津大学博士论文】多模态自监督学习，172页pdf

【牛津大学博士论文】多模态自监督学习，172页pdf

专知

9+阅读 · 2022年10月4日

【斯坦福博士论文】具有学习约束的深度表示，239页pdf

【斯坦福博士论文】具有学习约束的深度表示，239页pdf

专知

0+阅读 · 2022年9月13日

【DeepMind】结构化数据少样本学习，51页ppt

【DeepMind】结构化数据少样本学习，51页ppt

专知

1+阅读 · 2022年8月15日

【多伦多大学博士论文】整合语言学理论与神经语言模型，104页pdf

【多伦多大学博士论文】整合语言学理论与神经语言模型，104页pdf

专知

6+阅读 · 2022年8月4日

【NAACL2022】自然语言处理的对比数据与学习，157页ppt与视频

【NAACL2022】自然语言处理的对比数据与学习，157页ppt与视频

专知

2+阅读 · 2022年7月10日

【斯坦福大学博士论文】监督和自监督深度学习泛化的理论见解

【斯坦福大学博士论文】监督和自监督深度学习泛化的理论见解

专知

3+阅读 · 2022年7月9日

李飞飞斯坦福经典CS231N课程2022季开课了！斯坦福《深度学习计算机视觉》开始了！不容错过！

李飞飞斯坦福经典CS231N课程2022季开课了！斯坦福《深度学习计算机视觉》开始了！不容错过！

专知

5+阅读 · 2022年3月30日

【牛津大学&DeepMind】自监督学习教程，141页ppt

【牛津大学&DeepMind】自监督学习教程，141页ppt

专知

16+阅读 · 2020年5月29日

太阳风湍流在二维波矢空间分布特征的观测研究

国家自然科学基金

0+阅读 · 2015年12月31日

多标签降维中的多重代价敏感学习问题研究

国家自然科学基金

2+阅读 · 2015年12月31日

利用同步辐射X射线磁性圆二色和中子衍射研究MnxFe2-x(P,Si)化合物的结构与磁性

国家自然科学基金

0+阅读 · 2014年12月31日

异质界面中的量子相变和无序效应的动力学平均场理论研究

国家自然科学基金

0+阅读 · 2014年12月31日

多值拓扑中对偶结构的非对称性研究

国家自然科学基金

0+阅读 · 2013年12月31日

视觉知觉学习与视觉信息加工的空间参考坐标

国家自然科学基金

0+阅读 · 2012年12月31日

信念偏差效应的认知神经机制

国家自然科学基金

1+阅读 · 2012年12月31日

约束Markov过程的大偏差与拟遍历性及相关问题

国家自然科学基金

0+阅读 · 2012年12月31日

对多轨道关联材料中的量子相变和巡游磁性的理论研究

国家自然科学基金

0+阅读 · 2011年12月31日

硅基室温巨磁电阻的研究

国家自然科学基金

0+阅读 · 2011年12月31日

GEDI: GEnerative and DIscriminative Training for Self-Supervised Learning

Arxiv

0+阅读 · 2022年12月29日

Predictor Selection for Synthetic Controls

Arxiv

0+阅读 · 2022年12月29日

General GAN-generated image detection by data augmentation in fingerprint domain

Arxiv

0+阅读 · 2022年12月27日

Deep Learning for Time Series Anomaly Detection: A Survey

Arxiv

21+阅读 · 2022年11月9日

Beyond Just Vision: A Review on Self-Supervised Representation Learning on Multimodal and Temporal Data

Arxiv

28+阅读 · 2022年6月8日

Dense Contrastive Learning for Self-Supervised Visual Pre-Training

Arxiv

18+阅读 · 2021年4月4日

Self-supervised Learning: Generative or Contrastive

Arxiv

19+阅读 · 2020年7月21日

Few-shot Learning with Meta Metric Learners

Arxiv

13+阅读 · 2019年1月26日

End-to-End Multi-Task Learning with Attention

Arxiv

19+阅读 · 2018年3月28日

Unsupervised Cipher Cracking Using Discrete GANs

Arxiv

11+阅读 · 2018年1月15日

VIP会员

相关主题

相关VIP内容

【哈佛大学博士论文】构建深度学习的理论基础:一种实证方法

【哈佛大学博士论文】构建深度学习的理论基础:一种实证方法

专知会员服务

49+阅读 · 2022年11月28日

【斯坦福马腾宇】理解预训练的三个方面:自监督损失、归纳偏差和内隐偏差

【斯坦福马腾宇】理解预训练的三个方面:自监督损失、归纳偏差和内隐偏差

专知会员服务

39+阅读 · 2022年11月8日

【CMU博士论文】《多任务环境下的学习原则：概率论的视角》

【CMU博士论文】《多任务环境下的学习原则：概率论的视角》

专知会员服务

32+阅读 · 2022年9月23日

【CMU博士论文】多视图上下文理解的知识增强表示学习

【CMU博士论文】多视图上下文理解的知识增强表示学习

专知会员服务

35+阅读 · 2022年8月11日

【斯坦福大学博士论文】监督和自监督深度学习泛化的理论见解

【斯坦福大学博士论文】监督和自监督深度学习泛化的理论见解

专知会员服务

89+阅读 · 2022年7月9日

《机器学习的最优传输》教程，63页PPT

《机器学习的最优传输》教程，63页PPT

专知会员服务

63+阅读 · 2022年4月30日

【UC伯克利-清华】隐式图神经网络

专知会员服务

24+阅读 · 2020年9月15日

【ST2020硬核课】深度神经网络，57页ppt

【ST2020硬核课】深度神经网络，57页ppt

专知会员服务

48+阅读 · 2020年8月19日

麻省理工学院MIT-ICLR2020《神经网络能推断出什么?》

麻省理工学院MIT-ICLR2020《神经网络能推断出什么?》

专知会员服务

51+阅读 · 2020年2月19日

【ICCV 2019 Workshop】Universal Features – Information Extraction for Transfer Learning（迁移学习中的信息提取），麻省理工学院（MIT）郑立中教授

【ICCV 2019 Workshop】Universal Features – Information Extraction for Transfer Learning（迁移学习中的信息提取），麻省理工学院（MIT）郑立中教授

专知会员服务

23+阅读 · 2019年10月30日

热门VIP内容

开通专知VIP会员享更多权益服务

俄乌战争启示：坦克战与不断演变的战斗形态

《大规模作战行动中与无人机集成的C5ISR系统》

《主观概率约束下寻找可行系统及其军事应用》69页

《美政府问责局：多种挑战影响地面战车任务出勤率》2025最新130页

相关资讯

【哈佛大学博士论文】构建深度学习的理论基础:一种实证方法，164页pdf

【哈佛大学博士论文】构建深度学习的理论基础:一种实证方法，164页pdf

专知

9+阅读 · 2022年11月28日

MIT韩松《知识蒸馏》课程，94页ppt

MIT韩松《知识蒸馏》课程，94页ppt

专知

5+阅读 · 2022年10月30日

【牛津大学博士论文】多模态自监督学习，172页pdf

【牛津大学博士论文】多模态自监督学习，172页pdf

专知

9+阅读 · 2022年10月4日

【斯坦福博士论文】具有学习约束的深度表示，239页pdf

【斯坦福博士论文】具有学习约束的深度表示，239页pdf

专知

0+阅读 · 2022年9月13日

【DeepMind】结构化数据少样本学习，51页ppt

【DeepMind】结构化数据少样本学习，51页ppt

专知

1+阅读 · 2022年8月15日

【多伦多大学博士论文】整合语言学理论与神经语言模型，104页pdf

【多伦多大学博士论文】整合语言学理论与神经语言模型，104页pdf

专知

6+阅读 · 2022年8月4日

【NAACL2022】自然语言处理的对比数据与学习，157页ppt与视频

【NAACL2022】自然语言处理的对比数据与学习，157页ppt与视频

专知

2+阅读 · 2022年7月10日

【斯坦福大学博士论文】监督和自监督深度学习泛化的理论见解

【斯坦福大学博士论文】监督和自监督深度学习泛化的理论见解

专知

3+阅读 · 2022年7月9日

李飞飞斯坦福经典CS231N课程2022季开课了！斯坦福《深度学习计算机视觉》开始了！不容错过！

李飞飞斯坦福经典CS231N课程2022季开课了！斯坦福《深度学习计算机视觉》开始了！不容错过！

专知

5+阅读 · 2022年3月30日

【牛津大学&DeepMind】自监督学习教程，141页ppt

【牛津大学&DeepMind】自监督学习教程，141页ppt

专知

16+阅读 · 2020年5月29日

相关基金

太阳风湍流在二维波矢空间分布特征的观测研究

国家自然科学基金

0+阅读 · 2015年12月31日

多标签降维中的多重代价敏感学习问题研究

国家自然科学基金

2+阅读 · 2015年12月31日

利用同步辐射X射线磁性圆二色和中子衍射研究MnxFe2-x(P,Si)化合物的结构与磁性

国家自然科学基金

0+阅读 · 2014年12月31日

异质界面中的量子相变和无序效应的动力学平均场理论研究

国家自然科学基金

0+阅读 · 2014年12月31日

多值拓扑中对偶结构的非对称性研究

国家自然科学基金

0+阅读 · 2013年12月31日

视觉知觉学习与视觉信息加工的空间参考坐标

国家自然科学基金

0+阅读 · 2012年12月31日

信念偏差效应的认知神经机制

国家自然科学基金

1+阅读 · 2012年12月31日

约束Markov过程的大偏差与拟遍历性及相关问题

国家自然科学基金

0+阅读 · 2012年12月31日

对多轨道关联材料中的量子相变和巡游磁性的理论研究

国家自然科学基金

0+阅读 · 2011年12月31日

硅基室温巨磁电阻的研究

国家自然科学基金

0+阅读 · 2011年12月31日

相关论文

GEDI: GEnerative and DIscriminative Training for Self-Supervised Learning

Arxiv

0+阅读 · 2022年12月29日

Predictor Selection for Synthetic Controls

Arxiv

0+阅读 · 2022年12月29日

General GAN-generated image detection by data augmentation in fingerprint domain

Arxiv

0+阅读 · 2022年12月27日

Deep Learning for Time Series Anomaly Detection: A Survey

Arxiv

21+阅读 · 2022年11月9日

Beyond Just Vision: A Review on Self-Supervised Representation Learning on Multimodal and Temporal Data

Arxiv

28+阅读 · 2022年6月8日

Dense Contrastive Learning for Self-Supervised Visual Pre-Training

Arxiv

18+阅读 · 2021年4月4日

Self-supervised Learning: Generative or Contrastive

Arxiv

19+阅读 · 2020年7月21日

Few-shot Learning with Meta Metric Learners

Arxiv

13+阅读 · 2019年1月26日

End-to-End Multi-Task Learning with Attention

Arxiv

19+阅读 · 2018年3月28日

Unsupervised Cipher Cracking Using Discrete GANs

Arxiv

11+阅读 · 2018年1月15日

大家都在搜

IJCAI2025教程

国防科技创新

朱克爱德华兹家族

OpenKG开源系列 | 海洋鱼类百科知识图谱（浙江大学）

微信扫码咨询专知VIP会员