【斯坦福马腾宇】理解预训练的三个方面:自监督丢失、归纳偏差和内隐偏差

2022 年 11 月 8 日 专知

工智能正在经历范式转变,一些经过自监督预训练、然后适应广泛下游任务的模型正在兴起。然而,它们的工作原理在很大程度上仍然是个谜;经典的学习理论无法解释为什么对无监督任务的预训练可以帮助许多不同的下游任务。本次演讲将首先研究预训练损失在从未标记数据中提取有意义的结构信息方面的作用,特别是在无限数据状态下。具体来说,我将展示对比损失可能产生的嵌入,其欧氏距离捕获了原始数据之间的流形距离(或者更一般地说,所谓的正对图的图距离)。此外,嵌入空间中的方向对应于正对图中簇之间的关系。然后,我将讨论对实际预训练模型的行为进行清晰解释所必需的另外两个元素:体系结构的归纳偏差和优化器的隐式偏差。我将介绍两个最近正在进行的项目,其中我们(1)通过纳入体系结构的归纳偏差来加强之前的理论框架,(2)从经验和理论上证明优化器在预训练中的隐式偏差,即使使用无限的预训练数据。



马腾宇,2012届姚班校友,于普林斯顿大学获得博士学位,现为斯坦福大学计算机科学与统计学的助理教授。研究兴趣包括机器学习和深度学习,深度强化学习和高维统计。曾获得NIPS'16最佳学生论文奖,COLT'18最佳论文奖、ACM博士论文奖荣誉奖和2021斯隆研究奖。




专知便捷查看

便捷下载,请关注专知公众号(点击上方蓝色专知关注)

  • 后台回复“TFUP” 就可以获取【斯坦福马腾宇】理解预训练的三个方面:自监督丢失、归纳偏差和内隐偏差》专知下载链接

                       
专知,专业可信的人工智能知识分发 ,让认知协作更快更好!欢迎注册登录专知www.zhuanzhi.ai,获取100000+AI(AI与军事、医药、公安等)主题干货知识资料!
欢迎微信扫一扫加入专知人工智能知识星球群,获取最新AI专业干货知识教程资料和与专家交流咨询
点击“ 阅读原文 ”,了解使用 专知 ,查看获取100000+AI主题知识资料

登录查看更多
0

相关内容

【CMU博士论文】多视图上下文理解的知识增强表示学习
专知会员服务
33+阅读 · 2022年8月11日
《机器学习的最优传输》教程,63页PPT
专知会员服务
61+阅读 · 2022年4月30日
专知会员服务
23+阅读 · 2020年9月15日
【ST2020硬核课】深度神经网络,57页ppt
专知会员服务
43+阅读 · 2020年8月19日
麻省理工学院MIT-ICLR2020《神经网络能推断出什么?》
专知会员服务
50+阅读 · 2020年2月19日
MIT韩松《知识蒸馏》课程,94页ppt
专知
2+阅读 · 2022年10月30日
【DeepMind】结构化数据少样本学习,51页ppt
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
Arxiv
0+阅读 · 2022年12月29日
Arxiv
19+阅读 · 2020年7月21日
Arxiv
13+阅读 · 2019年1月26日
Arxiv
19+阅读 · 2018年3月28日
Arxiv
11+阅读 · 2018年1月15日
VIP会员
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
Top
微信扫码咨询专知VIP会员