【普林斯顿博士论文】理解神经网络的训练动态：局部优化轨迹与特征学习视角 - 专知VIP

会员服务 ·

1

普林斯顿大学 (Princeton University) · 博士论文 · 神经网络 · 特征学习 · 神经切线核 ·

【普林斯顿博士论文】理解神经网络的训练动态：局部优化轨迹与特征学习视角

专知会员服务

专知，提供专业可信的知识分发服务，让认知协作更快更好！

在深度神经网络中，常常遇到损失函数是高维的、非凸的和非平滑的情况。在这些大规模的设置中，传统优化文献中的理论边界（这些文献集中在假设一些全局最坏情况参数的黑箱分析）可能变得没有意义。此外，优化算法与损失几何之间可能存在复杂的交互现象：最近的研究表明，优化过程中遇到的迭代几何特征在很大程度上取决于优化算法的选择及其超参数。这些挑战促使我们进行局部而非全局、算法相关的轨迹分析，并详细追踪训练动态。本论文将重点研究神经网络中优化算法的局部轨迹，并尝试从优化和特征学习的角度理解其训练动态。从优化角度出发，我们将比较自适应优化方法（例如Adam）与非自适应方法的局部损失几何，并展示自适应方法能够将其轨迹偏向于具有某种均匀性特性的区域。接下来，我们将证明这一均匀性特性是加速优化的一个促成因素。从特征学习的角度，本论文将关注神经切线核（NTK）的演化，并展示具有大学习率的梯度下降动态倾向于增加NTK与目标函数之间的对齐度。随后，我们将讨论这一对齐特性与特征学习以及神经网络泛化能力之间的联系。我们还将提供理论分析，以理解我们经验观察背后的机制。最后，我们将通过讨论潜在的未来方向来总结本论文，旨在将我们的工作推广到更复杂的设置中，以便更好地理解实际中的训练动态。

成为VIP会员查看完整内容

1

相关内容

普林斯顿大学 (Princeton University)

普林斯顿大学 (Princeton University)

普林斯顿大学，又译 普林斯敦大学，常被直接称为 普林斯顿，是美国一所私立研究型大学，现为八所常青藤学校之一，绰号为老虎。

【博士论文】面向下游任务的语言模型优化：一种后训练视角

【博士论文】面向下游任务的语言模型优化：一种后训练视角

专知会员服务

13+阅读 · 7月6日

【NTU博士论文】面向视觉能力神经模型的资源高效学习

【NTU博士论文】面向视觉能力神经模型的资源高效学习

专知会员服务

22+阅读 · 1月2日

【NUS博士论文】视频语义理解中的因果模型

【NUS博士论文】视频语义理解中的因果模型

专知会员服务

34+阅读 · 2024年10月30日

【牛津大学博士论文】基于元学习和对称性的数据高效深度学习探索

【牛津大学博士论文】基于元学习和对称性的数据高效深度学习探索

专知会员服务

28+阅读 · 2024年10月27日

【MIT博士论文】非线性优化在机器学习应用中的平滑性与自适应性

【MIT博士论文】非线性优化在机器学习应用中的平滑性与自适应性

专知会员服务

25+阅读 · 2024年8月27日

【ETHZ博士论文】有限数据中的元学习先验：从理论到实践

【ETHZ博士论文】有限数据中的元学习先验：从理论到实践

专知会员服务

36+阅读 · 2024年6月4日

【剑桥大学博士论文】使用机器学习的因果推断中的两个问题的半参数方法

【剑桥大学博士论文】使用机器学习的因果推断中的两个问题的半参数方法

专知会员服务

26+阅读 · 2024年5月25日

【斯坦福博士论文】合作博弈论在可解释机器学习中的应用

【斯坦福博士论文】合作博弈论在可解释机器学习中的应用

专知会员服务

43+阅读 · 2023年9月19日

【斯坦福】基于模型的深度学习:论深度学习与优化的交集

【斯坦福】基于模型的深度学习:论深度学习与优化的交集

专知会员服务

45+阅读 · 2022年5月10日

【CVPR2022】三元组对比学习的视觉-语言预训练

【CVPR2022】三元组对比学习的视觉-语言预训练

专知会员服务

33+阅读 · 2022年3月3日

【ICLR2022】图神经网络复杂时间序列建模以及医疗健康应用

【ICLR2022】图神经网络复杂时间序列建模以及医疗健康应用

专知

10+阅读 · 2022年4月15日

【AAAI2021】知识图谱增强的预训练模型的生成式常识推理

【AAAI2021】知识图谱增强的预训练模型的生成式常识推理

专知

29+阅读 · 2021年1月25日

图神经网络如何时序化？看Twitter最新《动态图深度学习:时序图网络TGN》研究，附论文与PPT下载

图神经网络如何时序化？看Twitter最新《动态图深度学习:时序图网络TGN》研究，附论文与PPT下载

专知

17+阅读 · 2021年1月24日

【NeurIPS 2020 Tutorial】离线强化学习:从算法到挑战，80页ppt

【NeurIPS 2020 Tutorial】离线强化学习:从算法到挑战，80页ppt

专知

15+阅读 · 2020年12月9日

【ICML2020-南大周志华老师组】针对未见类未标记数据的安全深度半监督学习

【ICML2020-南大周志华老师组】针对未见类未标记数据的安全深度半监督学习

专知

46+阅读 · 2020年7月5日

【KDD2020】图神经网络生成式预训练

【KDD2020】图神经网络生成式预训练

专知

22+阅读 · 2020年7月3日

【CVPR2020】L2 ^GCN：图卷积网络的分层学习高效训练

【CVPR2020】L2 ^GCN：图卷积网络的分层学习高效训练

专知

12+阅读 · 2020年3月31日

【学界】CVPR 2019 | 基于级联语义引导下的多通道注意力选择图像翻译

【学界】CVPR 2019 | 基于级联语义引导下的多通道注意力选择图像翻译

GAN生成式对抗网络

10+阅读 · 2019年8月17日

论文浅尝 | 当知识图谱遇上零样本学习——零样本学习综述

论文浅尝 | 当知识图谱遇上零样本学习——零样本学习综述

开放知识图谱

20+阅读 · 2018年9月26日

论文浅尝 | 远程监督关系抽取的生成式对抗训练

论文浅尝 | 远程监督关系抽取的生成式对抗训练

开放知识图谱

17+阅读 · 2018年7月12日

基于低秩表示的鲁棒特征抽取和分类方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于对称识别方法的贝叶斯probit模型稳健性研究

国家自然科学基金

3+阅读 · 2015年12月31日

高维回归模型的预测稳定性研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于多样化查询的多标记主动学习研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于神经网络的无约束0-1二次规划全局最优算法研究

国家自然科学基金

3+阅读 · 2015年12月31日

面向大数据的安全迁移学习方法

国家自然科学基金

28+阅读 · 2015年12月31日

基于异构信息网络的分类算法推荐方法研究

国家自然科学基金

7+阅读 · 2015年12月31日

高阶图像去噪模型的快速数值算法研究

国家自然科学基金

1+阅读 · 2015年12月31日

纵向数据的动态半参数建模及其统计推断

国家自然科学基金

0+阅读 · 2014年12月31日

变换结构方程模型的非参数贝叶斯分析

国家自然科学基金

3+阅读 · 2014年12月31日

Is ChatGPT a Good Recommender? A Preliminary Study

Arxiv

170+阅读 · 2023年4月20日

A Comprehensive Survey on Deep Graph Representation Learning

Arxiv

101+阅读 · 2023年4月11日

On Efficient Training of Large-Scale Deep Learning Models: A Literature Review

Arxiv

213+阅读 · 2023年4月7日

A Survey of Large Language Models

A Survey of Large Language Models

Arxiv

472+阅读 · 2023年3月31日

Is Prompt All You Need? No. A Comprehensive and Broader View of Instruction Learning

Is Prompt All You Need? No. A Comprehensive and Broader View of Instruction Learning

Arxiv

20+阅读 · 2023年3月21日

Data-centric Artificial Intelligence: A Survey

Arxiv

24+阅读 · 2023年3月17日

A survey and taxonomy of loss functions in machine learning

Arxiv

25+阅读 · 2023年1月13日

Deep learning: a statistical viewpoint

Arxiv

18+阅读 · 2021年3月16日

Meta-learning in natural and artificial intelligence

Arxiv

10+阅读 · 2020年11月26日

Interpretable machine learning: definitions, methods, and applications

Interpretable machine learning: definitions, methods, and applications

Arxiv

19+阅读 · 2019年1月14日

VIP会员

相关主题

普林斯顿大学 (Princeton University)

神经切线核

相关VIP内容

【博士论文】面向下游任务的语言模型优化：一种后训练视角

【博士论文】面向下游任务的语言模型优化：一种后训练视角

专知会员服务

13+阅读 · 7月6日

【NTU博士论文】面向视觉能力神经模型的资源高效学习

【NTU博士论文】面向视觉能力神经模型的资源高效学习

专知会员服务

22+阅读 · 1月2日

【NUS博士论文】视频语义理解中的因果模型

【NUS博士论文】视频语义理解中的因果模型

专知会员服务

34+阅读 · 2024年10月30日

【牛津大学博士论文】基于元学习和对称性的数据高效深度学习探索

【牛津大学博士论文】基于元学习和对称性的数据高效深度学习探索

专知会员服务

28+阅读 · 2024年10月27日

【MIT博士论文】非线性优化在机器学习应用中的平滑性与自适应性

【MIT博士论文】非线性优化在机器学习应用中的平滑性与自适应性

专知会员服务

25+阅读 · 2024年8月27日

【ETHZ博士论文】有限数据中的元学习先验：从理论到实践

【ETHZ博士论文】有限数据中的元学习先验：从理论到实践

专知会员服务

36+阅读 · 2024年6月4日

【剑桥大学博士论文】使用机器学习的因果推断中的两个问题的半参数方法

【剑桥大学博士论文】使用机器学习的因果推断中的两个问题的半参数方法

专知会员服务

26+阅读 · 2024年5月25日

【斯坦福博士论文】合作博弈论在可解释机器学习中的应用

【斯坦福博士论文】合作博弈论在可解释机器学习中的应用

专知会员服务

43+阅读 · 2023年9月19日

【斯坦福】基于模型的深度学习:论深度学习与优化的交集

【斯坦福】基于模型的深度学习:论深度学习与优化的交集

专知会员服务

45+阅读 · 2022年5月10日

【CVPR2022】三元组对比学习的视觉-语言预训练

【CVPR2022】三元组对比学习的视觉-语言预训练

专知会员服务

33+阅读 · 2022年3月3日

热门VIP内容

开通专知VIP会员享更多权益服务

《海战法：海战中的人工智能与自主系统》最新45页

《美军条令：行动后评估》2025最新36页

中文版 | 先进通信技术

《国防系统提升可靠性与维护性评估效能的实践准则》最新64页

相关资讯

【ICLR2022】图神经网络复杂时间序列建模以及医疗健康应用

【ICLR2022】图神经网络复杂时间序列建模以及医疗健康应用

专知

10+阅读 · 2022年4月15日

【AAAI2021】知识图谱增强的预训练模型的生成式常识推理

【AAAI2021】知识图谱增强的预训练模型的生成式常识推理

专知

29+阅读 · 2021年1月25日

图神经网络如何时序化？看Twitter最新《动态图深度学习:时序图网络TGN》研究，附论文与PPT下载

图神经网络如何时序化？看Twitter最新《动态图深度学习:时序图网络TGN》研究，附论文与PPT下载

专知

17+阅读 · 2021年1月24日

【NeurIPS 2020 Tutorial】离线强化学习:从算法到挑战，80页ppt

【NeurIPS 2020 Tutorial】离线强化学习:从算法到挑战，80页ppt

专知

15+阅读 · 2020年12月9日

【ICML2020-南大周志华老师组】针对未见类未标记数据的安全深度半监督学习

【ICML2020-南大周志华老师组】针对未见类未标记数据的安全深度半监督学习

专知

46+阅读 · 2020年7月5日

【KDD2020】图神经网络生成式预训练

【KDD2020】图神经网络生成式预训练

专知

22+阅读 · 2020年7月3日

【CVPR2020】L2 ^GCN：图卷积网络的分层学习高效训练

【CVPR2020】L2 ^GCN：图卷积网络的分层学习高效训练

专知

12+阅读 · 2020年3月31日

【学界】CVPR 2019 | 基于级联语义引导下的多通道注意力选择图像翻译

【学界】CVPR 2019 | 基于级联语义引导下的多通道注意力选择图像翻译

GAN生成式对抗网络

10+阅读 · 2019年8月17日

论文浅尝 | 当知识图谱遇上零样本学习——零样本学习综述

论文浅尝 | 当知识图谱遇上零样本学习——零样本学习综述

开放知识图谱

20+阅读 · 2018年9月26日

论文浅尝 | 远程监督关系抽取的生成式对抗训练

论文浅尝 | 远程监督关系抽取的生成式对抗训练

开放知识图谱

17+阅读 · 2018年7月12日

相关基金

基于低秩表示的鲁棒特征抽取和分类方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于对称识别方法的贝叶斯probit模型稳健性研究

国家自然科学基金

3+阅读 · 2015年12月31日

高维回归模型的预测稳定性研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于多样化查询的多标记主动学习研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于神经网络的无约束0-1二次规划全局最优算法研究

国家自然科学基金

3+阅读 · 2015年12月31日

面向大数据的安全迁移学习方法

国家自然科学基金

28+阅读 · 2015年12月31日

基于异构信息网络的分类算法推荐方法研究

国家自然科学基金

7+阅读 · 2015年12月31日

高阶图像去噪模型的快速数值算法研究

国家自然科学基金

1+阅读 · 2015年12月31日

纵向数据的动态半参数建模及其统计推断

国家自然科学基金

0+阅读 · 2014年12月31日

变换结构方程模型的非参数贝叶斯分析

国家自然科学基金

3+阅读 · 2014年12月31日

相关论文

Is ChatGPT a Good Recommender? A Preliminary Study

Arxiv

170+阅读 · 2023年4月20日

A Comprehensive Survey on Deep Graph Representation Learning

Arxiv

101+阅读 · 2023年4月11日

On Efficient Training of Large-Scale Deep Learning Models: A Literature Review

Arxiv

213+阅读 · 2023年4月7日

A Survey of Large Language Models

A Survey of Large Language Models

Arxiv

472+阅读 · 2023年3月31日

Is Prompt All You Need? No. A Comprehensive and Broader View of Instruction Learning

Is Prompt All You Need? No. A Comprehensive and Broader View of Instruction Learning

Arxiv

20+阅读 · 2023年3月21日

Data-centric Artificial Intelligence: A Survey

Arxiv

24+阅读 · 2023年3月17日

A survey and taxonomy of loss functions in machine learning

Arxiv

25+阅读 · 2023年1月13日

Deep learning: a statistical viewpoint

Arxiv

18+阅读 · 2021年3月16日

Meta-learning in natural and artificial intelligence

Arxiv

10+阅读 · 2020年11月26日

Interpretable machine learning: definitions, methods, and applications

Interpretable machine learning: definitions, methods, and applications

Arxiv

19+阅读 · 2019年1月14日

微信扫码咨询专知VIP会员