泛化(Generalization)是现代机器学习中的核心挑战之一。传统理论能够较好地解释小规模的监督学习模型,但在面对参数极度冗余的神经网络以及强化学习与大规模预训练等新范式时,却难以解释其出人意料的行为。这些进展揭示出现代机器学习亟需新的理论与实证工具,以更好地刻画其泛化机制。 本论文首先聚焦于监督学习,提出了一种新的经验现象——泛化分歧等式(Generalization Disagreement Equality, GDE)。该等式可仅通过无标签数据精确估计深度神经网络的泛化误差。在此基础上,我们建立了一个以**特征学习(feature learning)**为核心的理论框架,用以刻画神经网络如何从原始数据中提取有意义的表征。该框架不仅揭示了 GDE 的数学本质,还成功预测了多项新的实验结果,从而更完整地阐释了深度网络的学习与泛化过程。

论文的第二部分探讨了深度强化学习(Deep Reinforcement Learning, DRL)算法的泛化特性,重点分析其与探索(exploration)之间的关系。我们建立了探索与泛化之间的关键联系,并提出了一种新算法,显著提升了智能体在未见环境(unseen environments)中的泛化能力。进一步地,我们展示了基于大语言模型(LLM)的强化学习智能体可以在测试阶段进行高效探索,从而解决全新的决策问题。 第三部分将这些洞见扩展至无监督预训练(unsupervised pre-training)。我们发现,数据子集的学习损失曲线可被准确地建模为一种缩放定律(scaling law),并且可以进一步分解为不同类型的不确定性。这些不确定性可以作为信号,用于在训练过程中动态调整数据组成,从而提升学习效率,同时几乎不增加计算开销。

最后,论文提出一个更具普适性的观点:过参数化网络的意外特性,以及传统信息论在解释现代机器学习现象时的局限,根源在于真实学习者受到计算约束(computationally bounded)。为此,我们引入了一个新的概念——表复复杂度(epiplexity),用于衡量时间受限观察者所能访问的结构化信息量。表复复杂度不仅解决了经典理论留下的多个悖论,还可通过学习曲线与缩放定律进行实际估计,并在从元胞自动机到语言与视觉的多个领域中得到了验证。

这些结果表明,计算约束并非学习现象的外围因素,而是其核心组成部分。该框架为理解机器学习中的泛化、数据选择与表征学习提供了统一视角,并建立了机器学习与算法信息论、复杂性理论及密码学之间的新联系。

成为VIP会员查看完整内容
0

相关内容

博士论文是由攻读博士学位的研究生所撰写的学术论文。它要求作者在博士生导师的指导下,选择自己能够把握和驾驭的潜在的研究方向,开辟新的研究领域。由此可见,这就对作者提出了较高要求,它要求作者必须在本学科的专业领域具备大量的理论知识,并对所学专业的理论知识有相当深入的理解和思考,同时还要具有相当水平的独立科学研究能力,能够为在学科领域提出独创性的见解和有价值的科研成果。因而,较之学士论文、硕士论文,博士论文具有更高的学术价值,对学科的发展具有重要的推动作用。
【CMU博士论文】通信高效且差分隐私的优化方法
【ETHZ博士论文】人工智能模型错误的分类与缓解
【NTU博士论文】数据高效的深度多模态学习
专知会员服务
22+阅读 · 1月31日
【伯克利博士论文】高效深度学习推理的全栈方法
专知会员服务
32+阅读 · 2024年12月22日
【NUS博士论文】视频语义理解中的因果模型
专知会员服务
36+阅读 · 2024年10月30日
【MIT博士论文】高效深度学习计算的模型加速
专知会员服务
33+阅读 · 2024年8月23日
论文浅尝 | 采用多层注意力机制的事件检测
开放知识图谱
24+阅读 · 2019年8月24日
SFFAI报告 | 常建龙 :深度卷积网络中的卷积算子研究进展
人工智能前沿讲习班
11+阅读 · 2018年10月22日
国家自然科学基金
10+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
11+阅读 · 2015年12月31日
国家自然科学基金
28+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
Arxiv
171+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
484+阅读 · 2023年3月31日
Arxiv
79+阅读 · 2023年3月26日
Arxiv
175+阅读 · 2023年3月24日
Arxiv
25+阅读 · 2023年3月17日
VIP会员
相关VIP内容
【CMU博士论文】通信高效且差分隐私的优化方法
【ETHZ博士论文】人工智能模型错误的分类与缓解
【NTU博士论文】数据高效的深度多模态学习
专知会员服务
22+阅读 · 1月31日
【伯克利博士论文】高效深度学习推理的全栈方法
专知会员服务
32+阅读 · 2024年12月22日
【NUS博士论文】视频语义理解中的因果模型
专知会员服务
36+阅读 · 2024年10月30日
【MIT博士论文】高效深度学习计算的模型加速
专知会员服务
33+阅读 · 2024年8月23日
相关基金
国家自然科学基金
10+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
11+阅读 · 2015年12月31日
国家自然科学基金
28+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
微信扫码咨询专知VIP会员