强化学习是人工智能中的一个重要研究方向。尽管该领域具有坚实的理论基础,但它在现实世界中也取得了诸多成功应用。然而,由于强化学习训练过程复杂且对数据需求量大,其在大规模应用中的使用仍受到一定限制。为进一步提升其实用性,本文旨在探索适用于大规模场景的更高效的训练方法以及更严谨的理论分析。

首先,论文提出了一种适用于无限时域折扣强化学习表格设置(tabular setting)的新算法,这是强化学习中最基本的问题之一。此前最优的算法虽然在理论上达到了最小遗憾(optimal regret),但代价是高昂的计算与内存需求。本文提出的算法引入了全新的策略切换(policy switching)机制,在保持理论最优性的同时显著降低了计算与内存开销,并大幅减少了实际应用中常见的“冷启动”(burn-in)成本。我们还给出了该算法的理论分析,并与现有方法进行了对比,展示了其优势。

接着,论文提出了一系列关于深度强化学习的新理论成果。虽然深度神经网络在强化学习实践中取得了显著成功,但多数现有理论分析依赖于传统的大数一致律(uniform laws of large numbers),难以完整解释经验现象。为此,我们的理论进一步拉近了理论与实践之间的差距,表明深度强化学习能够自适应马尔可夫决策过程(MDP)中的内在低维结构。我们针对多个重要任务(如离策略评估、偏好学习与 actor-critic 策略梯度优化)给出了更紧致的理论界限。

最后,论文提出了一种新颖的人类反馈强化学习算法,面向大语言模型(LLM)的后训练阶段。以往研究中存在一个两难困境:经验上流行的算法虽然实用,但缺乏收敛保证,尤其在数据覆盖稀疏时容易失败;而理论驱动的方法虽具备可证明的收敛性,但在大规模应用中效率低下。为此,本文提出了首个既具备理论收敛性又可扩展至大语言模型后训练的算法,灵感来自“平均悲观”(on-average pessimism)技术。我们还提供了该算法的理论收敛分析,并在大语言模型上进行了实证实验验证其有效性。

成为VIP会员查看完整内容
9

相关内容

博士论文是由攻读博士学位的研究生所撰写的学术论文。它要求作者在博士生导师的指导下,选择自己能够把握和驾驭的潜在的研究方向,开辟新的研究领域。由此可见,这就对作者提出了较高要求,它要求作者必须在本学科的专业领域具备大量的理论知识,并对所学专业的理论知识有相当深入的理解和思考,同时还要具有相当水平的独立科学研究能力,能够为在学科领域提出独创性的见解和有价值的科研成果。因而,较之学士论文、硕士论文,博士论文具有更高的学术价值,对学科的发展具有重要的推动作用。
【博士论文】面向未知感知的机器学习基础
专知会员服务
16+阅读 · 5月22日
【ETZH博士论文】深度神经网络的数学理解
专知会员服务
33+阅读 · 4月27日
【博士论文】在缺失数据情况下的深度自监督学习
专知会员服务
33+阅读 · 2024年12月27日
【博士论文】复杂场景下高精度有向目标检测的研究
专知会员服务
51+阅读 · 2023年12月1日
【NUS博士论文】深度视觉算法的对抗鲁棒性研究
专知会员服务
33+阅读 · 2022年11月25日
【MIT博士论文】优化理论与机器学习实践
专知会员服务
94+阅读 · 2022年6月30日
专知会员服务
82+阅读 · 2020年12月18日
「知识增强预训练语言模型」最新研究综述
专知
17+阅读 · 2022年11月18日
清华大学:从单体仿生到群体智能
专知
18+阅读 · 2022年2月9日
基于深度学习的数据融合方法研究综述
专知
33+阅读 · 2020年12月10日
基于图神经网络的知识图谱研究进展
AI科技评论
20+阅读 · 2020年8月31日
深度多模态表示学习综述论文,22页pdf
专知
33+阅读 · 2020年6月21日
【深度学习】深度学习技术发展趋势浅析
产业智能官
11+阅读 · 2019年4月13日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
13+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2013年12月31日
Arxiv
170+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
469+阅读 · 2023年3月31日
Arxiv
76+阅读 · 2023年3月26日
Arxiv
170+阅读 · 2023年3月24日
Arxiv
24+阅读 · 2023年3月17日
VIP会员
相关VIP内容
相关基金
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
13+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2013年12月31日
微信扫码咨询专知VIP会员