深度强化学习(RL)为训练最优序列决策智能体提供了强大的方法。由于收集现实世界的交互可能带来额外的成本和安全风险,通常的模拟到现实(sim2real)范式是在模拟器中进行训练,随后在现实世界中部署。然而,RL智能体容易过拟合于选定的模拟训练环境,并且更糟的是,一旦智能体掌握了特定的模拟环境集合,学习就会结束。与此相反,现实世界是高度开放的——特征是不断演变的环境和挑战,使得这种RL方法不适用。仅在大量模拟环境空间中进行随机化是不够的,因为这需要做出任意的分布假设,随着设计空间的增长,抽样对于学习有用的特定环境实例的可能性组合上会变得越来越小。理想的学习过程应该自动调整训练环境,以最大化智能体在开放式任务空间中的学习潜力,该任务空间与现实世界的复杂性相匹配或超越。本论文开发了一类称为无监督环境设计(UED)的方法,旨在通过原则性的方法逐渐提高学习智能体的鲁棒性和通用性,从而启用这样一个开放式过程。在给定的潜在开放式环境设计空间中,UED自动生成一个无限序列或课程表的训练环境,这些环境位于学习智能体能力的前沿。通过广泛的实证研究和基于最小最大后悔决策理论和博弈论的理论论证,本论文的发现显示,UED自动课程可以产生显著提升鲁棒性和泛化能力的RL智能体,使其能够应对以前未见的环境实例。这样的自动课程是朝向开放式学习系统的有前途的路径,这种系统接近通用智能——这是人工智能研究长期追求的目标——通过不断生成并掌握自己设计的更多挑战。

成为VIP会员查看完整内容
52

相关内容

深度强化学习 (DRL) 是一种使用深度学习技术扩展传统强化学习方法的一种机器学习方法。 传统强化学习方法的主要任务是使得主体根据从环境中获得的奖赏能够学习到最大化奖赏的行为。然而,传统无模型强化学习方法需要使用函数逼近技术使得主体能够学习出值函数或者策略。在这种情况下,深度学习强大的函数逼近能力自然成为了替代人工指定特征的最好手段并为性能更好的端到端学习的实现提供了可能。
【博士论文】时序知识图谱嵌入与推理,178页pdf
专知会员服务
39+阅读 · 1月28日
【CMU博士论文】分布式强化学习自动驾驶,100页pdf
专知会员服务
36+阅读 · 2023年4月17日
【UIUC博士论文】高效多智能体深度强化学习,130页pdf
专知会员服务
65+阅读 · 2023年1月14日
【MIT博士论文】数据高效强化学习,176页pdf
专知会员服务
82+阅读 · 2022年7月11日
【博士论文】多任务学习视觉场景理解,140页pdf
专知会员服务
88+阅读 · 2022年4月5日
【MIT博士论文】数据高效强化学习,176页pdf
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
9+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
28+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
Arxiv
131+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
325+阅读 · 2023年3月31日
Arxiv
111+阅读 · 2023年3月24日
Arxiv
15+阅读 · 2023年3月17日
VIP会员
相关基金
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
9+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
28+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
微信扫码咨询专知VIP会员