【博士论文】深度强化学习：开放世界无监督环境设计，223页pdf

深度强化学习（RL）为训练最优序列决策智能体提供了强大的方法。由于收集现实世界的交互可能带来额外的成本和安全风险，通常的模拟到现实（sim2real）范式是在模拟器中进行训练，随后在现实世界中部署。然而，RL智能体容易过拟合于选定的模拟训练环境，并且更糟的是，一旦智能体掌握了特定的模拟环境集合，学习就会结束。与此相反，现实世界是高度开放的——特征是不断演变的环境和挑战，使得这种RL方法不适用。仅在大量模拟环境空间中进行随机化是不够的，因为这需要做出任意的分布假设，随着设计空间的增长，抽样对于学习有用的特定环境实例的可能性组合上会变得越来越小。理想的学习过程应该自动调整训练环境，以最大化智能体在开放式任务空间中的学习潜力，该任务空间与现实世界的复杂性相匹配或超越。本论文开发了一类称为无监督环境设计（UED）的方法，旨在通过原则性的方法逐渐提高学习智能体的鲁棒性和通用性，从而启用这样一个开放式过程。在给定的潜在开放式环境设计空间中，UED自动生成一个无限序列或课程表的训练环境，这些环境位于学习智能体能力的前沿。通过广泛的实证研究和基于最小最大后悔决策理论和博弈论的理论论证，本论文的发现显示，UED自动课程可以产生显著提升鲁棒性和泛化能力的RL智能体，使其能够应对以前未见的环境实例。这样的自动课程是朝向开放式学习系统的有前途的路径，这种系统接近通用智能——这是人工智能研究长期追求的目标——通过不断生成并掌握自己设计的更多挑战。

成为VIP会员查看完整内容

相关内容

深度强化学习

关注 154

深度强化学习 (DRL) 是一种使用深度学习技术扩展传统强化学习方法的一种机器学习方法。传统强化学习方法的主要任务是使得主体根据从环境中获得的奖赏能够学习到最大化奖赏的行为。然而，传统无模型强化学习方法需要使用函数逼近技术使得主体能够学习出值函数或者策略。在这种情况下，深度学习强大的函数逼近能力自然成为了替代人工指定特征的最好手段并为性能更好的端到端学习的实现提供了可能。

【博士论文】时序知识图谱嵌入与推理，178页pdf

专知会员服务

50+阅读 · 2024年1月28日

【NTU博士论文】复杂序列决策中的多智能体强化学习，176页pdf

专知会员服务

71+阅读 · 2024年1月13日

【博士论文】开放环境中分布外检测与表示学习：算法与理论，301页pdf

专知会员服务

48+阅读 · 2024年1月7日

【UMB博士论文】走向无监督表征学习：学习、评估与迁移视觉表示，223页pdf

专知会员服务

34+阅读 · 2023年12月16日