VIP内容

该系列课程由DeepMind研究人员教授,与伦敦大学学院(UCL)合作创建,为学生提供现代强化学习的全面介绍。

本课程包括13个讲座,该系列涵盖了基础的强化学习和规划的序列决策问题,在进入更高级的主题和现代深度RL算法之前。它让学生详细了解各种主题,包括马尔可夫决策过程,基于样本的学习算法(如(双)Q-learning, SARSA),深度强化学习,等等。它还探索了更高级的主题,如非策略学习、多步骤更新和资格跟踪,以及在实现深度强化学习算法(如彩虹DQN)时的概念和实际考虑。

DeepMind研究科学家和工程师Hado van Hasselt, Diana Borsa和Matteo Hessel领导了一份针对硕士以上学生的关于RL和深度RL的13部分独立介绍。

第1讲: 强化学习的介绍

研究科学家Hado van Hasselt介绍了强化学习课程,并解释了强化学习与人工智能的关系。

第二讲: 探索与控制

研究科学家哈多·范·哈塞尔特(Hado van Hasselt)探讨了为什么学习主体同时平衡探索和利用已获得的知识很重要。

第三讲: MDPs与动态规划

研究科学家Diana Borsa解释了如何用动态规划解决MDPs,以提取准确的预测和良好的控制策略。

第4讲: 动态规划算法的理论基础

研究科学家Diana Borsa将动态规划算法作为收缩映射进行研究,观察它们何时以及如何收敛到正确的解。

第五讲:无模型预测

研究科学家Hado van Hasselt对无模型预测及其与蒙特卡罗和时域差分算法的关系进行了更深入的研究。

第6讲:无模型控制

研究科学家Hado van Hasselt研究了策略改进的预测算法,从而产生了可以从抽样经验中学习良好行为策略的算法。

第7讲:函数近似

研究科学家Hado van Hasselt解释了如何将深度学习与强化学习相结合,以实现“深度强化学习”。

第8讲: 规划与模型

研究工程师Matteo Hessel解释了如何学习和使用模型,包括像Dyna和蒙特卡罗树搜索(MCTS)这样的算法。

第9讲: 策略梯度和Actor-Critic方法

研究科学家Hado van Hasselt涵盖了可以直接学习策略的策略算法和结合价值预测以更有效学习的Actor-Critic算法。

第10讲: 近似动态规划

研究科学家Diana Borsa介绍了近似动态规划,探讨了我们可以从理论上说的近似算法的性能。

第11讲: 多步骤和间歇策略

研究科学家Hado van Hasselt讨论了多步和离线策略算法,包括各种减少方差的技术。

第12讲: 深度强化学习#1

研究工程师Matteo Hessel讨论了深度RL的实际考虑和算法,包括如何使用自区分(即Jax)实现这些。

第13讲: 深度强化学习#2

研究工程师Matteo Hessel介绍了作为辅助任务的一般值函数和GVFs,并解释了如何处理算法中的可扩展问题。

成为VIP会员查看完整内容
0
34

最新论文

Urban autonomous driving is an open and challenging problem to solve as the decision-making system has to account for several dynamic factors like multi-agent interactions, diverse scene perceptions, complex road geometries, and other rarely occurring real-world events. On the other side, with deep reinforcement learning (DRL) techniques, agents have learned many complex policies. They have even achieved super-human-level performances in various Atari Games and Deepmind's AlphaGo. However, current DRL techniques do not generalize well on complex urban driving scenarios. This paper introduces the DRL driven Watch and Drive (WAD) agent for end-to-end urban autonomous driving. Motivated by recent advancements, the study aims to detect important objects/states in high dimensional spaces of CARLA and extract the latent state from them. Further, passing on the latent state information to WAD agents based on TD3 and SAC methods to learn the optimal driving policy. Our novel approach utilizing fewer resources, step-by-step learning of different driving tasks, hard episode termination policy, and reward mechanism has led our agents to achieve a 100% success rate on all driving tasks in the original CARLA benchmark and set a new record of 82% on further complex NoCrash benchmark, outperforming the state-of-the-art model by more than +30% on NoCrash benchmark.

0
0
下载
预览
Top