【Google DeepMind & 斯坦福 AAAI2020】Options of Interest Temporal Abstraction with Interest Function

题目： Options of Interest Temporal Abstraction with Interest Function

摘要： 时间抽象指的是一个代理使用控制器行为的能力，这些控制器在有限的、可变的时间内起作用。期权框架描述了这样的行为，包括一个子集的状态，他们可以在其中发起，一个内部政策和随机终止条件。然而，由于难以从数据中学习到初始集，后续的期权发现工作大多忽略了初始集。通过定义与一个选项相关联的兴趣函数，我们提供了一个适用于一般函数逼近的启动集的推广。提出了一种基于梯度的兴趣函数学习算法，提出了一种新的兴趣选择评价体系结构。我们研究如何利用兴趣函数来学习可解释和可重用的时态抽象。我们通过在离散和连续环境中的定量和定性结果证明了所提方法的有效性。

作者简介： Pierre-Luc Bacon，蒙特利尔大学迪罗和米拉分校的助理教授。个人主页：http://pierrelucbacon.com/

成为VIP会员查看完整内容

相关内容

AAAI2020

关注 11

AAAI 2020 将于美国纽约举办，时间在 2 月 7 日-2 月 12 日，本届大会将是第 34 届 AAAI 大会。 AAAI 的英文全称是 Association for the Advance of Artificial Intelligence——美国人工智能协会。该协会是人工智能领域的主要学术组织之一，其主办的年会也是人工智能领域的国际顶级会议。在中国计算机学会的国际学术会议排名以及清华大学新发布的计算机科学推荐学术会议和期刊列表中，AAAI 均被列为人工智能领域的 A 类顶级会议。

【AAAI2020教程】强化学习中的Exploration-Exploitation in Reinforcement Learning

专知会员服务

101+阅读 · 2020年2月8日

【AISTATS2020接受论文】时空对齐，过空间和时间的最优transport（Spatio-Temporal Alignments: Optimal transport through space and time）

专知会员服务

30+阅读 · 2020年1月11日

论深度学习的信息瓶颈理论（On the information bottleneck theory of deep learning）

专知会员服务

66+阅读 · 2019年12月20日

【ICML 2019 | 元学习教程】伯克利Chelsea Finn、Sergey Levine主讲，附111PDF

专知会员服务

54+阅读 · 2019年11月12日