题目: Options of Interest Temporal Abstraction with Interest Function

摘要: 时间抽象指的是一个代理使用控制器行为的能力,这些控制器在有限的、可变的时间内起作用。期权框架描述了这样的行为,包括一个子集的状态,他们可以在其中发起,一个内部政策和随机终止条件。然而,由于难以从数据中学习到初始集,后续的期权发现工作大多忽略了初始集。通过定义与一个选项相关联的兴趣函数,我们提供了一个适用于一般函数逼近的启动集的推广。提出了一种基于梯度的兴趣函数学习算法,提出了一种新的兴趣选择评价体系结构。我们研究如何利用兴趣函数来学习可解释和可重用的时态抽象。我们通过在离散和连续环境中的定量和定性结果证明了所提方法的有效性。

作者简介: Pierre-Luc Bacon,蒙特利尔大学迪罗和米拉分校的助理教授。个人主页:http://pierrelucbacon.com/

成为VIP会员查看完整内容
4

相关内容

AAAI 2020 将于美国纽约举办,时间在 2 月 7 日-2 月 12 日,本届大会将是第 34 届 AAAI 大会。 AAAI 的英文全称是 Association for the Advance of Artificial Intelligence——美国人工智能协会。该协会是人工智能领域的主要学术组织之一,其主办的年会也是人工智能领域的国际顶级会议。在中国计算机学会的国际学术会议排名以及清华大学新发布的计算机科学推荐学术会议和期刊列表中,AAAI 均被列为人工智能领域的 A 类顶级会议。
RL解决'LunarLander-v2' (SOTA)
CreateAMind
62+阅读 · 2019年9月27日
层级强化学习概念简介
CreateAMind
14+阅读 · 2019年6月9日
TensorFlow 2.0深度强化学习指南
云栖社区
18+阅读 · 2019年2月1日
蒙特卡罗方法(Monte Carlo Methods)
数据挖掘入门与实战
6+阅读 · 2018年4月22日
Knowledge Distillation from Internal Representations
Arxiv
4+阅读 · 2019年10月8日
A Multi-Objective Deep Reinforcement Learning Framework
VIP会员
相关VIP内容
相关资讯
RL解决'LunarLander-v2' (SOTA)
CreateAMind
62+阅读 · 2019年9月27日
层级强化学习概念简介
CreateAMind
14+阅读 · 2019年6月9日
TensorFlow 2.0深度强化学习指南
云栖社区
18+阅读 · 2019年2月1日
蒙特卡罗方法(Monte Carlo Methods)
数据挖掘入门与实战
6+阅读 · 2018年4月22日
微信扫码咨询专知VIP会员