【AAAI2021】自校正Q学习，Self-correcting Q-Learning - 专知VIP

会员服务 ·

2

强化学习 · AAAI 2021 · Q学习 ·

2020 年 12 月 4 日

【AAAI2021】自校正Q学习，Self-correcting Q-Learning

专知会员服务

专知，提供专业可信的知识分发服务，让认知协作更快更好！

众所周知，Q-learning算法会受到最大化偏差的影响，即对动作值的系统性高估，这是最近重新受到关注的一个重要问题。双Q学习被提出作为一种有效的算法来缓解这种偏差。然而，这样做的代价是动作值被低估，以及内存需求增加和收敛速度减慢。在本文中，我们提出了一种新的方法来解决最大化偏差问题，即采用“自校正算法”来逼近期望值的最大值。我们的方法平衡了传统Q-learning中单估计量的高估和双估计量的低估。将此策略应用到Q-learning中，就会产生自校正Q-learning。我们从理论上证明了该算法具有与Q-learning相同的收敛性保证，并且更加精确。从经验上看，它在高方差奖励领域优于双Q-learning，甚至在零或低方差奖励领域的收敛速度也比Q-learning快。这些优势转移到深度Q网络实现，我们称之为自校正DQN，它在Atari2600域的几个任务上优于常规DQN和双DQN。

https://www.zhuanzhi.ai/paper/7ac6a8d6fb4d231cf273760d59f8dab2

成为VIP会员查看完整内容

16

相关内容

强化学习

强化学习（RL）是机器学习的一个领域，与软件代理应如何在环境中采取行动以最大化累积奖励的概念有关。除了监督学习和非监督学习外，强化学习是三种基本的机器学习范式之一。强化学习与监督学习的不同之处在于，不需要呈现带标签的输入/输出对，也不需要显式纠正次优动作。相反，重点是在探索（未知领域）和利用（当前知识）之间找到平衡。该环境通常以马尔可夫决策过程（MDP）的形式陈述，因为针对这种情况的许多强化学习算法都使用动态编程技术。经典动态规划方法和强化学习算法之间的主要区别在于，后者不假设MDP的确切数学模型，并且针对无法采用精确方法的大型MDP。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等

【AAAI2021】元学习器的冷启动序列推荐

【AAAI2021】元学习器的冷启动序列推荐

专知会员服务

39+阅读 · 2020年12月19日

【ICML2020】通过神经引导的A*搜索学习逆合成设计

【ICML2020】通过神经引导的A*搜索学习逆合成设计

专知会员服务

16+阅读 · 2020年8月18日

【KDD2020】基于纳什强化学习的鲁棒垃圾邮件发送者检测

【KDD2020】基于纳什强化学习的鲁棒垃圾邮件发送者检测

专知会员服务

16+阅读 · 2020年8月16日

【ICML2020-伯克利】稳定非策略强化学习的表示，Representations for Stable Off-Policy Reinforcement Learning

【ICML2020-伯克利】稳定非策略强化学习的表示，Representations for Stable Off-Policy Reinforcement Learning

专知会员服务

16+阅读 · 2020年7月14日

【KDD2020】多源深度域自适应的时序传感数据

【KDD2020】多源深度域自适应的时序传感数据

专知会员服务

59+阅读 · 2020年5月25日

【基于模型的强化学习的博弈论框架】A Game Theoretic Framework for Model Based Reinforcement Learning

【基于模型的强化学习的博弈论框架】A Game Theoretic Framework for Model Based Reinforcement Learning

专知会员服务

123+阅读 · 2020年4月19日

最新《经济学中的强化学习》2020大综述，42页pdf128篇文献

最新《经济学中的强化学习》2020大综述，42页pdf128篇文献

专知会员服务

114+阅读 · 2020年4月6日

深度强化学习策略梯度教程，53页ppt

深度强化学习策略梯度教程，53页ppt

专知会员服务

176+阅读 · 2020年2月1日

【强化学习资源集合】Awesome Reinforcement Learning

【强化学习资源集合】Awesome Reinforcement Learning

专知会员服务

93+阅读 · 2019年12月23日

【ALT 2019 Tutorials】强化学习的探索性开发（Exploration-Exploitation in Reinforcement Learning）

【ALT 2019 Tutorials】强化学习的探索性开发（Exploration-Exploitation in Reinforcement Learning）

专知会员服务

33+阅读 · 2019年3月21日

【ICML2020-天津大学】多智能体深度强化学习中的Q值路径分解

【ICML2020-天津大学】多智能体深度强化学习中的Q值路径分解

专知

35+阅读 · 2020年7月2日

最新必读的8篇「小样本学习（few-shot learning）」2020顶会论文和代码

最新必读的8篇「小样本学习（few-shot learning）」2020顶会论文和代码

专知

114+阅读 · 2020年3月2日

元强化学习迎来一盆冷水：不比元Q学习好多少

元强化学习迎来一盆冷水：不比元Q学习好多少

AI科技评论

12+阅读 · 2020年2月27日

强化学习扫盲贴：从Q-learning到DQN

强化学习扫盲贴：从Q-learning到DQN

夕小瑶的卖萌屋

52+阅读 · 2019年10月13日

深度互学习-Deep Mutual Learning：三人行必有我师

深度互学习-Deep Mutual Learning：三人行必有我师

深度学习大讲堂

7+阅读 · 2019年6月27日

强化学习十大原则

强化学习十大原则

专知

11+阅读 · 2018年9月17日

入门 | 通过 Q-learning 深入理解强化学习

入门 | 通过 Q-learning 深入理解强化学习

机器之心

11+阅读 · 2018年4月17日

深度强化学习的弱点和局限

深度强化学习的弱点和局限

论智

6+阅读 · 2018年2月27日

深度强化学习的弱点和局限（上）

深度强化学习的弱点和局限（上）

论智

8+阅读 · 2018年2月26日

强化学习族谱

强化学习族谱

CreateAMind

26+阅读 · 2017年8月2日

Self-correcting Q-Learning

Arxiv

11+阅读 · 2020年12月2日

Q-value Path Decomposition for Deep Multiagent Reinforcement Learning

Q-value Path Decomposition for Deep Multiagent Reinforcement Learning

Arxiv

26+阅读 · 2020年2月10日

FAMNet: Joint Learning of Feature, Affinity and Multi-dimensional Assignment for Online Multiple Object Tracking

FAMNet: Joint Learning of Feature, Affinity and Multi-dimensional Assignment for Online Multiple Object Tracking

Arxiv

7+阅读 · 2019年4月10日

Meta-Transfer Learning for Few-Shot Learning

Meta-Transfer Learning for Few-Shot Learning

Arxiv

4+阅读 · 2019年4月9日

Generalization and Regularization in DQN

Generalization and Regularization in DQN

Arxiv

6+阅读 · 2019年1月30日

Information-Directed Exploration for Deep Reinforcement Learning

Information-Directed Exploration for Deep Reinforcement Learning

Arxiv

5+阅读 · 2018年12月18日

Hierarchical Deep Multiagent Reinforcement Learning

Hierarchical Deep Multiagent Reinforcement Learning

Arxiv

8+阅读 · 2018年9月25日

GEP-PG: Decoupling Exploration and Exploitation in Deep Reinforcement Learning Algorithms

GEP-PG: Decoupling Exploration and Exploitation in Deep Reinforcement Learning Algorithms

Arxiv

4+阅读 · 2018年8月17日

A Multi-Objective Deep Reinforcement Learning Framework

A Multi-Objective Deep Reinforcement Learning Framework

Arxiv

15+阅读 · 2018年6月27日

Multiagent Soft Q-Learning

Arxiv

11+阅读 · 2018年4月25日

VIP会员

相关主题

相关VIP内容

【AAAI2021】元学习器的冷启动序列推荐

【AAAI2021】元学习器的冷启动序列推荐

专知会员服务

39+阅读 · 2020年12月19日

【ICML2020】通过神经引导的A*搜索学习逆合成设计

【ICML2020】通过神经引导的A*搜索学习逆合成设计

专知会员服务

16+阅读 · 2020年8月18日

【KDD2020】基于纳什强化学习的鲁棒垃圾邮件发送者检测

【KDD2020】基于纳什强化学习的鲁棒垃圾邮件发送者检测

专知会员服务

16+阅读 · 2020年8月16日

【ICML2020-伯克利】稳定非策略强化学习的表示，Representations for Stable Off-Policy Reinforcement Learning

【ICML2020-伯克利】稳定非策略强化学习的表示，Representations for Stable Off-Policy Reinforcement Learning

专知会员服务

16+阅读 · 2020年7月14日

【KDD2020】多源深度域自适应的时序传感数据

【KDD2020】多源深度域自适应的时序传感数据

专知会员服务

59+阅读 · 2020年5月25日

【基于模型的强化学习的博弈论框架】A Game Theoretic Framework for Model Based Reinforcement Learning

【基于模型的强化学习的博弈论框架】A Game Theoretic Framework for Model Based Reinforcement Learning

专知会员服务

123+阅读 · 2020年4月19日

最新《经济学中的强化学习》2020大综述，42页pdf128篇文献

最新《经济学中的强化学习》2020大综述，42页pdf128篇文献

专知会员服务

114+阅读 · 2020年4月6日

深度强化学习策略梯度教程，53页ppt

深度强化学习策略梯度教程，53页ppt

专知会员服务

176+阅读 · 2020年2月1日

【强化学习资源集合】Awesome Reinforcement Learning

【强化学习资源集合】Awesome Reinforcement Learning

专知会员服务

93+阅读 · 2019年12月23日

【ALT 2019 Tutorials】强化学习的探索性开发（Exploration-Exploitation in Reinforcement Learning）

【ALT 2019 Tutorials】强化学习的探索性开发（Exploration-Exploitation in Reinforcement Learning）

专知会员服务

33+阅读 · 2019年3月21日

热门VIP内容

相关资讯

【ICML2020-天津大学】多智能体深度强化学习中的Q值路径分解

【ICML2020-天津大学】多智能体深度强化学习中的Q值路径分解

专知

35+阅读 · 2020年7月2日

最新必读的8篇「小样本学习（few-shot learning）」2020顶会论文和代码

最新必读的8篇「小样本学习（few-shot learning）」2020顶会论文和代码

专知

114+阅读 · 2020年3月2日

元强化学习迎来一盆冷水：不比元Q学习好多少

元强化学习迎来一盆冷水：不比元Q学习好多少

AI科技评论

12+阅读 · 2020年2月27日

强化学习扫盲贴：从Q-learning到DQN

强化学习扫盲贴：从Q-learning到DQN

夕小瑶的卖萌屋

52+阅读 · 2019年10月13日

深度互学习-Deep Mutual Learning：三人行必有我师

深度互学习-Deep Mutual Learning：三人行必有我师

深度学习大讲堂

7+阅读 · 2019年6月27日

强化学习十大原则

强化学习十大原则

专知

11+阅读 · 2018年9月17日

入门 | 通过 Q-learning 深入理解强化学习

入门 | 通过 Q-learning 深入理解强化学习

机器之心

11+阅读 · 2018年4月17日

深度强化学习的弱点和局限

深度强化学习的弱点和局限

论智

6+阅读 · 2018年2月27日

深度强化学习的弱点和局限（上）

深度强化学习的弱点和局限（上）

论智

8+阅读 · 2018年2月26日

强化学习族谱

强化学习族谱

CreateAMind

26+阅读 · 2017年8月2日

相关论文

Self-correcting Q-Learning

Arxiv

11+阅读 · 2020年12月2日

Q-value Path Decomposition for Deep Multiagent Reinforcement Learning

Q-value Path Decomposition for Deep Multiagent Reinforcement Learning

Arxiv

26+阅读 · 2020年2月10日

FAMNet: Joint Learning of Feature, Affinity and Multi-dimensional Assignment for Online Multiple Object Tracking

FAMNet: Joint Learning of Feature, Affinity and Multi-dimensional Assignment for Online Multiple Object Tracking

Arxiv

7+阅读 · 2019年4月10日

Meta-Transfer Learning for Few-Shot Learning

Meta-Transfer Learning for Few-Shot Learning

Arxiv

4+阅读 · 2019年4月9日

Generalization and Regularization in DQN

Generalization and Regularization in DQN

Arxiv

6+阅读 · 2019年1月30日

Information-Directed Exploration for Deep Reinforcement Learning

Information-Directed Exploration for Deep Reinforcement Learning

Arxiv

5+阅读 · 2018年12月18日

Hierarchical Deep Multiagent Reinforcement Learning

Hierarchical Deep Multiagent Reinforcement Learning

Arxiv

8+阅读 · 2018年9月25日

GEP-PG: Decoupling Exploration and Exploitation in Deep Reinforcement Learning Algorithms

GEP-PG: Decoupling Exploration and Exploitation in Deep Reinforcement Learning Algorithms

Arxiv

4+阅读 · 2018年8月17日

A Multi-Objective Deep Reinforcement Learning Framework

A Multi-Objective Deep Reinforcement Learning Framework

Arxiv

15+阅读 · 2018年6月27日

Multiagent Soft Q-Learning

Arxiv

11+阅读 · 2018年4月25日

微信扫码咨询专知VIP会员