【AAAI2021】自校正Q学习，Self-correcting Q-Learning - 专知

会员服务 ·

0

【AAAI2021】自校正Q学习，Self-correcting Q-Learning

2020 年 12 月 4 日 专知

众所周知，Q-learning算法会受到最大化偏差的影响，即对动作值的系统性高估，这是最近重新受到关注的一个重要问题。双Q学习被提出作为一种有效的算法来缓解这种偏差。然而，这样做的代价是动作值被低估，以及内存需求增加和收敛速度减慢。在本文中，我们提出了一种新的方法来解决最大化偏差问题，即采用“自校正算法”来逼近期望值的最大值。我们的方法平衡了传统Q-learning中单估计量的高估和双估计量的低估。将此策略应用到Q-learning中，就会产生自校正Q-learning。我们从理论上证明了该算法具有与Q-learning相同的收敛性保证，并且更加精确。从经验上看，它在高方差奖励领域优于双Q-learning，甚至在零或低方差奖励领域的收敛速度也比Q-learning快。这些优势转移到深度Q网络实现，我们称之为自校正DQN，它在Atari2600域的几个任务上优于常规DQN和双DQN。

https://www.zhuanzhi.ai/paper/7ac6a8d6fb4d231cf273760d59f8dab2

专知便捷查看

便捷下载，请关注专知公众号（点击上方蓝色专知关注）

后台回复“SQL” 就可以获取《【AAAI2021】自校正Q学习，Self-correcting Q-Learning》专知下载链接

专知，专业可信的人工智能知识分发，让认知协作更快更好！欢迎注册登录专知www.zhuanzhi.ai，获取5000+AI主题干货知识资料！

欢迎微信扫一扫加入专知人工智能知识星球群，获取最新AI专业干货知识教程资料和与专家交流咨询！

点击“ 阅读原文 ”，了解使用专知 ，查看获取5000+AI主题知识资源

登录查看更多

4

相关内容

Q学习

【AAAI2021】Lipschitz终身强化学习

专知会员服务

31+阅读 · 2020年12月14日

【DeepMind-NeurIPS 2020】元训练代理实现Bayes-optimal代理

【DeepMind-NeurIPS 2020】元训练代理实现Bayes-optimal代理

专知会员服务

12+阅读 · 2020年11月1日

【ICML2020-伯克利】稳定非策略强化学习的表示，Representations for Stable Off-Policy Reinforcement Learning

【ICML2020-伯克利】稳定非策略强化学习的表示，Representations for Stable Off-Policy Reinforcement Learning

专知会员服务

17+阅读 · 2020年7月14日

【ICML2020】深度神经网络置信感知学习，Conﬁdence-Aware Learning for Deep Neural Networks

【ICML2020】深度神经网络置信感知学习，Conﬁdence-Aware Learning for Deep Neural Networks

专知会员服务

73+阅读 · 2020年7月6日

【ICML2020-天津大学】多智能体深度强化学习中的Q值路径分解

【ICML2020-天津大学】多智能体深度强化学习中的Q值路径分解

专知会员服务

80+阅读 · 2020年7月2日

【ICML2020-上海交大】多智能体确定性Q-Learning， Multi-Agent Determinantal Q-Learning

【ICML2020-上海交大】多智能体确定性Q-Learning， Multi-Agent Determinantal Q-Learning

专知会员服务

38+阅读 · 2020年6月3日

【CVPR2020-北交】图匹配组合求解器，Learning Combinatorial Solver GM

【CVPR2020-北交】图匹配组合求解器，Learning Combinatorial Solver GM

专知会员服务

28+阅读 · 2020年4月11日

【论文推荐WWW2020-UIUC】修正排序系统中的选择偏差：Correcting for Selection Bias in Learning-to-rank Systems

【论文推荐WWW2020-UIUC】修正排序系统中的选择偏差：Correcting for Selection Bias in Learning-to-rank Systems

专知会员服务

32+阅读 · 2020年2月1日

深度强化学习策略梯度教程，53页ppt

深度强化学习策略梯度教程，53页ppt

专知会员服务

183+阅读 · 2020年2月1日

【电子书推荐】强化学习（Reinforcement Learning）法兰克福大学 | Cornelius Weber

【电子书推荐】强化学习（Reinforcement Learning）法兰克福大学 | Cornelius Weber

专知会员服务

44+阅读 · 2019年11月19日

【AAAI2021】近似梯度下降的学习图神经网络

【AAAI2021】近似梯度下降的学习图神经网络

专知

8+阅读 · 2020年12月9日

【NeurIPS 2020】核基渐进蒸馏加法器神经网络

【NeurIPS 2020】核基渐进蒸馏加法器神经网络

专知

13+阅读 · 2020年10月19日

【KDD2020】更深的图神经网络，Towards Deeper Graph Neural Networks

【KDD2020】更深的图神经网络，Towards Deeper Graph Neural Networks

专知

45+阅读 · 2020年7月22日

【ICML2020-Tutorial】无标签表示学习，222页ppt，DeepMind

【ICML2020-Tutorial】无标签表示学习，222页ppt，DeepMind

专知

30+阅读 · 2020年7月14日

【SIGIR2020-上海交大】一个深度循环生存模型的无偏排序，A Deep Recurrent Survival Model

【SIGIR2020-上海交大】一个深度循环生存模型的无偏排序，A Deep Recurrent Survival Model

专知

6+阅读 · 2020年5月3日

【CVPR2020】L2 ^GCN：图卷积网络的分层学习高效训练

【CVPR2020】L2 ^GCN：图卷积网络的分层学习高效训练

专知

12+阅读 · 2020年3月31日

【CVPR2020-Oral-中科院自动化所】元人脸识别，Learning Meta Face Recognition

【CVPR2020-Oral-中科院自动化所】元人脸识别，Learning Meta Face Recognition

专知

4+阅读 · 2020年3月20日

【Manning2020新书】深度强化学习实战，351页pdf，Deep Reinforcement Learning

【Manning2020新书】深度强化学习实战，351页pdf，Deep Reinforcement Learning

专知

42+阅读 · 2020年3月10日

强化学习扫盲贴：从Q-learning到DQN

强化学习扫盲贴：从Q-learning到DQN

夕小瑶的卖萌屋

52+阅读 · 2019年10月13日

深度强化学习简介

深度强化学习简介

专知

30+阅读 · 2018年12月3日

Recent advances in deep learning theory

Recent advances in deep learning theory

Arxiv

50+阅读 · 2020年12月20日

Self-correcting Q-Learning

Arxiv

11+阅读 · 2020年12月2日

Anomalous Instance Detection in Deep Learning: A Survey

Anomalous Instance Detection in Deep Learning: A Survey

Arxiv

28+阅读 · 2020年3月16日

Information-Directed Exploration for Deep Reinforcement Learning

Information-Directed Exploration for Deep Reinforcement Learning

Arxiv

5+阅读 · 2018年12月18日

Fast deep reinforcement learning using online adjustments from the past

Arxiv

3+阅读 · 2018年10月18日

Hierarchical Deep Multiagent Reinforcement Learning

Hierarchical Deep Multiagent Reinforcement Learning

Arxiv

8+阅读 · 2018年9月25日

GEP-PG: Decoupling Exploration and Exploitation in Deep Reinforcement Learning Algorithms

GEP-PG: Decoupling Exploration and Exploitation in Deep Reinforcement Learning Algorithms

Arxiv

4+阅读 · 2018年8月17日

A Multi-Objective Deep Reinforcement Learning Framework

A Multi-Objective Deep Reinforcement Learning Framework

Arxiv

16+阅读 · 2018年6月27日

Multiagent Soft Q-Learning

Arxiv

11+阅读 · 2018年4月25日

Accelerated Reinforcement Learning

Arxiv

6+阅读 · 2018年4月24日

VIP会员

相关主题

相关VIP内容

【AAAI2021】Lipschitz终身强化学习

专知会员服务

31+阅读 · 2020年12月14日

【DeepMind-NeurIPS 2020】元训练代理实现Bayes-optimal代理

【DeepMind-NeurIPS 2020】元训练代理实现Bayes-optimal代理

专知会员服务

12+阅读 · 2020年11月1日

【ICML2020-伯克利】稳定非策略强化学习的表示，Representations for Stable Off-Policy Reinforcement Learning

【ICML2020-伯克利】稳定非策略强化学习的表示，Representations for Stable Off-Policy Reinforcement Learning

专知会员服务

17+阅读 · 2020年7月14日

【ICML2020】深度神经网络置信感知学习，Conﬁdence-Aware Learning for Deep Neural Networks

【ICML2020】深度神经网络置信感知学习，Conﬁdence-Aware Learning for Deep Neural Networks

专知会员服务

73+阅读 · 2020年7月6日

【ICML2020-天津大学】多智能体深度强化学习中的Q值路径分解

【ICML2020-天津大学】多智能体深度强化学习中的Q值路径分解

专知会员服务

80+阅读 · 2020年7月2日

【ICML2020-上海交大】多智能体确定性Q-Learning， Multi-Agent Determinantal Q-Learning

【ICML2020-上海交大】多智能体确定性Q-Learning， Multi-Agent Determinantal Q-Learning

专知会员服务

38+阅读 · 2020年6月3日

【CVPR2020-北交】图匹配组合求解器，Learning Combinatorial Solver GM

【CVPR2020-北交】图匹配组合求解器，Learning Combinatorial Solver GM

专知会员服务

28+阅读 · 2020年4月11日

【论文推荐WWW2020-UIUC】修正排序系统中的选择偏差：Correcting for Selection Bias in Learning-to-rank Systems

【论文推荐WWW2020-UIUC】修正排序系统中的选择偏差：Correcting for Selection Bias in Learning-to-rank Systems

专知会员服务

32+阅读 · 2020年2月1日

深度强化学习策略梯度教程，53页ppt

深度强化学习策略梯度教程，53页ppt

专知会员服务

183+阅读 · 2020年2月1日

【电子书推荐】强化学习（Reinforcement Learning）法兰克福大学 | Cornelius Weber

【电子书推荐】强化学习（Reinforcement Learning）法兰克福大学 | Cornelius Weber

专知会员服务

44+阅读 · 2019年11月19日

热门VIP内容

开通专知VIP会员享更多权益服务

中文版 | 俄罗斯人工智能、战场自主化与战术核武器的融合

《量子云系统安全漏洞：新兴威胁综述》最新综述

中文版 | 特种作战部队新装备

《无人海洋载具发展综述：智能化与协同化》35页

相关资讯

【AAAI2021】近似梯度下降的学习图神经网络

【AAAI2021】近似梯度下降的学习图神经网络

专知

8+阅读 · 2020年12月9日

【NeurIPS 2020】核基渐进蒸馏加法器神经网络

【NeurIPS 2020】核基渐进蒸馏加法器神经网络

专知

13+阅读 · 2020年10月19日

【KDD2020】更深的图神经网络，Towards Deeper Graph Neural Networks

【KDD2020】更深的图神经网络，Towards Deeper Graph Neural Networks

专知

45+阅读 · 2020年7月22日

【ICML2020-Tutorial】无标签表示学习，222页ppt，DeepMind

【ICML2020-Tutorial】无标签表示学习，222页ppt，DeepMind

专知

30+阅读 · 2020年7月14日

【SIGIR2020-上海交大】一个深度循环生存模型的无偏排序，A Deep Recurrent Survival Model

【SIGIR2020-上海交大】一个深度循环生存模型的无偏排序，A Deep Recurrent Survival Model

专知

6+阅读 · 2020年5月3日

【CVPR2020】L2 ^GCN：图卷积网络的分层学习高效训练

【CVPR2020】L2 ^GCN：图卷积网络的分层学习高效训练

专知

12+阅读 · 2020年3月31日

【CVPR2020-Oral-中科院自动化所】元人脸识别，Learning Meta Face Recognition

【CVPR2020-Oral-中科院自动化所】元人脸识别，Learning Meta Face Recognition

专知

4+阅读 · 2020年3月20日

【Manning2020新书】深度强化学习实战，351页pdf，Deep Reinforcement Learning

【Manning2020新书】深度强化学习实战，351页pdf，Deep Reinforcement Learning

专知

42+阅读 · 2020年3月10日

强化学习扫盲贴：从Q-learning到DQN

强化学习扫盲贴：从Q-learning到DQN

夕小瑶的卖萌屋

52+阅读 · 2019年10月13日

深度强化学习简介

深度强化学习简介

专知

30+阅读 · 2018年12月3日

相关论文

Recent advances in deep learning theory

Recent advances in deep learning theory

Arxiv

50+阅读 · 2020年12月20日

Self-correcting Q-Learning

Arxiv

11+阅读 · 2020年12月2日

Anomalous Instance Detection in Deep Learning: A Survey

Anomalous Instance Detection in Deep Learning: A Survey

Arxiv

28+阅读 · 2020年3月16日

Information-Directed Exploration for Deep Reinforcement Learning

Information-Directed Exploration for Deep Reinforcement Learning

Arxiv

5+阅读 · 2018年12月18日

Fast deep reinforcement learning using online adjustments from the past

Arxiv

3+阅读 · 2018年10月18日

Hierarchical Deep Multiagent Reinforcement Learning

Hierarchical Deep Multiagent Reinforcement Learning

Arxiv

8+阅读 · 2018年9月25日

GEP-PG: Decoupling Exploration and Exploitation in Deep Reinforcement Learning Algorithms

GEP-PG: Decoupling Exploration and Exploitation in Deep Reinforcement Learning Algorithms

Arxiv

4+阅读 · 2018年8月17日

A Multi-Objective Deep Reinforcement Learning Framework

A Multi-Objective Deep Reinforcement Learning Framework

Arxiv

16+阅读 · 2018年6月27日

Multiagent Soft Q-Learning

Arxiv

11+阅读 · 2018年4月25日

Accelerated Reinforcement Learning

Arxiv

6+阅读 · 2018年4月24日

大家都在搜

美军2025最新条令

视觉语言模型

无人机系统

“跨越险阻2018”挑战赛中

微信扫码咨询专知VIP会员