【AAAI2021】自校正Q学习,Self-correcting Q-Learning

2020 年 12 月 4 日 专知

众所周知,Q-learning算法会受到最大化偏差的影响,即对动作值的系统性高估,这是最近重新受到关注的一个重要问题。双Q学习被提出作为一种有效的算法来缓解这种偏差。然而,这样做的代价是动作值被低估,以及内存需求增加和收敛速度减慢。在本文中,我们提出了一种新的方法来解决最大化偏差问题,即采用“自校正算法”来逼近期望值的最大值。我们的方法平衡了传统Q-learning中单估计量的高估和双估计量的低估。将此策略应用到Q-learning中,就会产生自校正Q-learning。我们从理论上证明了该算法具有与Q-learning相同的收敛性保证,并且更加精确。从经验上看,它在高方差奖励领域优于双Q-learning,甚至在零或低方差奖励领域的收敛速度也比Q-learning快。这些优势转移到深度Q网络实现,我们称之为自校正DQN,它在Atari2600域的几个任务上优于常规DQN和双DQN。


https://www.zhuanzhi.ai/paper/7ac6a8d6fb4d231cf273760d59f8dab2


专知便捷查看

便捷下载,请关注专知公众号(点击上方蓝色专知关注)

  • 后台回复“SQL” 就可以获取【AAAI2021】自校正Q学习,Self-correcting Q-Learning》专知下载链接

专知,专业可信的人工智能知识分发,让认知协作更快更好!欢迎注册登录专知www.zhuanzhi.ai,获取5000+AI主题干货知识资料!
欢迎微信扫一扫加入专知人工智能知识星球群,获取最新AI专业干货知识教程资料和与专家交流咨询
点击“ 阅读原文 ”,了解使用 专知 ,查看获取5000+AI主题知识资源
登录查看更多
4

相关内容

专知会员服务
28+阅读 · 2020年12月14日
【DeepMind-NeurIPS 2020】元训练代理实现Bayes-optimal代理
专知会员服务
10+阅读 · 2020年11月1日
深度强化学习策略梯度教程,53页ppt
专知会员服务
176+阅读 · 2020年2月1日
【NeurIPS 2020】核基渐进蒸馏加法器神经网络
专知
13+阅读 · 2020年10月19日
强化学习扫盲贴:从Q-learning到DQN
夕小瑶的卖萌屋
52+阅读 · 2019年10月13日
深度强化学习简介
专知
29+阅读 · 2018年12月3日
Recent advances in deep learning theory
Arxiv
50+阅读 · 2020年12月20日
Arxiv
11+阅读 · 2020年12月2日
Anomalous Instance Detection in Deep Learning: A Survey
Hierarchical Deep Multiagent Reinforcement Learning
Arxiv
8+阅读 · 2018年9月25日
A Multi-Objective Deep Reinforcement Learning Framework
Arxiv
11+阅读 · 2018年4月25日
Arxiv
6+阅读 · 2018年4月24日
VIP会员
相关论文
Recent advances in deep learning theory
Arxiv
50+阅读 · 2020年12月20日
Arxiv
11+阅读 · 2020年12月2日
Anomalous Instance Detection in Deep Learning: A Survey
Hierarchical Deep Multiagent Reinforcement Learning
Arxiv
8+阅读 · 2018年9月25日
A Multi-Objective Deep Reinforcement Learning Framework
Arxiv
11+阅读 · 2018年4月25日
Arxiv
6+阅读 · 2018年4月24日
Top
微信扫码咨询专知VIP会员