A* search is an informed search algorithm that uses a heuristic function to guide the order in which nodes are expanded. Since the computation required to expand a node and compute the heuristic values for all of its generated children grows linearly with the size of the action space, A* search can become impractical for problems with large action spaces. This computational burden becomes even more apparent when heuristic functions are learned by general, but computationally expensive, deep neural networks. To address this problem, we introduce DeepCubeAQ, a deep reinforcement learning and search algorithm that builds on the DeepCubeA algorithm and deep Q-networks. DeepCubeAQ learns a heuristic function that, with a single forward pass through a deep neural network, computes the sum of the transition cost and the heuristic value of all of the children of a node without explicitly generating any of the children, eliminating the need for node expansions. DeepCubeAQ then uses a novel variant of A* search, called AQ* search, that uses the deep Q-network to guide search. We use DeepCubeAQ to solve the Rubik's cube when formulated with a large action space that includes 1872 meta-actions and show that this 157-fold increase in the size of the action space incurs less than a 4-fold increase in computation time when performing AQ* search and that AQ* search is orders of magnitude faster than A* search.


翻译:* 搜索是一种知情的搜索算法,它使用一种休眠功能来指导节点扩展的顺序。由于扩展节点和计算其所有生成的孩子的休休养值所需的计算方法随着行动空间的大小而线性增长,A* 搜索可能变得不切实际,因为行动空间大的问题。当通过一般但计算成本昂贵的深神经网络来学习休养功能时,这种计算负担就变得更加明显。为了解决这个问题,我们引入了深休贝AQ,这是一种深度强化学习和搜索算法,它建立在深休贝A算法和深地Q网络之上。深休贝AQ学会学会一种休养功能,这种功能通过深思内线网络的单一前方传递,可以计算过渡成本和所有节点孩子的超额价值,而没有明确地产生任何孩子,消除无节点扩张的需要。为了解决这个问题,我们引入了深休贝AQQ, 这是一种更快速的搜索和搜索变种,它利用深休贝AQ网络来指导搜索。我们使用深休贝AQ 学习一种超深的休贝A-Q,在进行大规模搜索时,在进行大规模的搜索时,A-decubeA-QA-QA-C显示,在18的计算中增加了空间搜索时,可以增加一个可操作,在18的计算中增加一个进行。

0
下载
关闭预览

相关内容

Fariz Darari简明《博弈论Game Theory》介绍,35页ppt
专知会员服务
111+阅读 · 2020年5月15日
深度学习搜索,Exploring Deep Learning for Search
专知会员服务
61+阅读 · 2020年5月9日
MIT-深度学习Deep Learning State of the Art in 2020,87页ppt
专知会员服务
62+阅读 · 2020年2月17日
Keras François Chollet 《Deep Learning with Python 》, 386页pdf
专知会员服务
160+阅读 · 2019年10月12日
强化学习最新教程,17页pdf
专知会员服务
181+阅读 · 2019年10月11日
Hierarchically Structured Meta-learning
CreateAMind
27+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
29+阅读 · 2019年5月18日
Unsupervised Learning via Meta-Learning
CreateAMind
43+阅读 · 2019年1月3日
338页新书《Deep Learning in Natural Language Processing》
机器学习算法与Python学习
9+阅读 · 2018年11月6日
Dynamic Zoom-in Network 论文笔记
统计学习与视觉计算组
6+阅读 · 2018年7月18日
Hierarchical Imitation - Reinforcement Learning
CreateAMind
19+阅读 · 2018年5月25日
Reinforcement Learning: An Introduction 2018第二版 500页
CreateAMind
14+阅读 · 2018年4月27日
强化学习 cartpole_a3c
CreateAMind
9+阅读 · 2017年7月21日
Arxiv
1+阅读 · 2021年4月1日
Arxiv
8+阅读 · 2021年1月28日
Accelerated Methods for Deep Reinforcement Learning
Arxiv
6+阅读 · 2019年1月10日
Risk-Aware Active Inverse Reinforcement Learning
Arxiv
8+阅读 · 2019年1月8日
Arxiv
3+阅读 · 2018年2月24日
Arxiv
6+阅读 · 2017年7月17日
VIP会员
相关VIP内容
Fariz Darari简明《博弈论Game Theory》介绍,35页ppt
专知会员服务
111+阅读 · 2020年5月15日
深度学习搜索,Exploring Deep Learning for Search
专知会员服务
61+阅读 · 2020年5月9日
MIT-深度学习Deep Learning State of the Art in 2020,87页ppt
专知会员服务
62+阅读 · 2020年2月17日
Keras François Chollet 《Deep Learning with Python 》, 386页pdf
专知会员服务
160+阅读 · 2019年10月12日
强化学习最新教程,17页pdf
专知会员服务
181+阅读 · 2019年10月11日
相关资讯
Hierarchically Structured Meta-learning
CreateAMind
27+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
29+阅读 · 2019年5月18日
Unsupervised Learning via Meta-Learning
CreateAMind
43+阅读 · 2019年1月3日
338页新书《Deep Learning in Natural Language Processing》
机器学习算法与Python学习
9+阅读 · 2018年11月6日
Dynamic Zoom-in Network 论文笔记
统计学习与视觉计算组
6+阅读 · 2018年7月18日
Hierarchical Imitation - Reinforcement Learning
CreateAMind
19+阅读 · 2018年5月25日
Reinforcement Learning: An Introduction 2018第二版 500页
CreateAMind
14+阅读 · 2018年4月27日
强化学习 cartpole_a3c
CreateAMind
9+阅读 · 2017年7月21日
Top
微信扫码咨询专知VIP会员