While reinforcement learning methods have delivered remarkable results in a number of settings, generalization, i.e., the ability to produce policies that generalize in a reliable and systematic way, has remained a challenge. The problem of generalization has been addressed formally in classical planning where provable correct policies that generalize over all instances of a given domain have been learned using combinatorial methods. The aim of this work is to bring these two research threads together to illuminate the conditions under which (deep) reinforcement learning approaches, and in particular, policy optimization methods, can be used to learn policies that generalize like combinatorial methods do. We draw on lessons learned from previous combinatorial and deep learning approaches, and extend them in a convenient way. From the former, we model policies as state transition classifiers, as (ground) actions are not general and change from instance to instance. From the latter, we use graph neural networks (GNNs) adapted to deal with relational structures for representing value functions over planning states, and in our case, policies. With these ingredients in place, we find that actor-critic methods can be used to learn policies that generalize almost as well as those obtained using combinatorial approaches while avoiding the scalability bottleneck and the use of feature pools. Moreover, the limitations of the DRL methods on the benchmarks considered have little to do with deep learning or reinforcement learning algorithms, and result from the well-understood expressive limitations of GNNs, and the tradeoff between optimality and generalization (general policies cannot be optimal in some domains). Both of these limitations are addressed without changing the basic DRL methods by adding derived predicates and an alternative cost structure to optimize.


翻译:尽管强化学习方法已在多种场景中取得显著成果,但泛化能力——即产生可靠且系统性泛化策略的能力——始终是一个挑战。在经典规划领域,泛化问题已通过组合方法得到形式化处理,能够学习到在给定领域所有实例上可证明正确的泛化策略。本研究旨在融合这两条研究脉络,以阐明(深度)强化学习方法(特别是策略优化方法)在何种条件下能够学习到具有组合方法泛化能力的策略。我们借鉴了先前组合方法与深度学习方法的研究经验,并以一种便捷的方式对其进行了拓展。从前者中,我们将策略建模为状态转移分类器,因为(具体)动作不具备普适性且随实例变化;从后者中,我们采用适用于关系结构处理的图神经网络(GNNs)来表示规划状态的价值函数,并在本研究中用于策略表示。基于这些要素,我们发现行动者-评论家方法能够学习到泛化能力几乎媲美组合方法的策略,同时避免了可扩展性瓶颈和特征池的使用。此外,深度强化学习方法在基准测试中的局限性与深度学习或强化学习算法本身关联甚微,其主要源于GNN表达能力的内在限制(已有充分研究),以及最优性与泛化性之间的权衡(在某些领域中通用策略无法达到最优)。我们通过引入派生谓词和替代性成本结构来优化这两类局限性,而无需改变深度强化学习的基本方法框架。

0
下载
关闭预览

相关内容

【NeurIPS2025】迈向开放世界的三维“物体性”学习
金融时间序列预测中的可解释人工智能(XAI)综述
专知会员服务
44+阅读 · 2024年7月25日
【ICML2023】面向决策Transformer的未来条件无监督预训练
专知会员服务
44+阅读 · 2023年5月30日
【CVPR 2020 Oral】小样本类增量学习
专知
20+阅读 · 2020年6月26日
论文浅尝 | GEOM-GCN: Geometric Graph Convolutional Networks
开放知识图谱
14+阅读 · 2020年4月8日
图机器学习 2.2-2.4 Properties of Networks, Random Graph
图与推荐
10+阅读 · 2020年3月28日
论文浅尝 | Interaction Embeddings for Prediction and Explanation
开放知识图谱
11+阅读 · 2019年2月1日
国家自然科学基金
23+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
VIP会员
相关资讯
相关基金
国家自然科学基金
23+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员