Imitation learning traditionally requires complete state-action demonstrations from optimal or near-optimal experts. These requirements severely limit practical applicability, as many real-world scenarios provide only state observations without corresponding actions and expert performance is often suboptimal. In this paper we introduce a deep implicit imitation reinforcement learning framework that addresses both limitations by combining deep reinforcement learning with implicit imitation learning from observation-only datasets. Our main algorithm, Deep Implicit Imitation Q-Network (DIIQN), employs an action inference mechanism that reconstructs expert actions through online exploration and integrates a dynamic confidence mechanism that adaptively balances expert-guided and self-directed learning. This enables the agent to leverage expert guidance for accelerated training while maintaining capacity to surpass suboptimal expert performance. We further extend our framework with a Heterogeneous Actions DIIQN (HA-DIIQN) algorithm to tackle scenarios where expert and agent possess different action sets, a challenge previously unaddressed in the implicit imitation learning literature. HA-DIIQN introduces an infeasibility detection mechanism and a bridging procedure identifying alternative pathways connecting agent capabilities to expert guidance when direct action replication is impossible. Our experimental results demonstrate that DIIQN achieves up to 130% higher episodic returns compared to standard DQN, while consistently outperforming existing implicit imitation methods that cannot exceed expert performance. In heterogeneous action settings, HA-DIIQN learns up to 64% faster than baselines, leveraging expert datasets unusable by conventional approaches. Extensive parameter sensitivity analysis reveals the framework's robustness across varying dataset sizes and hyperparameter configurations.


翻译:模仿学习传统上需要从最优或接近最优的专家处获取完整的状态-动作演示数据。这些要求严重限制了实际应用,因为许多现实场景仅提供状态观测数据而无对应动作,且专家性能往往并非最优。本文提出了一种深度隐式模仿强化学习框架,通过将深度强化学习技术与仅观测数据集的隐式模仿学习相结合,同时解决了上述两个局限。我们的核心算法——深度隐式模仿Q网络(DIIQN)采用动作推断机制,通过在线探索重构专家动作,并集成动态置信机制以自适应平衡专家引导与自主学习的权重。这使得智能体既能利用专家指导加速训练,又保持超越次优专家性能的能力。我们进一步扩展该框架,提出异构动作DIIQN(HA-DIIQN)算法,以应对专家与智能体动作集合不同的场景——这是隐式模仿学习领域尚未解决的挑战。HA-DIIQN引入了不可行性检测机制与桥接流程,当直接动作复现不可行时,该流程能识别连接智能体能力与专家指导的替代路径。实验结果表明,DIIQN相比标准DQN获得最高130%的片段回报提升,且持续优于现有无法超越专家性能的隐式模仿方法。在异构动作场景中,HA-DIIQN学习速度较基线方法提升最高达64%,并能利用传统方法无法处理的专家数据集。广泛的参数敏感性分析表明,该框架在不同数据集规模与超参数配置下均表现出鲁棒性。

0
下载
关闭预览

相关内容

【AAAI2021】自监督对应学习的对比转换
专知
12+阅读 · 2020年12月11日
论文浅尝 | Know-Evolve: Deep Temporal Reasoning for Dynamic KG
开放知识图谱
36+阅读 · 2018年3月30日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
16+阅读 · 2013年12月31日
国家自然科学基金
17+阅读 · 2008年12月31日
VIP会员
相关基金
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
16+阅读 · 2013年12月31日
国家自然科学基金
17+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员