Despite the advantages of multi-agent reinforcement learning (MARL) for wireless use case such as medium access control (MAC), their real-world deployment in Internet of Things (IoT) is hindered by their sample inefficiency. To alleviate this challenge, one can leverage model-based reinforcement learning (MBRL) solutions, however, conventional MBRL approaches rely on black-box models that are not interpretable and cannot reason. In contrast, in this paper, a novel causal model-based MARL framework is developed by leveraging tools from causal learn- ing. In particular, the proposed model can explicitly represent causal dependencies between network variables using structural causal models (SCMs) and attention-based inference networks. Interpretable causal models are then developed to capture how MAC control messages influence observations, how transmission actions determine outcomes, and how channel observations affect rewards. Data augmentation techniques are then used to generate synthetic rollouts using the learned causal model for policy optimization via proximal policy optimization (PPO). Analytical results demonstrate exponential sample complexity gains of causal MBRL over black-box approaches. Extensive simulations demonstrate that, on average, the proposed approach can reduce environment interactions by 58%, and yield faster convergence compared to model-free baselines. The proposed approach inherently is also shown to provide interpretable scheduling decisions via attention-based causal attribution, revealing which network conditions drive the policy. The resulting combination of sample efficiency and interpretability establishes causal MBRL as a practical approach for resource-constrained wireless systems.


翻译:尽管多智能体强化学习(MARL)在无线应用场景(如媒体接入控制(MAC))中具有优势,但其在物联网(IoT)中的实际部署仍受限于样本效率低下的问题。为缓解这一挑战,可采用基于模型的强化学习(MBRL)方案,然而传统MBRL方法依赖不可解释且无法推理的黑盒模型。相比之下,本文通过利用因果学习工具,开发了一种新颖的基于因果模型的多智能体强化学习框架。具体而言,所提模型能利用结构因果模型(SCM)和基于注意力的推理网络,显式表征网络变量间的因果依赖关系。随后构建可解释的因果模型,以捕捉MAC控制消息如何影响观测、传输动作如何决定结果,以及信道观测如何影响奖励。继而使用数据增强技术,基于学习到的因果模型生成合成轨迹,通过近端策略优化(PPO)进行策略优化。理论分析表明,因果MBRL相比黑盒方法实现了指数级的样本复杂度提升。大量仿真实验证明,所提方法平均可减少58%的环境交互,且相比无模型基线方法收敛速度更快。该方法还通过基于注意力的因果归因,天然提供了可解释的调度决策,揭示了驱动策略的关键网络条件。样本高效性与可解释性的结合,确立了因果MBRL作为资源受限无线系统实用方法的地位。

0
下载
关闭预览

相关内容

国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
VIP会员
相关基金
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
Top
微信扫码咨询专知VIP会员