In wireless communication systems, efficient and adaptive resource allocation plays a crucial role in enhancing overall Quality of Service (QoS). Compared to the conventional Model-Free Reinforcement Learning (MFRL) scheme, Model-Based RL (MBRL) first learns a generative world model for subsequent planning. The reuse of historical experience in MBRL promises more stable training behavior, yet its deployment in large-scale wireless networks remains challenging due to high-dimensional stochastic dynamics, strong inter-agent cooperation, and communication constraints. To overcome these challenges, we propose the Multi-Agent Conditional Diffusion Model Planner (MA-CDMP) for decentralized communication resource management. Built upon the Distributed Training with Decentralized Execution (DTDE) paradigm, MA-CDMP models each communication node as an autonomous agent and employs Diffusion Models (DMs) to capture and predict environment dynamics. Meanwhile, an inverse dynamics model guides action generation, thereby enhancing sample efficiency and policy scalability. Moreover, to approximate large-scale agent interactions, a Mean-Field (MF) mechanism is introduced as an assistance to the classifier in DMs. This design mitigates inter-agent non-stationarity and enhances cooperation with minimal communication overhead in distributed settings. We further theoretically establish an upper bound on the distributional approximation error introduced by the MF-based diffusion generation, guaranteeing convergence stability and reliable modeling of multi-agent stochastic dynamics. Extensive experiments demonstrate that MA-CDMP consistently outperforms existing MARL baselines in terms of average reward and QoS metrics, showcasing its scalability and practicality for real-world wireless network optimization.


翻译:在无线通信系统中,高效且自适应的资源分配对于提升整体服务质量(QoS)至关重要。相较于传统的无模型强化学习(MFRL)方案,基于模型的强化学习(MBRL)首先学习一个生成式世界模型用于后续规划。MBRL中对历史经验的重用保证了更稳定的训练行为,但由于高维随机动态、强智能体间协作及通信约束,其在大规模无线网络中的部署仍具挑战性。为克服这些挑战,我们提出了用于去中心化通信资源管理的多智能体条件扩散模型规划器(MA-CDMP)。基于分布式训练与去中心化执行(DTDE)范式,MA-CDMP将每个通信节点建模为自主智能体,并采用扩散模型(DMs)来捕捉和预测环境动态。同时,一个逆动态模型指导动作生成,从而提升样本效率和策略可扩展性。此外,为近似大规模智能体交互,我们引入了平均场(MF)机制作为DMs中分类器的辅助。该设计缓解了智能体间的非平稳性,并以最小的通信开销增强了分布式环境下的协作。我们进一步从理论上建立了基于平均场的扩散生成所引入的分布近似误差的上界,保证了多智能体随机动态建模的收敛稳定性和可靠性。大量实验表明,MA-CDMP在平均奖励和QoS指标上持续优于现有多智能体强化学习基线,展现了其在现实无线网络优化中的可扩展性和实用性。

0
下载
关闭预览

相关内容

专知会员服务
41+阅读 · 2021年6月19日
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
VIP会员
相关基金
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
Top
微信扫码咨询专知VIP会员