Multiple autonomous agents interact over a random communication network to maximize their individual utility functions which depend on the actions of other agents. We consider decentralized best-response with inertia type algorithms in which agents form beliefs about the future actions of other players based on local information, and take an action that maximizes their expected utility computed with respect to these beliefs or continue to take their previous action. We show convergence of these types of algorithms to a Nash equilibrium in weakly acyclic games under the condition that the belief update and information exchange protocols successfully learn the actions of other players with positive probability in finite time given a static environment, i.e., when other agents' actions do not change. We design a decentralized fictitious play algorithm with voluntary and limited communication (DFP-VL) protocols that satisfy this condition. In the voluntary communication protocol, each agent decides whom to exchange information with by assessing the novelty of its information and the potential effect of its information on others' assessments of their utility functions. The limited communication protocol entails agents sending only their most frequent action to agents that they decide to communicate with. Numerical experiments on a target assignment game demonstrate that the voluntary and limited communication protocol can more than halve the number of communication attempts while retaining the same convergence rate as DFP in which agents constantly attempt to communicate.


翻译:我们考虑对惯性类型算法作出分散式的最佳反应,即代理人根据当地信息对其他行为者的未来行动形成信念,并采取行动最大限度地提高对这些信仰的预期效用,或继续采取以前的行动。我们把这些类型的算法与纳什平衡的趋同在微弱的单循环游戏中显示,条件是信仰更新和信息交流协议能够在一个静止的环境中,在固定的环境中,即当其他代理人的行动没有改变时,在有限的时间内成功地了解其他行为者的积极可能性,即其他代理人的行动没有改变时,在有限的时间里,对惯性型算法作出最分散式的最佳反应,使代理人根据当地信息,对其他行为者的未来行动形成信念形成信念,从而形成对其他行为者未来行动的信念;我们考虑对惯性且有限的通信协议(DP-VL)协议设计一种分散式的虚拟游戏算法,从而满足这一条件。在自愿通信协议中,每个代理人决定通过评估其信息的新颖性以及信息对他人评估其功用功能的潜在影响来交流信息。在有限的通信协议中,只有向他们决定与其联系的代理人发送最频繁的行动的代理人。在目标分配游戏上进行的实验表明,在自愿和有限的通信协议中可以使FP的代理人保持同一比例。

0
下载
关闭预览

相关内容

《计算机信息》杂志发表高质量的论文,扩大了运筹学和计算的范围,寻求有关理论、方法、实验、系统和应用方面的原创研究论文、新颖的调查和教程论文,以及描述新的和有用的软件工具的论文。官网链接:https://pubsonline.informs.org/journal/ijoc
专知会员服务
14+阅读 · 2021年5月21日
最新【深度生成模型】Deep Generative Models,104页ppt
专知会员服务
67+阅读 · 2020年10月24日
【强化学习资源集合】Awesome Reinforcement Learning
专知会员服务
93+阅读 · 2019年12月23日
Keras François Chollet 《Deep Learning with Python 》, 386页pdf
专知会员服务
144+阅读 · 2019年10月12日
强化学习最新教程,17页pdf
专知会员服务
168+阅读 · 2019年10月11日
已删除
将门创投
10+阅读 · 2019年3月6日
强化学习 cartpole_a3c
CreateAMind
9+阅读 · 2017年7月21日
Arxiv
0+阅读 · 2021年8月11日
Arxiv
0+阅读 · 2021年8月10日
VIP会员
相关VIP内容
专知会员服务
14+阅读 · 2021年5月21日
最新【深度生成模型】Deep Generative Models,104页ppt
专知会员服务
67+阅读 · 2020年10月24日
【强化学习资源集合】Awesome Reinforcement Learning
专知会员服务
93+阅读 · 2019年12月23日
Keras François Chollet 《Deep Learning with Python 》, 386页pdf
专知会员服务
144+阅读 · 2019年10月12日
强化学习最新教程,17页pdf
专知会员服务
168+阅读 · 2019年10月11日
相关资讯
已删除
将门创投
10+阅读 · 2019年3月6日
强化学习 cartpole_a3c
CreateAMind
9+阅读 · 2017年7月21日
Top
微信扫码咨询专知VIP会员