多智能体强化学习 ICML2019论文（1）

多智能强化学习

Social Influence as Intrinsic Motivation for Multi-Agent Deep Reinforcement Learning

原文传送门：

http://proceedings.mlr.press/v97/jaques19a.html

特色：
本文提出一种机制去计算其它智能体的影响力。智能体对其它智能体的影响力，被认为是有回报的，相当于去奖励智能体在他们的行为之间的高互信息，从而来提高协调与合作，从而对通信协议有一个更好的学习，并且影响力的奖励是使用一种分布式的方式来计算的，能够有效解决突发通信的问题。

动机：

为了实现分布式的计算，并且解决突发通信协调问题

方法：

提出了一种统一的方法来实现MARL中的协调和沟通，方法是通过给智能体一个内在的奖励，从而来对其他智能体的行为产生因果影响。

本文使用反事实推理评估因果影响。在每一步，一个智能体模拟它可能采取的行为、反事实的行动，并评估它们对另一个智能体行为的影响。导致另一方的行为发生相对较大变化的行为被认为是非常有影响力的，并且会得到回报。

（本文直接从像素点训练递归神经网络策略）

通过实验证明了影响力对学习协调是有利的。每个智能体独立训练，每个智能体有一个MOA（对其它智能体建模），训练预测其它智能体的行为，然后，智能体可以模拟反事实行为，并使用自己的内部MOA来预测这些行为将如何影响其他智能体，从而计算自己的内在影响报酬，这种方法是不需要一个集中控制或使用另外一个智能体的奖励。

Sequential Social Dilemmas ：具有博弈论收益结构的部分可观测、时空扩展的多智能体博弈

在这些ssd中，一组agent获得的集体奖励清楚地表明了这些agent如何学会合作

影响代理不仅要学会协调他们的行为以获得高回报，他们还必须学会合作。

修改了智能体的奖励为：