DeepMind让AI组队踢足球学会“合作”，并开源训练环境

会员服务 ·

DeepMind让AI组队踢足球学会“合作”，并开源训练环境

2019 年 2 月 22 日 大数据文摘

大数据文摘编辑部出品

从足球竞技到战争，团队合作一直被认为是人类社会进步的基石。基于长远的共同目标，弱化甚至牺牲个人利益，促成了人类作为共同体的最大利益。

DeepMind也正尝试让人工智能学会这一点，并且选择了最有可能显示团队合作的考核方式——足球比赛。

今天凌晨，DeepMind发布了最新研究：证明了在足球环境下，一种基于分布式代理的连续控制培训框架，结合奖励渠道的自动优化，可以实现多智能体端到端的学习。

简单来说就是，DeepMind设置了环境，让多个AI一起踢足球赛。并且提前设置了规则，奖励整只“足球队”而不去鼓励某个"AI球员”的个人成绩，以促成整个球队的进步。用这种方式证明了，AI也是可以相互合作的！

先附上论文链接：

https://arxiv.org/pdf/1902.07151.pdf

这篇论文被ICLP 2019收录。

通过竞争，实现紧急协调的多方协作

多智能体通过协作，完成团队最优目标并不是一个陌生的话题，去年，OpenAI就曾发布了由五个神经网络组成的DOTA团战AI团队——OpenAI Five ，并在5v5中击败了顶级人类玩家团队。比赛中，OpenAI Five也展示了，在胜利是以摧毁防御塔为前提的游戏中，牺牲“小兵”利益是可以被接受的，也就是说，AI是可以朝着长期目标进行优化的。

DeepMind的最新研究进一步专注于多智能体（multi-agent）这一领域。

他们组织了无数场2v2的AI足球比赛，并设定了规则，一旦有一方得分或者比赛超过45秒，比赛就结束。

DeepMind称，通过去中心化的、基于群体的训练可以使得代理人的行为不断发展：从随机，简单的追球，到最后的简单“合作”。他们的研究还强调了在连续控制的大规模多智能体训练中遇到的几个挑战。

值得一提的是，DeepMind通过设置自动优化的简单奖励，不鼓励个体，而去鼓励合作行为和团队整体的成绩，可以促成长期的团队行为。

在研究中通过引入一种“基于单独折扣因子来形成自动优化奖励的思想”，可以帮助他们的代理从一种短视的训练方式，过渡到一种长时间但更倾向于团队合作的训练模式当中。

DeepMind也进一步提出了一个以博弈论原理为基础的评估方案，可以在没有预定义的评估任务或人类基线的情况下评估代理的表现。

具体思想

将足球比赛看做一个多智能体强化学习（MARL）的过程，模拟一个可交互的环境，智能主体通过学习与环境互动，然后优化自己累计奖励。MARL的主题思想是协作或竞争，亦或两者皆有。选择什么样的行为，完全取决于“报酬奖励”的设置。MARL的目标是典型的马尔科夫完美均衡。大致意思是寻找随机博弈中达到均衡条件的混合策略集合。

具体意思是：博弈参与者的行动策略有马尔科夫特点，这意味着每个玩家的下一个动作是根据另一个玩家的最后一个动作来预测的，而不是根据先前的行动历史来预测的。马尔科夫完美均衡是：基于这些玩家的动作寻找动态均衡。

DeepMind在github上发布了他们使用的MuJoCo Soccer环境，这是一个竞争协作多智能体交互的开源研究平台，在机器学习社区已经得到了相当广泛的使用。