OpenAI发布Neural MMO ：大型多智能体游戏环境

2019 年 3 月 5 日 大数据文摘

大数据文摘出品

作者：魏子敏、云舟、蒋宝尚

今日凌晨，OpenAI发布Neural MMO—一个强化学习的大型多智能体游戏环境。这一平台可以在持久性和开放式任务中支持大量可变数量的智能体。

一直以来，人工智能研究者都希望让智能体（agent）学会合作竞争，一些研究者也认为这是实现通用人工智能（AGI）的必要条件。

17年7月份，OpenAI、麦吉尔大学和 UC Berkeley 联合提出了一种“用于合作-竞争混合环境的多智能体 actor-critic”，可用于多智能体环境中的中心化学习（centralized learning）和去中心化执行（decentralized execution），让智能体可以学会彼此合作和竞争。

论文地址：

https://arxiv.org/pdf/1706.02275.pdf

之后，OpenAI也一直没有放弃对多智能体学习环境的探索。

今日凌晨，OpenAI宣称发布Neural MMO——一个强化学习的大型多智能体游戏环境。这一多智能体的环境可以探索更兼容和高效的整体环境，力求在复杂度和智能体人数上获取难得的平衡。

近年来，多重代理设置已成为深度强化学习研究的一个有效平台。尽管进展颇丰，但其仍存在两个主要挑战：当前环境要么复杂但过于受限，要么开放但过于简单。

其中，持久性和规模化将是探讨的关键属性，但研究者们还需要更好的基准测试环境，在存在大量人口规模和持久性的情况下量化学习进度。这一游戏类型（MMO：大型多人在线游戏）模拟了在持续和广泛环境中可变数量玩家进行竞争的大型生态系统。

为了应对这些挑战，OpenAI构建了神经MMO以满足以下标准：

持久性：在没有环境重置的情况下，代理可以在其他学习代理存在的情况下同时学习。策略必须具有远见思维，并适应其他代理行为的潜在快速变化。
比例：环境支持大量且可变数量的实体。实验考虑了100个并发服务器中每个服务器128个并发代理且长达100M的生命周期。
效率：进入的计算障碍很低。可以在单个桌面CPU上培训有效的策略。
扩展：与现有 MMO类似，Neural MMO旨在更新内容。目前的核心功能包括基于拼接单元块（tile-based）的地形的程序生成，食物和水觅食系统以及战略战斗系统。未来有机会进行开源驱动的扩展。

OpenAI在博客中详细介绍了这一新环境。

环境

玩家（代理）可以加入任何可用的服务器（环境），每个都会包含一个可配置大小、且自动生成的基于图块的游戏地图。一些障碍块，例如森林和草，是可穿越的；其他的如水和实心岩石，则不能穿越。

代理在环境边缘的随机位置产生。他们需要获得食物和水，并避免其他代理的战斗伤害，以维持自己的生存。踩在森林地块上或出现在水资源地块的旁边会分别填充一部分代理的食物和水供应。然而，森林的食物供应有限，随着时间的推移会缓慢再生。这意味着代理必须竞争食品块，同时定期补充水源。玩家还可以使用三种战斗风格参与战斗，分别为混战，游猎及魔法。

输入：代理观察以其当前位置为中心的方形区域。这包括地块类型和占用代理的选择属性（健康，食物，水和位置）。

输出：代理为下一个游戏单位时间（timestep）输出操作选项。该操作由一个动作和一个攻击组成。

模型

作为一个简单的基准，我们使用vanilla策略梯度训练一个小型，完全连接的架构，并把值函数基准和奖励折扣作为唯一的增强功能。在这个模型中，奖励策略并不针对实现特定目标，而是针对其生命周期（轨迹长度）进行优化：他们在其生命周期的每个单位时间上获得奖励1。我们通过计算所有代理的最大值来将可变长度观测值（例如周围代理列表）转换为单个长度向量（OpenAI Five也使用了这个技巧）。基于PyTorch和Ray，源版本包括我们完整分布式培训的实现。

训练中最大种群数量在（16,32,64,128）之间变化。为了提高效率，在测试时，将在一对实验中学到的特定群进行合并，并在一个固定的范围内进行评估。只对作战策略进行评估，因为直接量化作战策略比较困难。通常来说，在更大的分布范围内进行训练效果会更好。

代理的策略是从多个种群中简单抽样——不同种群中的代理共享体系结构，但只有相同种群中的代理共享权重。初步实验表明，随着多智能体相互作用的增加，智能体的能力也随之增加。增加并发智能体的最大数量将放大探索行为；增加种群的数量将放大生态位形成——也就是说，种群在地图的不同部分扩散和觅食的趋势。

在评估跨多台服务器的玩家能力方面，并没有统一的标准。然而，有时，MMO服务器会进行合并。我们通过合并在不同服务器中训练的玩家基地来实现“锦标赛”风格的评估。这使得我们可以直接比较在不同实验环境中学到的策略。改变了测试时间范围，发现在较大环境下训练的代理一直优于在较小环境中训练的代理。

评估结果

服务器合并条件下的锦标赛：多代理放大了竞争行为

在跨多台服务器队玩家能力的能力进行评估时，我们并没有统一的标准。然而，有时MMO服务器会进行合并。我们通过合并在不同服务器中训练的玩家基地来实现“锦标赛”风格的评估。这使得我们可以直接比较在不同实验环境中学到的策略。改变了测试时间范围后，我们发现，在较大环境下训练的代理一直优于在较小环境中训练的代理。

种群规模的增加放大了探索行为