NeurIPS 2023 | 认知层级下的群体动作预测

关键词**：**认知层级；动作预测

导读

本文是对发表于人工智能领域顶级会议 NeurIPS 2023 的论文 Social Motion Prediction with Cognitive Hierarchies 的解读。该论文由北京大学计算机视觉与数字艺术（CVDA）课题组在王亦洲教授指导下完成，共同第一作者为计算机学院博士生朱文韬和信息科学技术学院本科生秦杰圣。

人类具有卓越的“预测他人动作并据此规划自身行动”的能力，而这项研究工作试图学习这种能力并应用于群体动作预测问题。这个工作提出了一个新的数据集、一个新的建模角度，以及一个基于认知模型的计算框架。作者构建了一个真实世界群体动作三维数据集，其中包括了激烈且策略性的人类互动以及多样的姿态分布，给这个研究领域带来全新的挑战。此外，通过从多智能体强化学习的角度重新定义问题，作者结合行为克隆、生成对抗模仿学习设计了一个认知层级框架来预测策略性的人类社交互动。

论文链接：

https://arxiv.org/pdf/2311.04726.pdf

开源代码：

https://github.com/Walter0807/Social-CH

项目主页：

https://walter0807.github.io/Social-CH/

视频介绍：

https://www.youtube.com/watch?v=pVBICYpGhyU

背景介绍

在社交环境中，人类会下意识地预测他人的行为，并据此开展自己的行为决策。这种能力使得个体能够在各种场景中与他人合作或竞争，从行人交通到团队运动等。为了更好地理解和模仿这种能力，研究者们提出了预测多智能体未来行为的任务。大部分先前的工作主要集中在对象轨迹层面的互动建模和预测，在自动驾驶等应用中取得了显著的成果。然而，基于轨迹的方法只能反映粗粒度的互动（例如避免碰撞、保持社交距离等），并未捕捉到丰富的人类动作细节。为此，一些研究开始探讨群体动作预测问题，即同时预测多人的未来轨迹和姿态[1,2]。

尽管取得了一些进展，但这个领域仍面临一些关键挑战。首先，现有的多人动作数据集[3,4]主要是为人体姿态估计任务而收集的，因此并未特别强调群体间的互动行为。在这些数据集中，个体往往随意移动并随机与他人互动，这使得预测未来行为变得困难且意义不大。其次，大多数先前的方法主要关注神经网络结构的设计，而忽视了人类社交行动规划中的认知模型。这两个挑战紧密相关，需要一个综合解决方案。

“五四”篮球训练数据集

我们首先构建了一个大型多人3D运动数据集，其中参与者之间存在着激烈和策略性的互动。我们将目光投向了团队运动，因为它们具有以下几个特点：

明确的比赛规则和奖励机制隐式地约束和指导个人的行为动作。
参与者根据自己的角色制定复杂的互动策略，例如与队友合作并对抗对手。优秀的运动员甚至会使用欺骗等复杂技巧。
人类动作在姿态多样性和动态性上往往更复杂，使得动作预测比以前的数据集更具挑战性。

图1. “五四”数据集中的内容示例。三名紫色球员组成进攻队伍，而两名橙色球员则组成防守队伍。在左侧，进攻球员成功将球传给队友。在中间，防守球员准确地预测传球轨迹并成功抢断球。在右侧，进攻球员假装向右传球，然后迅速向左传球。

我们的数据集记录了一组高水平篮球运动队员进行无运球3对2的篮球训练。在每个训练中，三名进攻球员持球，而另外两名球员负责防守。进攻团队的目标是在规定的时间内完成尽可能多的成功传球，而防守团队则努力抢断、干扰进攻并减缓进攻速度。由于禁止运球，这个训练要求进攻球员在传球之前做出更好的决策并预判防守情况；相反，防守球员需要预判传球方向以抢断球。

图1展示了我们数据集中多样且动态的人际互动。在接下来的例子中，我们用冷色（紫色、青色和蓝色）表示进攻球员，用暖色（橙色和棕色）表示防守球员。

图2. “五四”数据集具有姿态多样、运动激烈、策略交互强等特点。

此外，我们还对“五四”数据集在姿态多样性、运动动态性等方面进行了定量分析，结果显示其比先前广泛使用的数据集[3,4]更具挑战性。

方法概览

图3. 人们隐式地预测他人可能的行为，并针对性地规划他们自己的行动。同时，其他人从他们的角度也进行类似的决策过程。通过递归地考虑这些推理步骤，我们可以得到一个层级化的认知结构。

我们将群体运动预测任务建模为一个使用模仿学习从专家演示中学习策略的多智能体强化学习（MARL）问题。具体来说，我们使用行为克隆（BC）[5]来模仿数据集中的专家行为。为了提高学习效率和泛化能力，我们使用生成对抗模仿学习（GAIL）[6]，试图使智能体的策略与专家的策略无法区分。此外，我们提出了一个基于认知层级理论[7]的人类动作决策框架。如图3所示，我们假设人们基于他们对自己和他人可能采取的行动的预测做出决策，而他人则从他们的角度进行类似的决策过程。通过递归地考虑推理步骤，我们可以得到第 k 层的智能体采取基于第 k-1 层的智能体的行动，其中 k 代表策略思维的深度。

图4. 框架概览。第k层智能体的策略网络根据第k-1层智能体的联合动作与该智能体的局部状态产生第k层的动作。

基于这些观察，我们提出了一个能够将认知层级与 MARL 有机结合的计算模型（如图4所示）。

实验结果

表1. 和基线方法的定量对比。

如表1所示，本文提出的方法在“五四”数据集上普遍超过了此前的方法，特别是在具有挑战性的长期动作预测上。接下来，我们展示一些模型的预测结果（我们用绿色表示输入的动作历史）：

图5. 预测结果（示例1）。

图6. 预测结果（示例2）。

可以看到，我们的方法能够学到传球、抢断、轮转补防等丰富的交互动作。此外，我们通过可视化中间策略网络生成的动作来理解决策过程中的认知层级：

图7. 认知层级可视化（示例1）。

[Level-1] 小紫传球给小蓝。 [Level-2] 小棕于是进行抢断动作，在小蓝和小青之间造成了防守漏洞。 [Level-3] 因此，小橙转身插入小蓝和小青之间的空隙，填补了这个空缺。这个预测更接近数据集的真实情况。

图8. 认知层级可视化（示例2）。

[Level-1] 小紫接球并传球。 [Level-2] 所以，作为防守者的小橙靠近小紫进行防守，而他的队友小棕也转向小紫。 [Level-3] 有鉴于此，小橙选择了不同的动作，转向小青。这一动作也更接近真实情况。

从这两个例子中可以看出我们基于认知层级的模型可以迭代地优化动作预测，不仅产生准确的最终预测，而且还给出了可解释的认知决策过程。

总结

我们提出第一个具有激烈的策略性互动的多人3D运动数据集“五四”，为群体动作预测问题带来了新的挑战。
我们提出了一种新颖的多智能体强化学习问题建模，并开发了一种结合行为克隆和生成对抗性模仿学习的模仿学习方法。
我们设计了一个认知层级结构框架来建模和预测策略性的群体交互，并超过了此前的方法。

视频介绍：

参考文献

[1] Jiashun Wang, Huazhe Xu, Medhini Narasimhan, and Xiaolong Wang. Multi-person 3d motion prediction with multi-range transformers. Advances in Neural Information Processing Systems, 34:6036–6049, 2021. [2] Sirui Xu, Yu-Xiong Wang, and Liangyan Gui. Stochastic multi-person 3d motion forecasting. In The Eleventh International Conference on Learning Representations, 2023. [3] Cmu graphics lab motion capture database. [4] Dushyant Mehta, Oleksandr Sotnychenko, Franziska Mueller, Weipeng Xu, Srinath Sridhar, Gerard PonsMoll, and Christian Theobalt. Single-shot multi-person 3d pose estimation from monocular rgb. In 3DV, 2018. [5] Michael Bain and Claude Sommut. A framework for behavioural cloning. Machine intelligence, 15(15):103, 1999. [6] Jonathan Ho and Stefano Ermon. Generative adversarial imitation learning. In Advances in neural information processing systems, pages 4565–4573, 2016. [7] Colin F Camerer, Teck-Hua Ho, and Juin-Kuan Chong. A cognitive hierarchy model of games. The Quarterly Journal of Economics, 119(3):861–898, 2004.

图文 | 朱文韬 Computer Vision and Digital Art (CVDA)

About CVDA

The **Computer Vision and Digital Art (CVDA) **research group was founded in 2007 within the National Engineering Laboratory for Video Technology at Peking University led be Prof. Yizhou Wang. The group focuses on developing computational theories and models to solve challenging computer vision problems in light of biologically plausible evidences of visual perception and cognition. The primary goal of CVDA is to establish a mathematical foundation of understanding the computational aspect of the robust and efficient mechanisms of human visual perception, cognition, learning and even more. We also believe that the marriage of science and art will stimulate exciting inspirations on producing creative expressions of visual patterns.

成为VIP会员查看完整内容