赛车版「末日人机」上演速度与激情!索尼赛车游戏专业玩家被AI虐了

2020 年 8 月 27 日 新智元



  新智元报道  

来源:reddit

编辑:小匀

【新智元导读】人机大战是目前最有看头的比赛了!最近,阿尔法狗斗战胜人类飞行员,不过还好,在赛车游戏中,我们人类玩家一直是很厉害的。但是近期,来自瑞士的研究人员利用深度强化学习(Deep Reinforcement Learning)玩了把赛车,估计又要让人类黯然失色了……


听说最近AI又战胜人类了?

美国DARPA「阿尔法狗斗」挑战赛决赛,由AI算法操控的虚拟飞机超过人类飞行员,以5:0获胜


说到人机大战,还记得当年LOL英雄联盟出的末日人机吗?


与超级机器对决,有多少黄铜选手高呼:我太南了!


这些都还是小事儿,如果你遇见了一位更狠的「王者」——深度强化学习(DRL)……

深度强化学习在很多决策领域当中都取得了比较不错的结果,尤其是在游戏,多个游戏已经达到甚至是超过了人类水平。

基于深度强化学习,DeepMind研发的AlphaGo Zero在不使用任何人类围棋数据的前提下,在围棋上完全完虐人类;OpenAI研发的Dota Five则在Dota游戏上达到了人类玩家的顶尖水平;DeepMind研发的AlphaStar在星际争霸游戏上同样击败了人类职业玩家。


这些都是深深「伤害」游戏玩家的深度强化学习实例。

赛车版「末日人机」

无论是在真实的道路上还是在模拟环境中,高速驾驶都是一项极具挑战性的任务,因为它要求驾驶员快、准、狠。同时,还要将车子的物理性能发挥到极致。


尽管DRL也在曾在模拟自动驾驶中得到了成功应用,但在速度方面,目前没人能超过人类玩家。

直到最近,来自瑞士苏黎世大学和苏黎世联邦理工学院的研究人员训练的深度强化学习(DRL) 智能体打破了这一局面。

研究人员选择了2017年索尼的热门赛车游戏gt Sport (GTS), 这款游戏深受玩家喜爱,车型又多,轨道又炫!


研究人员选择了下图这款:奥迪TT CUP。



Deep RL,速度超越人类玩家

一般来说,算法在赛车领域的研究工作可以分为三类

(i) 依赖轨迹规划和控制的经典方法

(ii) 监督学习方法

(iii) 强化学习方法

与以往不同,研究人员利用DRL来训练一种深度感觉运动策略,这种策略可以直接从观察结果映射到控制命令

首先,研究人员定义了一个用于制定赛车问题的奖励函数,相应地,一个神经网络策略将输入状态映射到动作。

当智能体学习使用不同的汽车高速在不同的轨道上自动驾驶时,通过最大的奖励函数来优化策略参数。

系统概述图

他们的目标是建立一个神经网络控制器,能够在不了解赛车动力学的情况下自动驾驶赛车,并让它在「不撞到赛道墙」的情况下尽可能快地跑完一圈。

专业玩家不服来战?

为让大家有一个清晰的认识,研究人员 邀请了Gran Turismo领域专家TG (匿名),与ta来了个在线对决。


显然, DRL超越了TG ,率先进入了隧道。

(左图)来自70个国家的50,000多名人类玩家的个人最佳单圈时间(深蓝色直方图),以及内置的非玩家角色(黄线)。(为了简化,超过100秒的人圈时间被省略了)
(右图)10个最快的人类车手的一圈时间和我们的接近。

在实验中,DRL击败了内置的npc(非玩家控制角色),并超过了50,000名人类玩家个人最佳圈速。

评分表

ps:普遍认为,现代赛车游戏中内置的NPC是无法与人类公平竞争的。例如,与最快的人类车手相比,GTS中当前内置的NPC总共会损失11秒,在本次的参考设置中,NPC比所有人类车手的速度慢83%。

万一有人拿DRL开挂咋办?

研究人员认为,将要归因于智能体能够自学轨迹,这些轨迹在性质上与最优秀的人类选手所选择的轨迹相似,而且还能在转弯时保持稍高的速度。


t时刻的赛道进度cpt是通过将赛车的位置投射在赛道的中心线上来构建的

包括培训和评估,该团队用了不到73个小时就完成了DRL测试。尽管他们的研究仅限于没有其他赛车在赛道上进行的计时测试,但该团队计划使用更数据效率高的RL算法,如meta-RL,以迎接更多的「速度与激情」。

不过也有网友表示担忧,万一以后 有人「开挂」咋办

「这简直是疯了……另一方面,这可能会被用来作弊。」


「我从没想过在赛车游戏中会有人作弊,但现在看来可能性越来越大。」


的确有这样的危险,但游戏世界,最讲究的就是公平,玩家们的自律是最重要的!

研究已经在 arXiv 上发布。


参考链接:
https://arxiv.org/pdf/2008.07971.pdf
https://www.youtube.com/watch?v=Zeyv1bN9v4A




登录查看更多
0

相关内容

深度强化学习 (DRL) 是一种使用深度学习技术扩展传统强化学习方法的一种机器学习方法。 传统强化学习方法的主要任务是使得主体根据从环境中获得的奖赏能够学习到最大化奖赏的行为。然而,传统无模型强化学习方法需要使用函数逼近技术使得主体能够学习出值函数或者策略。在这种情况下,深度学习强大的函数逼近能力自然成为了替代人工指定特征的最好手段并为性能更好的端到端学习的实现提供了可能。
高效医疗图像分析的统一表示
专知会员服务
33+阅读 · 2020年6月23日
【UCLA】基于深度神经网络的工业大模型预测控制,36页ppt
专知会员服务
31+阅读 · 2020年4月24日
【普林斯顿大学-微软】加权元学习,Weighted Meta-Learning
专知会员服务
39+阅读 · 2020年3月25日
【强化学习】深度强化学习初学者指南
专知会员服务
178+阅读 · 2019年12月14日
深度强化学习的弱点和局限
论智
6+阅读 · 2018年2月27日
深度强化学习的弱点和局限(上)
论智
8+阅读 · 2018年2月26日
人工智能:英、中、美上演“三国演义”
专知
4+阅读 · 2018年1月27日
Arxiv
0+阅读 · 2020年10月14日
Principal Neighbourhood Aggregation for Graph Nets
Arxiv
17+阅读 · 2020年6月7日
Arxiv
4+阅读 · 2018年12月20日
VIP会员
Top
微信扫码咨询专知VIP会员