Uber公司设计新型AI算法,有望对机器人工作产生巨大影响

2018 年 11 月 29 日 未来产业促进会


点击上方“公众号”可以订阅哦!


在蒙特祖玛的复仇(Montezuma's Revenge)和玛雅人的冒险(Pitfall!)这两款游戏里,如果有一个算法能记住游戏里的探索过程,那么这个算法就能帮助计算机和机器人更好地学习和适应真实世界


由怀俄明大学的副教授 Jeff Clune 领导,来自优步在旧金山的人工智能研究团队,提供了一种新型的机器学习算法刚刚攻克了一些对人工智能来说非常困难的电子游戏。

 

(图片来源:麻省理工科技评论)


熟悉的人知道,人工智能算法已经在古老、优雅的策略游戏——围棋中击败了世界上最优秀的人类选手,围棋已经是是可以想象到的最困难的游戏之一。但是,来自上个世纪的 8 位计算机游戏时代的两个经典像素游戏——蒙特祖玛的复仇和玛雅人的冒险,一直困扰着人工智能研究人员

 

这看似矛盾的背后其实是有原因的。蒙特祖玛的复仇和玛雅人的冒险虽然看似简单,但对本来就擅长征服电子游戏的强化学习来说仍是一大挑战。DeepMind 是谷歌母公司 Alphabet 的子公司,专注于人工智能领域,以其算法能够以专业玩家的水准来学习几个经典的电子游戏的而著名。强化学习算法在大多数游戏里效果都不错,因为它们可以根据正反馈(得分升高)调整他们的行为。强化学习的成功使人们产生了希望,认为人工智能算法可以自己教会自己做各种有用的事情,而这目前对机器来说是不可能做到的。

 

蒙特祖玛的复仇和玛雅人的冒险的问题是所需要的奖励(rewards)信号很少。两个游戏都涉及典型场景:主角要探索充满致命生物和陷阱的方块世界,在游戏中许多所必需的行为都无助于提高分数,只在长时间完成特定的一系列动作之后才会收到奖励信号。普通的强化学习算法甚至过不去蒙特祖玛的复仇和玛雅人的冒险的第一关,他们得分完全为零。

 

但是来自优步在旧金山的人工智能研究团队的算法,在一个给算法提供线索很少的环境中展示了一种完全不同的机器学习方法。这种方法引出了一些有趣的实际应用,Clune 和他的团队在 11 月 26 日发布的博客文章中写道,这可能可以应用在机器人学习中这是因为未来的机器人需要弄清楚在一个只提供较少的奖励的复杂的环境中应该做些什么

 

Uber 于 2016 年 12 月建立人工智能实验室,其目标是实现可能对其业务有用的基础性突破。更好的强化学习算法最终可用于自动驾驶和优化车辆路线等项目上

 

很多人工智能研究人员经常通过指导强化学习算法不定时随机探索、同时为探索过程增加奖励——也就是所谓的”内在动机”(intrinsic motivation), 来试图解决蒙特祖玛的复仇与玛雅人的冒险遇到的问题。

 

但 Uber 的研究人员认为,这种方法忽略了人类探索好奇心的一个重要角度。“我们认为目前的”内在动机”算法的一个主要弱点是 detachment,”他们写道,“算法忘记了他们访问过的有价值的区域,他们不会回到那些区域,看看是否会产生新的状态。”

 

该团队设计了新的强化学习算法,称为 Go-Explore,这种算法可以记住之前的状态,并会在随后返回特定区域或重复特定任务,看看这样做是否会使效果变好。研究人员还发现,通过让人类玩家突出有趣或重要的区域来增加一些领域信息时,可以大大加快算法的学习过程。这一过程非常重要,因为在真实环境中,有很多情况是需要算法和人一起工作来解决一项艰巨的任务的。

 

他们的算法在蒙特祖玛的复仇中平均得分为 400,000 分——比人类玩家的平均值高出一个数量级。在玛雅人的冒险游戏中,平均得分为 21,000,同样远远超过大多数人类玩家。

 

“这些结果令人印象深刻,”研究强化学习的斯坦福大学助理教授 Emma Brunskill 说,“令人惊讶和兴奋的是,这些算法产生了如此巨大的优势。”

 

其他人工智能研究人员也一直在努力攻克这些电子游戏。10 月,旧金山的非营利组织——OpenAI 的一个团队,展示了一种能够在蒙特祖玛的复仇游戏中取得重大进展的算法

 

就在最近,斯坦福大学的 Brunskill 小组在玛雅人的冒险游戏方面也取得了一些的进展,他们使用的方法与 Uber 团队类似。

 

现在人工智能算法可以解决这些视频游戏,真正的挑战是从街机游戏中脱离出来,解决现实问题

 

Brunskill 同意这种算法可能对机器人技术产生重大影响。但是她表示,在其他现实世界的情况中,特别是那些涉及人类行为建模的情况,要远远困难得多。“想看看这种方法对于更复杂的环境表现的如何,这将非常有趣,”她说。


编辑:李根 责编:李禹蒙

参考:

https://www.technologyreview.com/s/612470/uber-has-cracked-two-classic-80s-video-games-by-giving-an-ai-algorithm-a-new-type-of-memory/



  注:投稿请电邮至124239956@qq.com ,合作 或 加入未来产业促进会请加:www13923462501 微信号或者扫描下面二维码:

  


  文章版权归原作者所有。如涉及作品版权问题,请与我们联系,我们将删除内容或协商版权问题!联系QQ:124239956

  

登录查看更多
0

相关内容

在数学和计算机科学之中,算法(Algorithm)为一个计算的具体步骤,常用于计算、数据处理和自动推理。精确而言,算法是一个表示为有限长列表的有效方法。算法应包含清晰定义的指令用于计算函数。 来自维基百科: 算法
【牛津大学&DeepMind】自监督学习教程,141页ppt
专知会员服务
177+阅读 · 2020年5月29日
《强化学习—使用 Open AI、TensorFlow和Keras实现》174页pdf
专知会员服务
136+阅读 · 2020年3月1日
【强化学习】深度强化学习初学者指南
专知会员服务
178+阅读 · 2019年12月14日
【斯坦福&Google】面向机器人的机器学习,63页PPT
专知会员服务
23+阅读 · 2019年11月19日
论强化学习的根本缺陷
AI科技评论
11+阅读 · 2018年7月24日
时代聚焦AI安全——可解释性
云栖社区
9+阅读 · 2018年1月21日
【深度强化学习】深度强化学习揭秘
产业智能官
20+阅读 · 2017年11月13日
Gartner:AI会使社会变得更愚笨
云头条
3+阅读 · 2017年9月26日
Arxiv
135+阅读 · 2018年10月8日
Arxiv
11+阅读 · 2018年4月25日
VIP会员
Top
微信扫码咨询专知VIP会员