会员服务 ·

谷歌大脑QT-Opt算法，机器人探囊取物成功率96%，Jeff Dean大赞

2018 年 6 月 29 日 量子位

郭一璞发自凹非寺
量子位报道 | 公众号 QbitAI

用于工业生产中的普通机器人，往往只会“给鸡抓鸡，给狗抓狗”，像一个对生活失去了向往的流水线工人，重复着日复一日不用动脑的苦劳力。

但，谷歌大脑昨天发了一个新的算法，让这些穷苦的机械臂开始从事“脑力劳动”：

从一群物品中，抓起需要的东西。

比如从拼好的积木组合里，抓单个积木：

所使用的方法是深度强化学习，将大规模分布式优化和新型拟合深度Q学习算法——QT-Opt相结合，来让机器人从过去的每一次训练中学习，获取经验。

7个葫芦娃的4个月修炼

这次训练的参与“队员”有7名，他们用10个GPU开始训练：

△ 一根藤上7个机器人

每个机器人由一个带双指夹具的机械臂和一个RGB摄像头组成：

为了让机器人尽快get新的探囊取物技能，谷歌大脑的工作人员准备了1000样不同的物品用来训练：

仔细看一眼，其中包括各种形状、大小、材质不一的物体：

训练的过程首先从工作人员手动设计的策略开始，逐步切换到深度强化学习模型。

从论文上发现，原理大概是这样的：

学有所成

经过4个月的训练后，7位机器人迎来了他们的“考试”：成绩不错，在700次试验中，机器人找东西抓起来的成功率高达96%，比此前监督学习方法78%的成功率提升了很多。

Jeff Dean觉得它们棒棒的：

△ 凌晨4点的北京，Jeff老师发推夸奖自家机器人

除了提升准确率之外，经过QT-Opt算法训练过的机器人还主动get了4个新技能：

会破除阻碍

如果目标物体和其他东西连在一起，机器人会主动把它分开然后抓取。

比如前面示范的抓积木，机器人可以把影响自己发力的其他积木推开，再抓自己需要的那块积木。

“筷功”强

如果碰到难抓的东西，比如外形奇特或是外表光滑的物品，机器人会分析角度，重新定位，然后牢牢抓住不松手。

随手抓也要分析挑选

如果机器人一下子抓住了一堆东西，它可以自己选出需要的物品，在举起手臂之前牢牢的抓住它。

抢我的一定抢回来

如果人为的把机器人已经抓起来的物体拿掉，它还会锲而不舍的再抓一遍：

重要的是，以上这些技能都不是人为设置的，均是在训练过程中，机器人自行get到的。

最后，谷歌还提供了一个视频，来讲述7位机器人盆友的心路历程：

△ 《谷歌大脑：机器人进化论》

最后，附论文传送门~

QT-Opt: Scalable Deep Reinforcement Learning for Vision-Based Robotic Manipulation

作者：Dmitry Kalashnikov, Alex Irpan, Peter Pastor, Julian Ibarz, Alexander Herzog, Eric Jang, Deirdre Quillen, Ethan Holly, Mrinal Kalakrishnan, Vincent Vanhoucke, Sergey Levine

谷歌博客地址：

https://ai.googleblog.com/2018/06/scalable-deep-reinforcement-learning.html

arXiv：

https://arxiv.org/abs/1806.10293

— 完 —

加入社群

量子位AI社群18群开始招募啦，欢迎对AI感兴趣的同学，加小助手微信qbitbot8入群；

此外，量子位专业细分群(自动驾驶、CV、NLP、机器学习等)正在招募，面向正在从事相关领域的工程师及研究人员。

进群请加小助手微信号qbitbot8，并务必备注相应群的关键词~通过审核后我们将邀请进群。（专业群审核较严，敬请谅解）

诚挚招聘

量子位正在招募编辑/记者，工作地点在北京中关村。期待有才气、有热情的同学加入我们！相关细节，请在量子位公众号(QbitAI)对话界面，回复“招聘”两个字。

量子位 QbitAI · 头条号签约作者

վ'ᴗ' ի 追踪AI技术和产品新动态

登录查看更多

相关内容

Google Brain

关注 19

Google Brain

超越深度学习：梯度提升机Gradient Boosting Machines (GBM)，73页ppt

专知会员服务

52+阅读 · 2020年6月21日

斯坦福2020硬课《分布式算法与优化》

专知会员服务

123+阅读 · 2020年5月6日

谷歌推出量子机器学习框架TFQ-TensorFlow Quantum，一个可训练量子模型的机器学习框架

专知会员服务

34+阅读 · 2020年3月10日

《强化学习—使用 Open AI、TensorFlow和Keras实现》174页pdf

专知会员服务

139+阅读 · 2020年3月1日

【2020必看书】TinyML-微型化机器学习，149页pdf，在超低功耗微控制器上用TensorFlow Lite实现机器学习

专知会员服务

143+阅读 · 2020年2月19日

深度强化学习策略梯度教程，53页ppt

专知会员服务

184+阅读 · 2020年2月1日

【Google Jeff Dean独自署名论文】深度学习革命及其对计算机架构和芯片设计的影响，讲述AI芯片发展历程与未来

专知会员服务

32+阅读 · 2019年12月20日

谷歌机器学习速成课程中文版pdf

专知会员服务

147+阅读 · 2019年12月4日

斯坦福&谷歌Jeff Dean最新Nature论文：医疗深度学习技术指南

专知会员服务

58+阅读 · 2019年10月20日

斯坦福&谷歌Jeff Dean最新Nature论文：医疗深度学习技术指南（29页综述）

专知会员服务

63+阅读 · 2019年1月7日

听完了1000+首古风歌曲，我发现自己也能火

PingWest品玩

4+阅读 · 2019年6月2日

超越Mask-RCNN：谷歌大脑的AI，自己写了个目标检测AI

量子位

3+阅读 · 2019年4月19日

【泡泡机器人公开课预告】秦通-视觉惯导里程计时差的在线标定

泡泡机器人SLAM

8+阅读 · 2018年10月17日

教程 | 如何在Unity环境中用强化学习训练Donkey Car

论智

27+阅读 · 2018年9月13日

深度强化学习入门，这一篇就够了！

机器学习算法与Python学习

28+阅读 · 2018年8月17日

OpenAI邀您体验元学习算法Reptile，一个样本也能准确学习

德先生

9+阅读 · 2018年3月15日

揭秘|国内首台机器人春节大联欢：80多台机器人"演员"抢滩北京电视台

机器人大讲堂

3+阅读 · 2018年1月30日

AutoML—降低机器学习门槛的利器

深度学习

8+阅读 · 2018年1月29日

这个高仿真框架AI2-THOR，想让让强化学习快速走进现实世界

量子位

6+阅读 · 2017年12月16日

LibRec 每周算法：Kaggle竞赛利器之xgboost

LibRec智能推荐

15+阅读 · 2017年8月24日

CURL: Contrastive Unsupervised Representations for Reinforcement Learning

Arxiv

17+阅读 · 2020年4月28日

ALBERT: A Lite BERT for Self-supervised Learning of Language Representations

Arxiv

5+阅读 · 2019年9月26日

Global Deep Learning Methods for Multimodality Isointense Infant Brain Image Segmentation

Arxiv

3+阅读 · 2018年12月10日

Capsule Networks against Medical Imaging Data Challenges

Arxiv

3+阅读 · 2018年7月19日

Test-time augmentation with uncertainty estimation for deep learning-based medical image segmentation

Arxiv

4+阅读 · 2018年7月19日

The Bottleneck Simulator: A Model-based Deep Reinforcement Learning Approach

Arxiv

11+阅读 · 2018年7月12日

Combining Pyramid Pooling and Attention Mechanism for Pelvic MR Image Semantic Segmentaion

Arxiv

8+阅读 · 2018年6月28日

Knowledge-enriched Two-layered Attention Network for Sentiment Analysis

Arxiv

4+阅读 · 2018年6月16日

Working Memory Networks: Augmenting Memory Networks with a Relational Reasoning Module

Arxiv

5+阅读 · 2018年5月23日

Synthetic and Natural Noise Both Break Neural Machine Translation

Arxiv

3+阅读 · 2018年2月24日

VIP会员

谷歌大脑QT-Opt算法，机器人探囊取物成功率96%，Jeff Dean大赞

郭一璞 发自 凹非寺 量子位 报道 | 公众号 QbitAI

7个葫芦娃的4个月修炼

△ 一根藤上7个机器人

学有所成

△ 凌晨4点的北京，Jeff老师发推夸奖自家机器人

会破除阻碍

“筷功”强

随手抓也要分析挑选

抢我的一定抢回来

△ 《谷歌大脑：机器人进化论》

相关内容

郭一璞发自凹非寺
量子位报道 | 公众号 QbitAI