编写机器人程序仍然是出了名的困难。让机器人具备学习的能力,就可以绕过那些通常需要耗费大量时间来完成特定任务的编程工作。这个演讲将描述最近在深度强化学习(机器人通过自己的尝试和错误学习)、学徒学习(机器人通过观察人学习)和元学习(机器人学习学习)方面的进展。这项工作使机器人在操作、移动和飞行方面有了新的能力,这些领域的进步都是基于相同的方法。

https://www.youtube.com/watch?v=WGza-jN4CZs

成为VIP会员查看完整内容
13+
0+

相关内容

强化学习 (Reinforcement learning) 是受到行为心理学启发,机器学习中研究个体 (agent) 如何在环境中采取行动以最大化奖赏 (reward) 的领域。 这一问题由于其普遍性,在许多领域中都有研究,例如博弈论,控制论,运筹学,信息论等等。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等

主题: Machine Learning Interviews

目录:

  • 机器学习工作
  • 在机器学习行业得到一份工作
  • 了解面试官的心态
  • 面试过程
  • 招聘渠道

嘉宾介绍: Chip Huyen,一位来自越南的作家和计算机科学家,总部位于硅谷。毕业于斯坦福大学(Stanford University),获得计算机科学学士和硕士学位。在那里,创建并教授了用于深入学习研究的TensorFlow课程。长期从事人工智能研究,是机器学习领域专家级人物,在研究过程中,主张机器学习要面向实践,面向实际,立志解决当前问题,AI必须要有商业驱动,方能足够长远的发展。https://huyenchip.com/

成为VIP会员查看完整内容
10+
0+

指南简介

最近神经网络在计算机视觉、机器翻译和时间序列预测等问题上得到了重大突破,但它们也可以与强化学习算法相结合,创造出像AlphaGo这样令人震惊的东西。强化学习指的是面向目标的算法,它学习如何获得复杂的目标(目标)或在许多步骤中沿着特定的维度最大化;例如,在许多动作中最大化在游戏中赢得的分数。他们可以从一块白板开始,在适当的条件下,他们可以达到超人的表现。就像一个被鞭打和糖果激励的孩子,当他们做出错误的决定时,这些算法会受到惩罚,当他们做出正确的决定时,这些算法会得到奖励——这就是强化。包含深度学习的强化算法可以在围棋游戏中击败世界冠军,也可以在玩许多阿塔里电子游戏的人类专家。虽然这听起来微不足道,但与他们之前的成就相比,这是一个巨大的进步,目前的技术正在迅速进步。强化学习解决了将即时行为与其产生的延迟回报关联起来的难题。与人类一样,强化学习算法有时需要等待一段时间才能看到决策的成果。它们在延迟返回的环境中运行,在这种环境中,很难理解在许多时间步骤中哪些操作会导致哪些结果。强化学习算法可以期望在更模糊、真实的环境中执行得越来越好,同时可以从任意数量的可能动作中进行选择,而不是从视频游戏的有限选项中进行选择。也就是说,随着时间的推移,我们期望它们对实现现实世界中的目标是有价值的。Skymind将深度强化学习应用于真实世界用例的模拟,以帮助企业优化他们如何建立工厂、员工呼叫中心、建立仓库和供应链以及管理流量。

内容目录

  • 强化学习定义
  • 强化学习的领域选择
  • 状态-行为对&报酬的复概率分布
  • 机器学习与时间的关系
  • 神经网络与深度强化学习
  • 模拟与深度强化学习
  • 脚注
成为VIP会员查看完整内容
A Beginner's Guide to Deep Reinforcement Learning _ Pathmind.pdf
27+
0+

报告简介: 深度强化学习与元学习是当前研究热点。加州大学UC Berkeley Pieter Abbeel教授最新在卡内基梅隆大学CMU中做了演讲关于深度强化学习在机器人的应用,《Deep Learning to learn》,是了解深度学习在机器人应用研究进展的很好报告。

嘉宾介绍: Pieter Abbeel,加州大学伯克利分校教授、机器人学习实验室主任,伯克利人工智能研究(BAIR)实验室联合主任。Pieter Abbeel是机器人和强化学习领域的大牛。Pieter Abbeel 2008年从斯坦福大学获得博士学位,师从百度前首席科学家 Andrew Ng(吴恩达),毕业后在UC Berkeley任教。Pieter Abbeel还是两家AI公司的创始人,Gradescope和covariant.ai。Gradescope开发为家庭作业、课题研究、试卷等打分的AI系统;covariant.ai开发机器人自动化的AI系统,在制造/仓储/电子商务/物流等领域应用。 Pieter Abbeel 的研究重点特别集中于如何让机器人向人类学习(学徒学习),如何让机器人通过自己的试错过程学习(强化学习),以及如何通过从learning-to-learn(元学习)过程中加快技能获取。他开发的机器人已经学会了先进的直升机特技飞行、打结、基本装配、叠衣服、移动、以及基于视觉的机器人操作。

下载链接: 链接:https://pan.baidu.com/s/1aFOE18rk-icczXBYJERWow 提取码:8ixa

成为VIP会员查看完整内容
12+
0+

机器人在社会上有很多应用,比如今年双十一我们明显感到快递变得更快了!这背后就有分拣机器人的功劳~ 除此之外,机器人在搜救,太空探索,手术等很多方面都有应用。而为了让机器人能够更好地服务于人类,让机器模仿人的行为,并变得更加智能必不可少。

来自斯坦福与Google Research的Chelsea Finn为我们介绍了面向机器人的机器学习。

《Machine Learning for Robots》教程的内容

  • 基本知识与模仿学习:物体分类是一个监督学习的任务,处理的是独立同分布的数据,因此能够取得较好的结果。但是物体生产是一个序列决策任务,决策会影响到下一步的状态。模仿学习又称“行为克隆”,它很简单,但是需要人类的监督信息,并且天花板就是人类。并且,由于它的错误是累积的,可能每一步差之毫厘,最终结果就会失之千里。

  • 基于模型的强化学习:基于模型的强化学习有几种实现方式。1. 随机采样,动态训练,优点是简单,但是缺点也很明显,会遇到分布不匹配的问题。2. 迭代地采样,逐步优化模型。优点是解决了分布不匹配的问题。3. 使用MPC迭代的采样,优点是对小的模型的错误鲁棒,缺点是计算复杂。

  • 输入为图片的基于模型的强化学习:如果反馈信号为高维数据(如图片)时,基于模型的强化学习主要有两种方案:在隐空间学习,即学习反馈信号的表示,然后在隐空间做基于模型的强化学习(基于概率的方法、结构化方法(空间或者以物体为中心的结构化表示));直接在观察空间学习:使用深度学习,预测可能得到的反馈信号(视频),再与实际的反馈信号相比,最小化。

  • 机器人学习的一些挑战:理解和转化一些复杂的命令;新环境的适应性;收集大量数据并从中学习。

PPT下载链接:https://pan.baidu.com/s/1-zqrWBUrXCVMrj0d3EPTkQ 提取码:4jta

成为VIP会员查看完整内容
5+
0+
Top