强化学习模拟水下稳定性,潜水体 15 分钟学会规则

2018 年 6 月 24 日 AI研习社

AI 研习社按:这里是,雷锋字幕组编译的 ICRA 2018 系列,带你了解 机器人与自动化 领域的最新研究成果。

原标题 :Reinforcement Learning of Depth Stabilization with a Micro Diving Agent

翻译 | 张哥华    整理 | 凡江


强化学习是机器人在与环境交互中解决控制问题的方法。本论文中,我们将要学习基于模型值函数的强化学习方法,这种方法适用于部分机器人和光嵌入式系统。

一开始,我们设计了一个潜水体,它利用强化学习来模拟水下的稳定性。我们还利用试验来展示了一个小的潜水体对任务的学习能力,我们将这个潜水体设置成——它的状态被取决于它的深度和速度。

潜水体包含一个固定容量的的储水仓和一个可变容量的储水仓,后者用于驱动本体。

我们对其深度的稳定性的目标是,控制其可变储水容量以维持一个期望的深度。通过强化学习方法来解决这个控制问题,而不需要有系统先验知识或者是有驱动器动力知识。这种方法的挑战在于未知的流体效应,以及缓慢的非线性变化的驱动器动力。体积调整的时间常数与系统的动力匹配,可变容量储水仓相对于固定容量储水仓也是很小的,所以系统的最大控制力和最大约束力也是很小的。

在状态空间中包含了潜水体的深度和速度,这个图表就展示了其状态空间,在目标深度附近的区域决定了算法学习的区域,在这个分布里包含了 101 个状态。在此区域之外的每一个点都被当做是终止状态。

动作空间包含了两部分:一部分是减少可变储水仓的水量来提供浮力,另一部分增加可变储水仓的水量,来让潜水体算法收到一个损失,这个损失会惩罚潜水体,让其向期望的深度移动。除此之外,如果潜水体到达终止状态的位置,为了通过试验验证强化学习算法,一个小潜水体被设计和制造了出来。它的运行时间大约是 90 分钟,非易失性内存是 512 KB。

我们证明了在一个试验中,潜水体是能够从零学习到关于自身稳定性的规则。在左下角的图表中显示了潜水体在学习区域成功学习的运动轨迹。

视频链接:

https://www.youtube.com/watch?v=F7g3K0PXWX4&t=5s

CCF-GAIR 2018 在即,

AI 研习社送福利了!

我们将会为高校学生提供若干张免费门票,只需填写「阅读原文」链接提交表单,就有机会获得价值 3999 元的 CCF-GAIR 2018 大会门票一张。

(PS:请在表单内填写准确的微信号,审核通过后工作人员将通过微信与您取得联系,发放门票)

赠票须知 

➤ 如无特别说明,赠送门票包含三天午餐,不包含住宿等服务;

➤ 活动解释权归雷锋网 AI 研习社所有

➤ 截止日期:6 月 26 日晚 24:00

6 月 29 日至 7 月 1 日,深圳见!

登录查看更多
3

相关内容

强化学习(RL)是机器学习的一个领域,与软件代理应如何在环境中采取行动以最大化累积奖励的概念有关。除了监督学习和非监督学习外,强化学习是三种基本的机器学习范式之一。 强化学习与监督学习的不同之处在于,不需要呈现带标签的输入/输出对,也不需要显式纠正次优动作。相反,重点是在探索(未知领域)和利用(当前知识)之间找到平衡。 该环境通常以马尔可夫决策过程(MDP)的形式陈述,因为针对这种情况的许多强化学习算法都使用动态编程技术。经典动态规划方法和强化学习算法之间的主要区别在于,后者不假设MDP的确切数学模型,并且针对无法采用精确方法的大型MDP。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等
【ACL2020】利用模拟退火实现无监督复述
专知会员服务
13+阅读 · 2020年5月26日
多智能体深度强化学习的若干关键科学问题
专知会员服务
171+阅读 · 2020年5月24日
最新《经济学中的强化学习》2020大综述,42页pdf128篇文献
深度强化学习策略梯度教程,53页ppt
专知会员服务
175+阅读 · 2020年2月1日
【强化学习】深度强化学习初学者指南
专知会员服务
178+阅读 · 2019年12月14日
MIT新书《强化学习与最优控制》
专知会员服务
269+阅读 · 2019年10月9日
专知会员服务
198+阅读 · 2019年8月30日
使用强化学习训练机械臂完成人类任务
AI研习社
13+阅读 · 2019年3月23日
Meta-Learning 元学习:学会快速学习
GAN生成式对抗网络
19+阅读 · 2018年12月8日
强化学习十大原则
专知
11+阅读 · 2018年9月17日
【强化学习】强化学习/增强学习/再励学习介绍
产业智能官
10+阅读 · 2018年2月23日
Arxiv
3+阅读 · 2018年3月2日
VIP会员
相关VIP内容
【ACL2020】利用模拟退火实现无监督复述
专知会员服务
13+阅读 · 2020年5月26日
多智能体深度强化学习的若干关键科学问题
专知会员服务
171+阅读 · 2020年5月24日
最新《经济学中的强化学习》2020大综述,42页pdf128篇文献
深度强化学习策略梯度教程,53页ppt
专知会员服务
175+阅读 · 2020年2月1日
【强化学习】深度强化学习初学者指南
专知会员服务
178+阅读 · 2019年12月14日
MIT新书《强化学习与最优控制》
专知会员服务
269+阅读 · 2019年10月9日
专知会员服务
198+阅读 · 2019年8月30日
相关资讯
Top
微信扫码咨询专知VIP会员