强化学习模拟水下稳定性，潜水体 15 分钟学会规则 - 专知

会员服务 ·

0

强化学习模拟水下稳定性，潜水体 15 分钟学会规则

2018 年 6 月 24 日 AI研习社

AI 研习社按：这里是，雷锋字幕组编译的 ICRA 2018 系列，带你了解机器人与自动化领域的最新研究成果。

原标题：Reinforcement Learning of Depth Stabilization with a Micro Diving Agent

翻译 | 张哥华整理 | 凡江

强化学习是机器人在与环境交互中解决控制问题的方法。本论文中，我们将要学习基于模型值函数的强化学习方法，这种方法适用于部分机器人和光嵌入式系统。

一开始，我们设计了一个潜水体，它利用强化学习来模拟水下的稳定性。我们还利用试验来展示了一个小的潜水体对任务的学习能力，我们将这个潜水体设置成——它的状态被取决于它的深度和速度。

潜水体包含一个固定容量的的储水仓和一个可变容量的储水仓，后者用于驱动本体。

我们对其深度的稳定性的目标是，控制其可变储水容量以维持一个期望的深度。通过强化学习方法来解决这个控制问题，而不需要有系统先验知识或者是有驱动器动力知识。这种方法的挑战在于未知的流体效应，以及缓慢的非线性变化的驱动器动力。体积调整的时间常数与系统的动力匹配，可变容量储水仓相对于固定容量储水仓也是很小的，所以系统的最大控制力和最大约束力也是很小的。

在状态空间中包含了潜水体的深度和速度，这个图表就展示了其状态空间，在目标深度附近的区域决定了算法学习的区域，在这个分布里包含了 101 个状态。在此区域之外的每一个点都被当做是终止状态。

动作空间包含了两部分：一部分是减少可变储水仓的水量来提供浮力，另一部分增加可变储水仓的水量，来让潜水体算法收到一个损失，这个损失会惩罚潜水体，让其向期望的深度移动。除此之外，如果潜水体到达终止状态的位置，为了通过试验验证强化学习算法，一个小潜水体被设计和制造了出来。它的运行时间大约是 90 分钟，非易失性内存是 512 KB。

我们证明了在一个试验中，潜水体是能够从零学习到关于自身稳定性的规则。在左下角的图表中显示了潜水体在学习区域成功学习的运动轨迹。

视频链接：

https://www.youtube.com/watch?v=F7g3K0PXWX4&t=5s

CCF-GAIR 2018 在即，

AI 研习社送福利了！

我们将会为高校学生提供若干张免费门票，只需填写「阅读原文」链接提交表单，就有机会获得价值 3999 元的 CCF-GAIR 2018 大会门票一张。

（PS：请在表单内填写准确的微信号，审核通过后工作人员将通过微信与您取得联系，发放门票）

赠票须知

➤ 如无特别说明，赠送门票包含三天午餐，不包含住宿等服务；

➤ 活动解释权归雷锋网 AI 研习社所有

➤ 截止日期：6 月 26 日晚 24:00

6 月 29 日至 7 月 1 日，深圳见！

登录查看更多

3

相关内容

强化学习

强化学习（RL）是机器学习的一个领域，与软件代理应如何在环境中采取行动以最大化累积奖励的概念有关。除了监督学习和非监督学习外，强化学习是三种基本的机器学习范式之一。强化学习与监督学习的不同之处在于，不需要呈现带标签的输入/输出对，也不需要显式纠正次优动作。相反，重点是在探索（未知领域）和利用（当前知识）之间找到平衡。该环境通常以马尔可夫决策过程（MDP）的形式陈述，因为针对这种情况的许多强化学习算法都使用动态编程技术。经典动态规划方法和强化学习算法之间的主要区别在于，后者不假设MDP的确切数学模型，并且针对无法采用精确方法的大型MDP。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等

【ICML2020-天津大学】多智能体深度强化学习中的Q值路径分解

【ICML2020-天津大学】多智能体深度强化学习中的Q值路径分解

专知会员服务

81+阅读 · 2020年7月2日

【ACL2020】利用模拟退火实现无监督复述

【ACL2020】利用模拟退火实现无监督复述

专知会员服务

14+阅读 · 2020年5月26日

多智能体深度强化学习的若干关键科学问题

多智能体深度强化学习的若干关键科学问题

专知会员服务

193+阅读 · 2020年5月24日

最新《经济学中的强化学习》2020大综述，42页pdf128篇文献

最新《经济学中的强化学习》2020大综述，42页pdf128篇文献

专知会员服务

120+阅读 · 2020年4月6日

深度强化学习策略梯度教程，53页ppt

深度强化学习策略梯度教程，53页ppt

专知会员服务

184+阅读 · 2020年2月1日

【2019机器学习大总结】机器学习和机器人:我的2019年领域状态

【2019机器学习大总结】机器学习和机器人:我的2019年领域状态

专知会员服务

54+阅读 · 2019年12月31日

【强化学习】深度强化学习初学者指南

【强化学习】深度强化学习初学者指南

专知会员服务

182+阅读 · 2019年12月14日

【Pieter Abbeel 报告@CMU】元学习与深度强化学习机器人应用，Deep Learning to Learn，84页ppt

【Pieter Abbeel 报告@CMU】元学习与深度强化学习机器人应用，Deep Learning to Learn，84页ppt

专知会员服务

32+阅读 · 2019年10月12日

MIT新书《强化学习与最优控制》

MIT新书《强化学习与最优控制》

专知会员服务

280+阅读 · 2019年10月9日

【综述】多智能体深度强化学习综述，附49页PDF

专知会员服务

213+阅读 · 2019年8月30日

【泡泡一分钟】一种自监督学习遮挡的方法来提高城市环境中单目视觉里程计的鲁棒性

【泡泡一分钟】一种自监督学习遮挡的方法来提高城市环境中单目视觉里程计的鲁棒性

泡泡机器人SLAM

6+阅读 · 2019年6月19日

使用强化学习训练机械臂完成人类任务

使用强化学习训练机械臂完成人类任务

AI研习社

13+阅读 · 2019年3月23日

伯克利《深度强化学习》更新 | 第四讲：强化学习简介

伯克利《深度强化学习》更新 | 第四讲：强化学习简介

AI研习社

5+阅读 · 2019年3月22日

干货 | 强化学习中，如何从稀疏和不明确的反馈中学习泛化

干货 | 强化学习中，如何从稀疏和不明确的反馈中学习泛化

AI科技评论

7+阅读 · 2019年3月1日

Meta-Learning 元学习：学会快速学习

Meta-Learning 元学习：学会快速学习

GAN生成式对抗网络

20+阅读 · 2018年12月8日

强化学习十大原则

强化学习十大原则

专知

12+阅读 · 2018年9月17日

论强化学习和概率推断的等价性：一种全新概率模型

论强化学习和概率推断的等价性：一种全新概率模型

机器之心

25+阅读 · 2018年5月5日

【强化学习】强化学习/增强学习/再励学习介绍

【强化学习】强化学习/增强学习/再励学习介绍

产业智能官

10+阅读 · 2018年2月23日

【泡泡一分钟】基于深度增强学习的目标驱动式室内场景视觉导航（ICRA-21）

【泡泡一分钟】基于深度增强学习的目标驱动式室内场景视觉导航（ICRA-21）

泡泡机器人SLAM

6+阅读 · 2018年1月11日

无需奖励机制，伯克利的“反向课程”让强化学习更智能

无需奖励机制，伯克利的“反向课程”让强化学习更智能

论智

7+阅读 · 2017年12月25日

A Survey on Trajectory Data Management, Analytics, and Learning

A Survey on Trajectory Data Management, Analytics, and Learning

Arxiv

16+阅读 · 2020年3月25日

Learning to Learn and Predict: A Meta-Learning Approach for Multi-Label Classification

Learning to Learn and Predict: A Meta-Learning Approach for Multi-Label Classification

Arxiv

17+阅读 · 2019年9月9日

Learn What Not to Learn: Action Elimination with Deep Reinforcement Learning

Learn What Not to Learn: Action Elimination with Deep Reinforcement Learning

Arxiv

5+阅读 · 2018年9月6日

Improving Information Extraction from Images with Learned Semantic Models

Improving Information Extraction from Images with Learned Semantic Models

Arxiv

6+阅读 · 2018年8月27日

The Bottleneck Simulator: A Model-based Deep Reinforcement Learning Approach

The Bottleneck Simulator: A Model-based Deep Reinforcement Learning Approach

Arxiv

11+阅读 · 2018年7月12日

One-at-a-time: A Meta-Learning Recommender-System for Recommendation-Algorithm Selection on Micro Level

Arxiv

3+阅读 · 2018年5月30日

CoupleNet: Paying Attention to Couples with Coupled Attention for Relationship Recommendation

Arxiv

4+阅读 · 2018年5月29日

Baselines and test data for cross-lingual inference

Arxiv

3+阅读 · 2018年3月2日

Differentiable Dynamic Programming for Structured Prediction and Attention

Arxiv

56+阅读 · 2018年2月20日

Analyzing Language Learned by an Active Question Answering Agent

Arxiv

6+阅读 · 2018年1月23日

VIP会员

相关主题

相关VIP内容

【ICML2020-天津大学】多智能体深度强化学习中的Q值路径分解

【ICML2020-天津大学】多智能体深度强化学习中的Q值路径分解

专知会员服务

81+阅读 · 2020年7月2日

【ACL2020】利用模拟退火实现无监督复述

【ACL2020】利用模拟退火实现无监督复述

专知会员服务

14+阅读 · 2020年5月26日

多智能体深度强化学习的若干关键科学问题

多智能体深度强化学习的若干关键科学问题

专知会员服务

193+阅读 · 2020年5月24日

最新《经济学中的强化学习》2020大综述，42页pdf128篇文献

最新《经济学中的强化学习》2020大综述，42页pdf128篇文献

专知会员服务

120+阅读 · 2020年4月6日

深度强化学习策略梯度教程，53页ppt

深度强化学习策略梯度教程，53页ppt

专知会员服务

184+阅读 · 2020年2月1日

【2019机器学习大总结】机器学习和机器人:我的2019年领域状态

【2019机器学习大总结】机器学习和机器人:我的2019年领域状态

专知会员服务

54+阅读 · 2019年12月31日

【强化学习】深度强化学习初学者指南

【强化学习】深度强化学习初学者指南

专知会员服务

182+阅读 · 2019年12月14日

【Pieter Abbeel 报告@CMU】元学习与深度强化学习机器人应用，Deep Learning to Learn，84页ppt

【Pieter Abbeel 报告@CMU】元学习与深度强化学习机器人应用，Deep Learning to Learn，84页ppt

专知会员服务

32+阅读 · 2019年10月12日

MIT新书《强化学习与最优控制》

MIT新书《强化学习与最优控制》

专知会员服务

280+阅读 · 2019年10月9日

【综述】多智能体深度强化学习综述，附49页PDF

专知会员服务

213+阅读 · 2019年8月30日

热门VIP内容

开通专知VIP会员享更多权益服务

新质生成式AI赋能产业变革的实践与路径

用于多模态大模型的离散标记化：全面综述

Nature综述：金融网络中的物理学

【CMU博士论文】通信高效且差分隐私的优化方法

相关资讯

【泡泡一分钟】一种自监督学习遮挡的方法来提高城市环境中单目视觉里程计的鲁棒性

【泡泡一分钟】一种自监督学习遮挡的方法来提高城市环境中单目视觉里程计的鲁棒性

泡泡机器人SLAM

6+阅读 · 2019年6月19日

使用强化学习训练机械臂完成人类任务

使用强化学习训练机械臂完成人类任务

AI研习社

13+阅读 · 2019年3月23日

伯克利《深度强化学习》更新 | 第四讲：强化学习简介

伯克利《深度强化学习》更新 | 第四讲：强化学习简介

AI研习社

5+阅读 · 2019年3月22日

干货 | 强化学习中，如何从稀疏和不明确的反馈中学习泛化

干货 | 强化学习中，如何从稀疏和不明确的反馈中学习泛化

AI科技评论

7+阅读 · 2019年3月1日

Meta-Learning 元学习：学会快速学习

Meta-Learning 元学习：学会快速学习

GAN生成式对抗网络

20+阅读 · 2018年12月8日

强化学习十大原则

强化学习十大原则

专知

12+阅读 · 2018年9月17日

论强化学习和概率推断的等价性：一种全新概率模型

论强化学习和概率推断的等价性：一种全新概率模型

机器之心

25+阅读 · 2018年5月5日

【强化学习】强化学习/增强学习/再励学习介绍

【强化学习】强化学习/增强学习/再励学习介绍

产业智能官

10+阅读 · 2018年2月23日

【泡泡一分钟】基于深度增强学习的目标驱动式室内场景视觉导航（ICRA-21）

【泡泡一分钟】基于深度增强学习的目标驱动式室内场景视觉导航（ICRA-21）

泡泡机器人SLAM

6+阅读 · 2018年1月11日

无需奖励机制，伯克利的“反向课程”让强化学习更智能

无需奖励机制，伯克利的“反向课程”让强化学习更智能

论智

7+阅读 · 2017年12月25日

相关论文

A Survey on Trajectory Data Management, Analytics, and Learning

A Survey on Trajectory Data Management, Analytics, and Learning

Arxiv

16+阅读 · 2020年3月25日

Learning to Learn and Predict: A Meta-Learning Approach for Multi-Label Classification

Learning to Learn and Predict: A Meta-Learning Approach for Multi-Label Classification

Arxiv

17+阅读 · 2019年9月9日

Learn What Not to Learn: Action Elimination with Deep Reinforcement Learning

Learn What Not to Learn: Action Elimination with Deep Reinforcement Learning

Arxiv

5+阅读 · 2018年9月6日

Improving Information Extraction from Images with Learned Semantic Models

Improving Information Extraction from Images with Learned Semantic Models

Arxiv

6+阅读 · 2018年8月27日

The Bottleneck Simulator: A Model-based Deep Reinforcement Learning Approach

The Bottleneck Simulator: A Model-based Deep Reinforcement Learning Approach

Arxiv

11+阅读 · 2018年7月12日

One-at-a-time: A Meta-Learning Recommender-System for Recommendation-Algorithm Selection on Micro Level

Arxiv

3+阅读 · 2018年5月30日

CoupleNet: Paying Attention to Couples with Coupled Attention for Relationship Recommendation

Arxiv

4+阅读 · 2018年5月29日

Baselines and test data for cross-lingual inference

Arxiv

3+阅读 · 2018年3月2日

Differentiable Dynamic Programming for Structured Prediction and Attention

Arxiv

56+阅读 · 2018年2月20日

Analyzing Language Learned by an Active Question Answering Agent

Arxiv

6+阅读 · 2018年1月23日

大家都在搜

大型语言模型

国防科技创新

久别重逢话双塔

无人机航拍交通事故现场勘查处置系统——行业第一的警用事故处理软件

微信扫码咨询专知VIP会员