Autonomous marine vehicles play an essential role in many ocean science and engineering applications. Planning time and energy optimal paths for these vehicles to navigate in stochastic dynamic ocean environments is essential to reduce operational costs. In some missions, they must also harvest solar, wind, or wave energy (modeled as a stochastic scalar field) and move in optimal paths that minimize net energy consumption. Markov Decision Processes (MDPs) provide a natural framework for sequential decision-making for robotic agents in such environments. However, building a realistic model and solving the modeled MDP becomes computationally expensive in large-scale real-time applications, warranting the need for parallel algorithms and efficient implementation. In the present work, we introduce an efficient end-to-end GPU-accelerated algorithm that (i) builds the MDP model (computing transition probabilities and expected one-step rewards); and (ii) solves the MDP to compute an optimal policy. We develop methodical and algorithmic solutions to overcome the limited global memory of GPUs by (i) using a dynamic reduced-order representation of the ocean flows, (ii) leveraging the sparse nature of the state transition probability matrix, (iii) introducing a neighbouring sub-grid concept and (iv) proving that it is sufficient to use only the stochastic scalar field's mean to compute the expected one-step rewards for missions involving energy harvesting from the environment; thereby saving memory and reducing the computational effort. We demonstrate the algorithm on a simulated stochastic dynamic environment and highlight that it builds the MDP model and computes the optimal policy 600-1000x faster than conventional CPU implementations, making it suitable for real-time use.


翻译:自主海运车辆在许多海洋科学和工程应用中发挥着必不可少的作用。规划这些车辆在随机动态海洋环境中航行的时间和能源最佳途径对于降低操作成本至关重要。在有些特派团,它们还必须收获太阳能、风能或波能(制成蒸汽电路),并在最佳途径中最大限度地减少能源净消耗量。Markov 决策程序(MDPs)为此类环境中机器人剂的顺序决策提供了一个自然框架。然而,为这些车辆建造现实模型和解决模型型MDP,在大规模实时应用中计算成本昂贵,需要平行的算法和高效的实施。在目前的工作中,我们引入高效的终端到终端的GPUP-加速算法(制成为蒸汽电动的电动电动电动电算法),建立MDP模型(推算出模型),用以计算模型的最佳政策。我们开发方法和算法解决方案,以克服全球通用电车的有限动态记忆,为此(i) 仅使用动态的降序算法算法和高效的算法算法,从而建立平行的算法算算法,从而推算出海洋流流流流流的精度,从而推推利用一个精度的精度,将精度转换为精度,将精度转换为精度,将精度的精度转换为精度的精度,将精度的精度的精度转化为的精度转化为的精度,将精度转化为的精度转化为的精度,将精度转化为的精度转化为的精度转化为的精度,将精度转化为的精度转化为的精度转化为的精度转化为的精度转化为的精度转化为的精度,将精度,将精度转化为的精度转化为的精度推,将精度转化为的精度推,将精度转化为的精度转化为的精度转化为的精度,将精度转化为的精度转化为的精度转化为的精度转化为的精度转化为的精度转化为的精度转化为的精度转化为的精度转化为的精度转化为的精度转化为的精度转化为的精度转化为的精度转化为的精度转化为的精度转化为的精度转化为的精度转化为的精度转化为的精度转化为的精度转化为的精度转化为的精度转化为的精度转化为的精度转化为的精度转化为的精度的

0
下载
关闭预览

相关内容

Linux导论,Introduction to Linux,96页ppt
专知会员服务
76+阅读 · 2020年7月26日
Fariz Darari简明《博弈论Game Theory》介绍,35页ppt
专知会员服务
106+阅读 · 2020年5月15日
Python分布式计算,171页pdf,Distributed Computing with Python
专知会员服务
105+阅读 · 2020年5月3日
深度强化学习策略梯度教程,53页ppt
专知会员服务
176+阅读 · 2020年2月1日
Stabilizing Transformers for Reinforcement Learning
专知会员服务
57+阅读 · 2019年10月17日
Keras François Chollet 《Deep Learning with Python 》, 386页pdf
专知会员服务
144+阅读 · 2019年10月12日
强化学习最新教程,17页pdf
专知会员服务
168+阅读 · 2019年10月11日
谷歌足球游戏环境使用介绍
CreateAMind
31+阅读 · 2019年6月27日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
spinningup.openai 强化学习资源完整
CreateAMind
6+阅读 · 2018年12月17日
(TensorFlow)实时语义分割比较研究
机器学习研究会
9+阅读 · 2018年3月12日
【论文】变分推断(Variational inference)的总结
机器学习研究会
39+阅读 · 2017年11月16日
【推荐】MXNet深度情感分析实战
机器学习研究会
16+阅读 · 2017年10月4日
强化学习族谱
CreateAMind
26+阅读 · 2017年8月2日
强化学习 cartpole_a3c
CreateAMind
9+阅读 · 2017年7月21日
【今日新增】IEEE Trans.专刊截稿信息8条
Call4Papers
7+阅读 · 2017年6月29日
Arxiv
0+阅读 · 2021年10月24日
Arxiv
4+阅读 · 2021年2月8日
VIP会员
相关VIP内容
相关资讯
谷歌足球游戏环境使用介绍
CreateAMind
31+阅读 · 2019年6月27日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
spinningup.openai 强化学习资源完整
CreateAMind
6+阅读 · 2018年12月17日
(TensorFlow)实时语义分割比较研究
机器学习研究会
9+阅读 · 2018年3月12日
【论文】变分推断(Variational inference)的总结
机器学习研究会
39+阅读 · 2017年11月16日
【推荐】MXNet深度情感分析实战
机器学习研究会
16+阅读 · 2017年10月4日
强化学习族谱
CreateAMind
26+阅读 · 2017年8月2日
强化学习 cartpole_a3c
CreateAMind
9+阅读 · 2017年7月21日
【今日新增】IEEE Trans.专刊截稿信息8条
Call4Papers
7+阅读 · 2017年6月29日
Top
微信扫码咨询专知VIP会员