项目名称: 基于双时间尺度优化的多机器人策略自适应与一致性

项目编号: No.61473316

项目类型: 面上项目

立项/批准年度: 2015

项目学科: 自动化技术、计算机技术

项目作者: 陈鑫

作者单位: 中国地质大学(武汉)

项目金额: 82万元

中文摘要: 具有探索未知环境和自学习合作行为的能力是实现智能多机器人系统的关键之一,但系统分布式特点和个体的动力学特性使合作行为自学习存在计算复杂度高、泛化困难和工程适用性差等问题。本项目针对这些问题研究基于Similar-POMDP的双时间尺度多机器人优化架构,将多机器人行为优化分解为互为依赖的时变拓扑下一致性最优控制和合作策略优化,从而降低策略学习的空间复杂度;研究保证拓扑连通的分布式多机器人保性能一致性控制方法,保证策略的可实现性;结合一致性性能评价和面向一般指标的逼近动态规划优化方法,设计基于非参数评价器的合作策略优化算法,实现非建模条件下多机器人合作策略的有效泛化和自适应优化;结合图分解和多智能体协同学习,研究合作策略的分布式优化方法,提高模型的工程适用性。项目将从机制上实现分布式策略优化与一致性控制的协同工作,为智能多机器人系统的实现提供解决方案,具有重要理论意义和应用价值。

中文关键词: 多机器人系统;双时间尺度优化;策略自适应;一致性;类部分可观测Markov决策

英文摘要: The abilities of searching unknown environments and learning cooperative policies on line are viewed as the keys to realize intelligent multi-robot systems. However, the decentralized implementation and the complex dynamics of individuals induce high computation complexity, difficult generalization, and poor applicability in practice. Aiming at these problems, the project studies double-time-scale cooperative optimization framework based on Similar-POMDP, in which the multi-robot behavior optimization is reached by the coordination between the cooperative strategy optimization and the consensus optimization control under time-varying topologies. Thus the space complexity of policy learning is reduced significantly. To make the cooperative policies feasible during persistent policy optimization, the distributed consensus protocol using guaranteed cost control is studied in order to ensure topology connected. Then based on the evaluation method for the performance of consensus and the approximate dynamic programming (ADP) for general optimization index, the cooperative policy optimization algorithm with non-parametric critic module is developed, in order to realize efficient generalization and adaptive optimization for cooperative policy under the unknown and unmodeled environments. Using the directed graph decomposition and the multi-agent coordinated learning, the project investigates the decentralized way to realize such cooperative policy optimization, in order to improve feasibility in practice. The project will finally achieve the mechanism of simultaneous cooperative strategy optimization and consensus control. It will serve as the solution to reach intelligence of multiple robot systems under complex environment. The research is of great theoretical significance and application prospects.

英文关键词: Multi-Robot Systems;Double-Time-Scale Optimization;Policy Adaptation;Consensus;Similar-POMDP

成为VIP会员查看完整内容
2

相关内容

【AAAI2022】一种基于状态扰动的鲁棒强化学习算法
专知会员服务
32+阅读 · 2022年1月31日
Kyoto大学Toshiyuki:快速复杂控制系统的实时优化,133页ppt
专知会员服务
19+阅读 · 2021年8月30日
【硬核书】机器人网络分布式控制
专知会员服务
65+阅读 · 2021年7月25日
专知会员服务
22+阅读 · 2021年6月9日
专知会员服务
15+阅读 · 2021年3月4日
专知会员服务
125+阅读 · 2021年2月17日
【AAAI2021】基于双任务一致性的半监督医学图像分割
专知会员服务
30+阅读 · 2021年2月7日
改善机器人模仿学习的决断力
谷歌开发者
0+阅读 · 2022年1月10日
学习抓取柔性物体
TensorFlow
3+阅读 · 2021年7月5日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
6+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
2+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
3+阅读 · 2009年12月31日
国家自然科学基金
42+阅读 · 2009年12月31日
Arxiv
0+阅读 · 2022年5月6日
Arxiv
0+阅读 · 2022年5月3日
小贴士
相关VIP内容
【AAAI2022】一种基于状态扰动的鲁棒强化学习算法
专知会员服务
32+阅读 · 2022年1月31日
Kyoto大学Toshiyuki:快速复杂控制系统的实时优化,133页ppt
专知会员服务
19+阅读 · 2021年8月30日
【硬核书】机器人网络分布式控制
专知会员服务
65+阅读 · 2021年7月25日
专知会员服务
22+阅读 · 2021年6月9日
专知会员服务
15+阅读 · 2021年3月4日
专知会员服务
125+阅读 · 2021年2月17日
【AAAI2021】基于双任务一致性的半监督医学图像分割
专知会员服务
30+阅读 · 2021年2月7日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
6+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
2+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
3+阅读 · 2009年12月31日
国家自然科学基金
42+阅读 · 2009年12月31日
微信扫码咨询专知VIP会员