Proportional-Integral-Derivative (PID) controllers remain the predominant choice in industrial robotics due to their simplicity and reliability. However, manual tuning of PID parameters for diverse robotic platforms is time-consuming and requires extensive domain expertise. This paper presents a novel hierarchical control framework that combines meta-learning for PID initialization and reinforcement learning (RL) for online adaptation. To address the sample efficiency challenge, a \textit{physics-based data augmentation} strategy is introduced that generates virtual robot configurations by systematically perturbing physical parameters, enabling effective meta-learning with limited real robot data. The proposed approach is evaluated on two heterogeneous platforms: a 9-DOF Franka Panda manipulator and a 12-DOF Laikago quadruped robot. Experimental results demonstrate that the proposed method achieves 16.6\% average improvement on Franka Panda (6.26{\deg} MAE), with exceptional gains in high-load joints (J2: 80.4\% improvement from 12.36{\deg} to 2.42{\deg}). Critically, this work discovers the \textit{optimization ceiling effect}: RL achieves dramatic improvements when meta-learning exhibits localized high-error joints, but provides no benefit (0.0\%) when baseline performance is uniformly strong, as observed in Laikago. The method demonstrates robust performance under disturbances (parameter uncertainty: +19.2\%, no disturbance: +16.6\%, average: +10.0\%) with only 10 minutes of training time. Multi-seed analysis across 100 random initializations confirms stable performance (4.81+/-1.64\% average). These results establish that RL effectiveness is highly dependent on meta-learning baseline quality and error distribution, providing important design guidance for hierarchical control systems.


翻译:比例-积分-微分(PID)控制器因其结构简单、可靠性高,在工业机器人领域仍占据主导地位。然而,针对不同机器人平台手动整定PID参数耗时费力,且需要深厚的领域专业知识。本文提出一种新颖的分层控制框架,结合元学习进行PID参数初始化,并利用强化学习(RL)实现在线自适应调整。为应对样本效率挑战,本文引入一种基于物理的数据增强策略,通过系统性地扰动物理参数生成虚拟机器人构型,从而在有限真实机器人数据条件下实现有效的元学习。所提方法在两个异构平台上进行评估:9自由度Franka Panda机械臂与12自由度Laikago四足机器人。实验结果表明,该方法在Franka Panda上实现了16.6%的平均性能提升(平均绝对误差6.26°),其中高负载关节提升尤为显著(关节J2:误差从12.36°降至2.42°,提升80.4%)。本研究关键性地揭示了优化天花板效应:当元学习存在局部高误差关节时,强化学习能带来显著改进;而当基线性能整体均衡时(如Laikago实验所示),强化学习则无增益(0.0%)。该方法在干扰条件下表现出鲁棒性能(参数不确定性场景:+19.2%,无干扰场景:+16.6%,平均提升+10.0%),且仅需10分钟训练时间。基于100次随机初始化的多种子实验分析证实了性能稳定性(平均提升4.81±1.64%)。这些结果表明强化学习的有效性高度依赖于元学习基线质量与误差分布特征,为分层控制系统的设计提供了重要指导。

0
下载
关闭预览

相关内容

用于识别任务的视觉 Transformer 综述
专知会员服务
75+阅读 · 2023年2月25日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员