The primary obstacle for applying reinforcement learning (RL) to real-world robotics is the design of effective reward functions. While recently learning-based Process Reward Models (PRMs) are a promising direction, they are often hindered by two fundamental limitations: their reward models lack step-aware understanding and rely on single-view perception, leading to unreliable assessments of fine-grained manipulation progress; and their reward shaping procedures are theoretically unsound, often inducing a semantic trap that misguides policy optimization. To address these, we introduce Dopamine-Reward, a novel reward modeling method for learning a general-purpose, step-aware process reward model from multi-view inputs. At its core is our General Reward Model (GRM), trained on a vast 3,400+ hour dataset, which leverages Step-wise Reward Discretization for structural understanding and Multi-Perspective Reward Fusion to overcome perceptual limitations. Building upon Dopamine-Reward, we propose Dopamine-RL, a robust policy learning framework that employs a theoretically-sound Policy-Invariant Reward Shaping method, which enables the agent to leverage dense rewards for efficient self-improvement without altering the optimal policy, thereby fundamentally avoiding the semantic trap. Extensive experiments across diverse simulated and real-world tasks validate our approach. GRM achieves state-of-the-art accuracy in reward assessment, and Dopamine-RL built on GRM significantly improves policy learning efficiency. For instance, after GRM is adapted to a new task in a one-shot manner from a single expert trajectory, the resulting reward model enables Dopamine-RL to improve the policy from near-zero to 95% success with only 150 online rollouts (approximately 1 hour of real robot interaction), while retaining strong generalization across tasks. Project website: https://robo-dopamine.github.io


翻译:将强化学习应用于现实世界机器人技术的主要障碍在于设计有效的奖励函数。虽然近期基于学习的工序奖励模型是一个有前景的方向,但它们通常受到两个基本限制的阻碍:其奖励模型缺乏步骤感知理解能力并依赖单视角感知,导致对细粒度操作进度的评估不可靠;其奖励塑形过程在理论上不健全,常常引发误导策略优化的语义陷阱。为解决这些问题,我们提出了Dopamine-Reward,一种从多视角输入学习通用、步骤感知工序奖励模型的新方法。其核心是我们的通用奖励模型,该模型在超过3400小时的大规模数据集上训练,利用步骤级奖励离散化实现结构化理解,并采用多视角奖励融合来克服感知局限。基于Dopamine-Reward,我们进一步提出了Dopamine-RL,一个稳健的策略学习框架。该框架采用理论上健全的策略不变奖励塑形方法,使智能体能够利用密集奖励进行高效自我改进,同时不改变最优策略,从而从根本上避免了语义陷阱。在多样化的模拟和现实任务上进行的大量实验验证了我们的方法。GRM在奖励评估准确率上达到了最先进水平,而基于GRM构建的Dopamine-RL则显著提升了策略学习效率。例如,当GRM通过单次从一条专家轨迹适应新任务后,所得的奖励模型能使Dopamine-RL仅用150次在线推演(约1小时真实机器人交互)就将策略成功率从接近零提升至95%,并在任务间保持了强大的泛化能力。项目网站:https://robo-dopamine.github.io

0
下载
关闭预览

相关内容

论文浅尝 | GEOM-GCN: Geometric Graph Convolutional Networks
开放知识图谱
14+阅读 · 2020年4月8日
图机器学习 2.2-2.4 Properties of Networks, Random Graph
图与推荐
10+阅读 · 2020年3月28日
国家自然科学基金
17+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
16+阅读 · 2013年12月31日
VIP会员
相关基金
国家自然科学基金
17+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
16+阅读 · 2013年12月31日
Top
微信扫码咨询专知VIP会员