Large reasoning models (LRMs) are typically trained using reinforcement learning with verifiable reward (RLVR) to enhance their reasoning abilities. In this paradigm, policies are updated using both positive and negative self-generated rollouts, which correspond to distinct sample polarities. In this paper, we provide a systematic investigation into how these sample polarities affect RLVR training dynamics and behaviors. We find that positive samples sharpen existing correct reasoning patterns, while negative samples encourage exploration of new reasoning paths. We further explore how adjusting the advantage values of positive and negative samples at both the sample level and the token level affects RLVR training. Based on these insights, we propose an Adaptive and Asymmetric token-level Advantage shaping method for Policy Optimization, namely A3PO, that more precisely allocates advantage signals to key tokens across different polarities. Experiments across five reasoning benchmarks demonstrate the effectiveness of our approach.


翻译:大型推理模型通常采用可验证奖励强化学习进行训练,以提升其推理能力。在该范式中,策略更新同时使用正负两种自生成轨迹,对应着不同的样本极性。本文系统研究了这些样本极性如何影响RLVR训练动态与行为表现。研究发现:正样本能够锐化已有的正确推理模式,而负样本则促进对新推理路径的探索。我们进一步探究了在样本层面和词元层面调整正负样本优势值对RLVR训练的影响。基于这些发现,我们提出了一种面向策略优化的自适应非对称词元级优势塑造方法——A3PO,该方法能够更精准地为不同极性的关键词元分配优势信号。在五个推理基准测试上的实验验证了该方法的有效性。

0
下载
关闭预览

相关内容

【NeurIPS2025】熵正则化与分布强化学习的收敛定理
[ICML2024]消除偏差:微调基础模型以进行半监督学习
专知会员服务
17+阅读 · 2024年5月23日
专知会员服务
29+阅读 · 2020年10月2日
【CVPR 2020 Oral】小样本类增量学习
专知
20+阅读 · 2020年6月26日
国家自然科学基金
17+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
17+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员