Recent advances in reasoning with large language models (LLMs) have shown the effectiveness of Monte Carlo Tree Search (MCTS) for generating high quality intermediate trajectories, particularly in math and symbolic domains. Inspired by this, we explore how MCTS derived trajectories, traditionally used for training value or reward models, can be repurposed to improve policy optimization in verifier guided reinforcement learning (RL). Specifically, we focus on Group Relative Policy Optimization (GRPO), a recent algorithm that enables consistent policy learning from group relative judgments. We reframe GRPO into a staged training paradigm, leveraging a teacher's MCTS rollouts to construct a tree structured curriculum of prefixes. This introduces the novel challenge of computing advantages for training samples that originate from different prefixes, each with a distinct expected return. To address this, we propose Staged Advantage Estimation (SAE), a framework for computing low variance, prefix aware advantages by projecting rewards onto a constraint set that respects the tree's hierarchy. Our empirical results on mathematical reasoning tasks show that SAE improves final accuracy over standard GRPO. This outcome is grounded in our theoretical analysis, which confirms that SAE reduces gradient variance, a principled path to improved sample efficiency. We demonstrate this through practical SAE implementations, comparing efficient heuristics against a formal quadratic program.


翻译:近期在大语言模型推理方面的进展表明,蒙特卡洛树搜索在生成高质量中间轨迹方面具有显著效果,尤其在数学与符号领域。受此启发,我们探讨了如何将传统上用于训练价值或奖励模型的MCTS衍生轨迹,重新用于改进验证器引导的强化学习中的策略优化。具体而言,我们聚焦于组相对策略优化这一近期提出的算法,该算法能够从组相对判断中实现一致的策略学习。我们将GRPO重构为一个分阶段训练范式,利用教师模型的MCTS推演来构建一个树状结构的前缀课程。这引入了一个新的挑战:如何为源自不同前缀(每个前缀具有不同的期望回报)的训练样本计算优势函数。为解决此问题,我们提出了分阶段优势估计框架,通过将奖励投影到尊重树层次结构的约束集上,来计算低方差、前缀感知的优势函数。我们在数学推理任务上的实证结果表明,SAE相比标准GRPO提高了最终准确率。这一结果基于我们的理论分析,该分析证实SAE能够降低梯度方差,从而为提升样本效率提供了理论依据。我们通过实际的SAE实现验证了这一点,并比较了高效启发式方法与正式二次规划方案的性能。

0
下载
关闭预览

相关内容

【ICML2024】TIMEX++: 通过信息瓶颈学习时间序列解释
专知会员服务
17+阅读 · 2024年5月16日
UTC: 用于视觉对话的任务间对比学习的统一Transformer
专知会员服务
14+阅读 · 2022年5月4日
图机器学习 2.2-2.4 Properties of Networks, Random Graph
图与推荐
10+阅读 · 2020年3月28日
MNIST入门:贝叶斯方法
Python程序员
23+阅读 · 2017年7月3日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
相关资讯
图机器学习 2.2-2.4 Properties of Networks, Random Graph
图与推荐
10+阅读 · 2020年3月28日
MNIST入门:贝叶斯方法
Python程序员
23+阅读 · 2017年7月3日
相关基金
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员