Policy gradient methods for large language models optimize a surrogate objective computed from samples of a rollout policy $π_{\text{roll}}$. When $π_{\text{roll}} \ne π_θ$, there is approximation error between the surrogate and the true objective. Prior work has shown that this off-policy mismatch is unavoidable in modern LLM-RL due to implementation divergence, mixture-of-experts routing discontinuities, and distributed training staleness. Classical trust region bounds on the resulting error scale as $O(T^2)$ with sequence length $T$, rendering them vacuous for long-horizon tasks. We derive two tighter bounds: a Pinsker-Marginal bound scaling as $O(T^{3/2})$ and a Mixed bound scaling as $O(T)$. Crucially, both bounds depend on $D_{kl}^{tok,max}$ -- the maximum token-level KL divergence across all positions in a sequence. This is inherently a sequence-level quantity: it requires examining the entire trajectory to compute, and therefore cannot be controlled by token-independent methods like PPO clipping. We propose Trust Region Masking (TRM), which excludes entire sequences from gradient computation if any token violates the trust region, providing the first non-vacuous monotonic improvement guarantees for long-horizon LLM-RL.


翻译:针对大型语言模型的策略梯度方法通过从滚动策略$π_{\text{roll}}$的采样样本中计算替代目标函数进行优化。当$π_{\text{roll}} \ne π_θ$时,替代目标与真实目标之间存在近似误差。先前研究表明,由于实现差异、专家混合路由不连续性以及分布式训练滞后性,这种离策略失配在现代LLM-RL中不可避免。经典信任区域方法对由此产生误差的约束随序列长度$T$按$O(T^2)$缩放,导致其在长视野任务中失去实际意义。本文推导出两个更紧致的约束界:按$O(T^{3/2})$缩放的Pinsker-边际界和按$O(T)$缩放的混合界。关键在于,这两个约束界均依赖于$D_{kl}^{tok,max}$——即序列中所有位置上最大令牌级KL散度。这本质上是一个序列级量值:需要检查整个轨迹才能计算,因此无法通过PPO裁剪等令牌无关方法进行控制。我们提出信任区域掩码方法,该方法在任意令牌违反信任区域时,将整个序列排除在梯度计算之外,从而为长视野LLM-RL首次提供了非平凡单调改进保证。

0
下载
关闭预览

相关内容

数学上,序列是被排成一列的对象(或事件);这样每个元素不是在其他元素之前,就是在其他元素之后。这里,元素之间的顺序非常重要。
专知会员服务
30+阅读 · 2021年5月20日
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员