Large language models (LLMs) trained via KL-regularized reinforcement learning demonstrate strong instruction following, self-correction, and reasoning abilities. Yet their theoretical underpinnings remain limited. We exploit the closed-form energy-based model (EBM) structure of the optimal KL-regularized policy to provide a unified variational analysis of LLMs. For instruction-tuned models, under natural assumptions on reward potentials and pretraining symmetry, we prove that the transition kernel satisfies detailed balance with respect to a scalar potential encoding response quality. This yields monotonic KL convergence to a high-quality stationary distribution, bounded hitting times to superior states, and exponential mixing governed by the spectral gap. For reasoning models trained with verifiable rewards (RLVR), we show the objective is equivalent to expected KL minimization toward an optimal reasoning distribution, with the suboptimality gap reducing to the Bernoulli KL between target and current accuracies along the natural gradient flow. This helps explain empirical entropy-accuracy trade-offs.


翻译:通过KL正则化强化学习训练的大型语言模型展现出强大的指令跟随、自我修正和推理能力,但其理论基础仍显不足。我们利用最优KL正则化策略的闭式能量模型结构,为大型语言模型提供了统一的变分分析框架。对于指令微调模型,在奖励势函数与预训练对称性的自然假设下,我们证明其转移核满足关于编码响应质量的标量势函数的细致平衡条件。这推导出向高质量稳态分布的单调KL收敛性、到达更优状态的有界命中时间,以及由谱隙控制的指数混合速率。对于采用可验证奖励训练的推理模型,我们证明其目标函数等价于向最优推理分布的期望KL最小化过程,其次优性间隙可简化为自然梯度流上目标准确率与当前准确率间的伯努利KL散度。该分析为实证中观察到的熵-准确率权衡现象提供了理论解释。

0
下载
关闭预览

相关内容

专知会员服务
33+阅读 · 2021年7月27日
专知会员服务
29+阅读 · 2020年10月2日
论文浅尝 | Interaction Embeddings for Prediction and Explanation
开放知识图谱
11+阅读 · 2019年2月1日
论文浅尝 | Know-Evolve: Deep Temporal Reasoning for Dynamic KG
开放知识图谱
36+阅读 · 2018年3月30日
语义分割中的深度学习方法全解:从FCN、SegNet到DeepLab
炼数成金订阅号
26+阅读 · 2017年7月10日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
17+阅读 · 2008年12月31日
VIP会员
相关资讯
相关基金
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
17+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员