Direct Preference Optimization (DPO) and its variants have become standard for aligning Large Language Models due to their simplicity and offline stability. However, we identify two fundamental limitations. First, the optimal policy depends on arbitrary modeling choices (scalarization function, reference policy), yielding behavior reflecting parameterization artifacts rather than true preferences. Second, treating response generation in isolation fails to leverage comparative information in pairwise data, leaving the model's capacity for intrinsic self-reflection untapped. To address it, we propose Intrinsic Self-reflective Preference Optimization (\q), deriving a globally optimal policy conditioning on both context and alternative responses. We prove this formulation superior to DPO/RLHF while guaranteeing invariance to scalarization and reference choices. \q~serves as a plug-and-play enhancement without architectural changes or inference overhead. Experiments demonstrate consistent improvements in win rates and length-controlled metrics, validating that unlocking self-reflection yields more robust, human-aligned LLMs.


翻译:直接偏好优化(DPO)及其变体因其简洁性和离线稳定性,已成为对齐大语言模型的标准方法。然而,我们发现了两个根本性局限:首先,最优策略依赖于任意建模选择(标量化函数、参考策略),导致其行为反映的是参数化伪影而非真实偏好;其次,孤立处理响应生成未能利用成对数据中的比较信息,使得模型内在的自反思能力未被开发。为此,我们提出内在自反思偏好优化(InSPO),推导出同时以上下文和备选响应为条件的全局最优策略。我们证明该公式在保证对标量化和参考选择具有不变性的同时,性能优于DPO/RLHF。InSPO可作为即插即用模块,无需改变架构或增加推理开销。实验结果表明,该方法在胜率和长度控制指标上均取得稳定提升,验证了解锁自反思能力能够产生更鲁棒、更符合人类价值观的大语言模型。

0
下载
关闭预览

相关内容

【NeurIPS2024】IPO: 面向视觉-语言模型的可解释提示优化
专知会员服务
22+阅读 · 2024年10月23日
CosFace: Large Margin Cosine Loss for Deep Face Recognition论文笔记
统计学习与视觉计算组
44+阅读 · 2018年4月25日
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员