尽管 直接偏好优化(Direct Preference Optimization, DPO) 在对齐大语言模型(LLMs)方面取得了良好效果,但 奖励劫持(reward hacking) 仍是一个关键挑战。当 LLM 过度降低被拒绝生成的概率以追求高奖励时,却未真正实现预期目标,从而导致生成结果 冗长、缺乏多样性,并引发 知识灾难性遗忘

我们将这一问题的根本原因归结为 参数空间中的神经元坍缩(neuron collapse)所导致的表征冗余。为此,我们提出了一种新颖的 权重旋转偏好优化(Weights-Rotated Preference Optimization, RoPO) 算法:其设计在 输出层 延续了 DPO 中的 KL 散度约束,以隐式限制 logits 的偏移;同时在 中间隐含层状态 上引入 多粒度正交矩阵微调 的显式约束。该机制有效防止策略模型过度偏离参考模型,从而保留预训练与监督微调阶段所获得的知识与表达能力。

在实验中,RoPO 在 AlpacaEval 2 上带来了最高 0.5 分 的提升,并在 MT-Bench 上以仅 0.015% 的可训练参数 超越最佳基线 1.9 至 4.0 分,充分验证了其在缓解 DPO 奖励劫持问题上的有效性。

成为VIP会员查看完整内容
1

相关内容

【NeurIPS2024】IPO: 面向视觉-语言模型的可解释提示优化
专知会员服务
22+阅读 · 2024年10月23日
大型语言模型的高效提示方法综述
专知会员服务
74+阅读 · 2024年4月2日
【AAAI2024】面向序列推荐的插件扩散模型
专知会员服务
27+阅读 · 2024年1月9日
【NeurIPS2023】稀疏保留的差分隐私大型嵌入模型训练
专知会员服务
15+阅读 · 2023年11月18日
【CVPR2023】基于文本驱动软掩码的多模态表示学习
专知会员服务
21+阅读 · 2023年4月10日
【AAAI2023】类增量学习的在线超参数优化
专知会员服务
20+阅读 · 2023年1月18日
专知会员服务
16+阅读 · 2021年8月2日
【CVPR2021】跨模态检索的概率嵌入
专知
17+阅读 · 2021年3月2日
如何使用自然语言工具包(NLTK)在Python3中执行情感分析
Python程序员
21+阅读 · 2019年10月28日
基于Tacotron模型的语音合成实践
深度学习每日摘要
15+阅读 · 2018年12月25日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
A Survey of Large Language Models
Arxiv
480+阅读 · 2023年3月31日
Arxiv
18+阅读 · 2021年3月16日
Arxiv
10+阅读 · 2020年11月26日
Augmentation for small object detection
Arxiv
11+阅读 · 2019年2月19日
VIP会员
相关VIP内容
【NeurIPS2024】IPO: 面向视觉-语言模型的可解释提示优化
专知会员服务
22+阅读 · 2024年10月23日
大型语言模型的高效提示方法综述
专知会员服务
74+阅读 · 2024年4月2日
【AAAI2024】面向序列推荐的插件扩散模型
专知会员服务
27+阅读 · 2024年1月9日
【NeurIPS2023】稀疏保留的差分隐私大型嵌入模型训练
专知会员服务
15+阅读 · 2023年11月18日
【CVPR2023】基于文本驱动软掩码的多模态表示学习
专知会员服务
21+阅读 · 2023年4月10日
【AAAI2023】类增量学习的在线超参数优化
专知会员服务
20+阅读 · 2023年1月18日
专知会员服务
16+阅读 · 2021年8月2日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
相关论文
微信扫码咨询专知VIP会员