【EMNLP2025】面向大语言模型的权重旋转偏好优化 - 专知VIP

会员服务 ·

0

EMNLP 2025 · 大语言模型 · 直接偏好优化（DPO） ·

【EMNLP2025】面向大语言模型的权重旋转偏好优化

专知会员服务

专知，提供专业可信的知识分发服务，让认知协作更快更好！

尽管 直接偏好优化（Direct Preference Optimization, DPO） 在对齐大语言模型（LLMs）方面取得了良好效果，但 奖励劫持（reward hacking） 仍是一个关键挑战。当 LLM 过度降低被拒绝生成的概率以追求高奖励时，却未真正实现预期目标，从而导致生成结果 冗长、缺乏多样性，并引发 知识灾难性遗忘。

我们将这一问题的根本原因归结为 参数空间中的神经元坍缩（neuron collapse）所导致的表征冗余。为此，我们提出了一种新颖的 权重旋转偏好优化（Weights-Rotated Preference Optimization, RoPO） 算法：其设计在 输出层 延续了 DPO 中的 KL 散度约束，以隐式限制 logits 的偏移；同时在 中间隐含层状态 上引入 多粒度正交矩阵微调 的显式约束。该机制有效防止策略模型过度偏离参考模型，从而保留预训练与监督微调阶段所获得的知识与表达能力。

在实验中，RoPO 在 AlpacaEval 2 上带来了最高 0.5 分 的提升，并在 MT-Bench 上以仅 0.015% 的可训练参数 超越最佳基线 1.9 至 4.0 分，充分验证了其在缓解 DPO 奖励劫持问题上的有效性。

成为VIP会员查看完整内容

1

相关内容

EMNLP 2025

【ICML2025】关于语言模型对齐中奖励模型稳健性的研究

【ICML2025】关于语言模型对齐中奖励模型稳健性的研究

专知会员服务

14+阅读 · 5月13日

【CVPR2025】面向自监督场景文本识别的语言学感知掩码图像建模

【CVPR2025】面向自监督场景文本识别的语言学感知掩码图像建模

专知会员服务

9+阅读 · 3月25日

【CVPR2025】DPC：双提示协作用于视觉-语言模型调优

【CVPR2025】DPC：双提示协作用于视觉-语言模型调优

专知会员服务

11+阅读 · 3月18日

【NeurIPS2024】IPO: 面向视觉-语言模型的可解释提示优化

【NeurIPS2024】IPO: 面向视觉-语言模型的可解释提示优化

专知会员服务

22+阅读 · 2024年10月23日

大型语言模型的高效提示方法综述

大型语言模型的高效提示方法综述

专知会员服务

74+阅读 · 2024年4月2日

【AAAI2024】面向序列推荐的插件扩散模型

【AAAI2024】面向序列推荐的插件扩散模型

专知会员服务

27+阅读 · 2024年1月9日

【NeurIPS2023】稀疏保留的差分隐私大型嵌入模型训练

【NeurIPS2023】稀疏保留的差分隐私大型嵌入模型训练

专知会员服务

15+阅读 · 2023年11月18日

【CVPR2023】基于文本驱动软掩码的多模态表示学习

【CVPR2023】基于文本驱动软掩码的多模态表示学习

专知会员服务

21+阅读 · 2023年4月10日

【AAAI2023】类增量学习的在线超参数优化

【AAAI2023】类增量学习的在线超参数优化

专知会员服务

20+阅读 · 2023年1月18日

【ICCV2021】基于耦合语义注意力的弱监督目标定位

专知会员服务

16+阅读 · 2021年8月2日

【CVPR2021】CausalVAE: 引入因果结构的解耦表示学习

【CVPR2021】CausalVAE: 引入因果结构的解耦表示学习

专知

19+阅读 · 2021年3月28日

【CVPR2021】跨模态检索的概率嵌入

【CVPR2021】跨模态检索的概率嵌入

专知

17+阅读 · 2021年3月2日

【AAAI2021】知识图谱增强的预训练模型的生成式常识推理

【AAAI2021】知识图谱增强的预训练模型的生成式常识推理

专知

29+阅读 · 2021年1月25日

【ACM Multimedia2020】跨模态注意力Transformer模型的深度视频理解

【ACM Multimedia2020】跨模态注意力Transformer模型的深度视频理解

专知

15+阅读 · 2020年8月30日

【ICML2020-南大周志华老师组】针对未见类未标记数据的安全深度半监督学习

【ICML2020-南大周志华老师组】针对未见类未标记数据的安全深度半监督学习

专知

46+阅读 · 2020年7月5日

【IJCAI2020】基于生成对抗模仿学习的多模态模仿学习算法框架

【IJCAI2020】基于生成对抗模仿学习的多模态模仿学习算法框架

专知

20+阅读 · 2020年5月26日

【CVPR2020-旷视】DPGN：分布传播图网络的小样本学习

【CVPR2020-旷视】DPGN：分布传播图网络的小样本学习

专知

13+阅读 · 2020年4月1日

【阿里巴巴-WWW2020】对抗性多模态表示学习的点击率预测，Adversarial Multimodal RL

【阿里巴巴-WWW2020】对抗性多模态表示学习的点击率预测，Adversarial Multimodal RL

专知

11+阅读 · 2020年3月17日

如何使用自然语言工具包(NLTK)在Python3中执行情感分析

如何使用自然语言工具包(NLTK)在Python3中执行情感分析

Python程序员

21+阅读 · 2019年10月28日

基于Tacotron模型的语音合成实践

基于Tacotron模型的语音合成实践

深度学习每日摘要

15+阅读 · 2018年12月25日

直接优化半周长线长的VLSI两阶段迭代布局算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于上下文精化的并发对象活性的描述及验证

国家自然科学基金

1+阅读 · 2015年12月31日

基于对称识别方法的贝叶斯probit模型稳健性研究

国家自然科学基金

3+阅读 · 2015年12月31日

高维回归模型的预测稳定性研究

国家自然科学基金

3+阅读 · 2015年12月31日

SDN数据平面中大规模流表的高性能查找方法研究

国家自然科学基金

4+阅读 · 2015年12月31日

基于最大相关熵准则的支持向量机模型与算法研究

国家自然科学基金

3+阅读 · 2015年12月31日

模糊认知集群优化的聚类算法

国家自然科学基金

8+阅读 · 2015年12月31日

高阶图像去噪模型的快速数值算法研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于结构学习的非平行支持向量机最优化方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

非线性混合效应模型的最优与稳健设计

国家自然科学基金

0+阅读 · 2014年12月31日

A Comprehensive Survey on Deep Graph Representation Learning

Arxiv

103+阅读 · 2023年4月11日

On Efficient Training of Large-Scale Deep Learning Models: A Literature Review

Arxiv

217+阅读 · 2023年4月7日

A Survey of Large Language Models

A Survey of Large Language Models

Arxiv

480+阅读 · 2023年3月31日

Is Prompt All You Need? No. A Comprehensive and Broader View of Instruction Learning

Is Prompt All You Need? No. A Comprehensive and Broader View of Instruction Learning

Arxiv

20+阅读 · 2023年3月21日

A survey and taxonomy of loss functions in machine learning

Arxiv

26+阅读 · 2023年1月13日

Deep learning: a statistical viewpoint

Arxiv

18+阅读 · 2021年3月16日

Meta-learning in natural and artificial intelligence

Arxiv

10+阅读 · 2020年11月26日

Augmentation for small object detection

Augmentation for small object detection

Arxiv

11+阅读 · 2019年2月19日

Interpretable machine learning: definitions, methods, and applications

Interpretable machine learning: definitions, methods, and applications

Arxiv

19+阅读 · 2019年1月14日

Robust event-stream pattern tracking based on correlative filter

Arxiv

10+阅读 · 2018年3月17日

VIP会员

相关主题

大语言模型

直接偏好优化（DPO）

相关VIP内容

【ICML2025】关于语言模型对齐中奖励模型稳健性的研究

【ICML2025】关于语言模型对齐中奖励模型稳健性的研究

专知会员服务

14+阅读 · 5月13日

【CVPR2025】面向自监督场景文本识别的语言学感知掩码图像建模

【CVPR2025】面向自监督场景文本识别的语言学感知掩码图像建模

专知会员服务

9+阅读 · 3月25日

【CVPR2025】DPC：双提示协作用于视觉-语言模型调优

【CVPR2025】DPC：双提示协作用于视觉-语言模型调优

专知会员服务

11+阅读 · 3月18日

【NeurIPS2024】IPO: 面向视觉-语言模型的可解释提示优化

【NeurIPS2024】IPO: 面向视觉-语言模型的可解释提示优化

专知会员服务

22+阅读 · 2024年10月23日

大型语言模型的高效提示方法综述

大型语言模型的高效提示方法综述

专知会员服务

74+阅读 · 2024年4月2日

【AAAI2024】面向序列推荐的插件扩散模型

【AAAI2024】面向序列推荐的插件扩散模型

专知会员服务

27+阅读 · 2024年1月9日

【NeurIPS2023】稀疏保留的差分隐私大型嵌入模型训练

【NeurIPS2023】稀疏保留的差分隐私大型嵌入模型训练

专知会员服务

15+阅读 · 2023年11月18日

【CVPR2023】基于文本驱动软掩码的多模态表示学习

【CVPR2023】基于文本驱动软掩码的多模态表示学习

专知会员服务

21+阅读 · 2023年4月10日

【AAAI2023】类增量学习的在线超参数优化

【AAAI2023】类增量学习的在线超参数优化

专知会员服务

20+阅读 · 2023年1月18日

【ICCV2021】基于耦合语义注意力的弱监督目标定位

专知会员服务

16+阅读 · 2021年8月2日

热门VIP内容

开通专知VIP会员享更多权益服务

《军队分析危机：不当行为数据的现代化革新》最新报告

《美陆军条令：防空反导作战》2025最新218页

现代战争中的数据主导权：人工智能与数据分析的关键作用

【博士论文】神经网络中的元学习与组合泛化

相关资讯

【CVPR2021】CausalVAE: 引入因果结构的解耦表示学习

【CVPR2021】CausalVAE: 引入因果结构的解耦表示学习

专知

19+阅读 · 2021年3月28日

【CVPR2021】跨模态检索的概率嵌入

【CVPR2021】跨模态检索的概率嵌入

专知

17+阅读 · 2021年3月2日

【AAAI2021】知识图谱增强的预训练模型的生成式常识推理

【AAAI2021】知识图谱增强的预训练模型的生成式常识推理

专知

29+阅读 · 2021年1月25日

【ACM Multimedia2020】跨模态注意力Transformer模型的深度视频理解

【ACM Multimedia2020】跨模态注意力Transformer模型的深度视频理解

专知

15+阅读 · 2020年8月30日

【ICML2020-南大周志华老师组】针对未见类未标记数据的安全深度半监督学习

【ICML2020-南大周志华老师组】针对未见类未标记数据的安全深度半监督学习

专知

46+阅读 · 2020年7月5日

【IJCAI2020】基于生成对抗模仿学习的多模态模仿学习算法框架

【IJCAI2020】基于生成对抗模仿学习的多模态模仿学习算法框架

专知

20+阅读 · 2020年5月26日

【CVPR2020-旷视】DPGN：分布传播图网络的小样本学习

【CVPR2020-旷视】DPGN：分布传播图网络的小样本学习

专知

13+阅读 · 2020年4月1日

【阿里巴巴-WWW2020】对抗性多模态表示学习的点击率预测，Adversarial Multimodal RL

【阿里巴巴-WWW2020】对抗性多模态表示学习的点击率预测，Adversarial Multimodal RL

专知

11+阅读 · 2020年3月17日

如何使用自然语言工具包(NLTK)在Python3中执行情感分析

如何使用自然语言工具包(NLTK)在Python3中执行情感分析

Python程序员

21+阅读 · 2019年10月28日

基于Tacotron模型的语音合成实践

基于Tacotron模型的语音合成实践

深度学习每日摘要

15+阅读 · 2018年12月25日

相关基金

直接优化半周长线长的VLSI两阶段迭代布局算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于上下文精化的并发对象活性的描述及验证

国家自然科学基金

1+阅读 · 2015年12月31日

基于对称识别方法的贝叶斯probit模型稳健性研究

国家自然科学基金

3+阅读 · 2015年12月31日

高维回归模型的预测稳定性研究

国家自然科学基金

3+阅读 · 2015年12月31日

SDN数据平面中大规模流表的高性能查找方法研究

国家自然科学基金

4+阅读 · 2015年12月31日

基于最大相关熵准则的支持向量机模型与算法研究

国家自然科学基金

3+阅读 · 2015年12月31日

模糊认知集群优化的聚类算法

国家自然科学基金

8+阅读 · 2015年12月31日

高阶图像去噪模型的快速数值算法研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于结构学习的非平行支持向量机最优化方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

非线性混合效应模型的最优与稳健设计

国家自然科学基金

0+阅读 · 2014年12月31日

相关论文

A Comprehensive Survey on Deep Graph Representation Learning

Arxiv

103+阅读 · 2023年4月11日

On Efficient Training of Large-Scale Deep Learning Models: A Literature Review

Arxiv

217+阅读 · 2023年4月7日

A Survey of Large Language Models

A Survey of Large Language Models

Arxiv

480+阅读 · 2023年3月31日

Is Prompt All You Need? No. A Comprehensive and Broader View of Instruction Learning

Is Prompt All You Need? No. A Comprehensive and Broader View of Instruction Learning

Arxiv

20+阅读 · 2023年3月21日

A survey and taxonomy of loss functions in machine learning

Arxiv

26+阅读 · 2023年1月13日

Deep learning: a statistical viewpoint

Arxiv

18+阅读 · 2021年3月16日

Meta-learning in natural and artificial intelligence

Arxiv

10+阅读 · 2020年11月26日

Augmentation for small object detection

Augmentation for small object detection

Arxiv

11+阅读 · 2019年2月19日

Interpretable machine learning: definitions, methods, and applications

Interpretable machine learning: definitions, methods, and applications

Arxiv

19+阅读 · 2019年1月14日

Robust event-stream pattern tracking based on correlative filter

Arxiv

10+阅读 · 2018年3月17日

微信扫码咨询专知VIP会员