成为VIP会员查看完整内容
VIP会员码认证
首页
主题
会员
服务
注册
·
登录
13
ACL 2024
·
直接偏好优化(DPO)
·
大型语言模型
·
思维推理
·
2024 年 8 月 3 日
【ACL2024】通过直接偏好优化的自训练提升链式思维推理
专知会员服务
专知,提供专业可信的知识分发服务,让认知协作更快更好!
在数学推理任务中有效训练语言模型(LMs)需要高质量的有监督微调数据。除了从人类专家那里获得注释,常见的替代方法是从更大且更强大的语言模型中采样。然而,这种知识蒸馏方法可能成本高昂且不稳定,特别是依赖于如GPT-4(OpenAI, 2023)这样封闭源码的专有模型时,其行为往往不可预测。在这项工作中,我们展示了小规模语言模型的推理能力可以通过自训练得到增强,自训练是指模型从其自身输出中学习的过程。我们还展示了传统自训练可以通过一种称为直接偏好优化(Direct Preference Optimization, DPO)的方法进一步增强。通过将DPO整合到自训练中,我们利用偏好数据引导语言模型朝着更准确和多样化的链式思维推理发展。我们在各种数学推理任务中使用不同的基础模型评估了我们的方法。实验结果表明,与依赖大型专有模型相比,这种方法不仅提高了语言模型的推理性能,还提供了一种更具成本效益和可扩展的解决方案。
成为VIP会员查看完整内容
Self-Training with Direct Preference Optimization Improves Chain-of-Thought Reasoning
点赞并收藏
13
暂时没有读者
31
权益说明
本文档仅做收录索引使用,若发现您的权益受到侵害,请立即联系客服(微信: zhuanzhi02,邮箱:bd@zhuanzhi.ai),我们会尽快为您处理
相关内容
ACL 2024
关注
1
【EMNLP2023】基于思维链的大型语言模型少样本知识库问题生成
专知会员服务
67+阅读 · 2023年10月14日
【CIKM2023】利用知识和强化学习提升语言模型的可靠性
专知会员服务
47+阅读 · 2023年9月20日
【AAAI2022】多任务推荐中的跨任务知识提炼
专知会员服务
25+阅读 · 2022年2月22日
【ACMMM2021】密集对比视觉语言预训练
专知会员服务
13+阅读 · 2021年10月11日
【CVPR2021】密集对比学习的自监督视觉预训练
专知会员服务
39+阅读 · 2021年5月16日
【AAAI2021】知识图谱增强的预训练模型的生成式常识推理
专知
29+阅读 · 2021年1月25日
【NeurIPS 2020 Tutorial】离线强化学习:从算法到挑战,80页ppt
专知
16+阅读 · 2020年12月9日
【KDD2020】图神经网络生成式预训练
专知
23+阅读 · 2020年7月3日
【复旦大学-SP2020】NLP语言模型隐私泄漏风险
专知
10+阅读 · 2020年4月20日
【Uber AI新论文】持续元学习,Learning to Continually Learn
专知
19+阅读 · 2020年2月27日
语义Web知识库补全关键技术研究
国家自然科学基金
17+阅读 · 2017年12月31日
直接优化半周长线长的VLSI两阶段迭代布局算法研究
国家自然科学基金
0+阅读 · 2015年12月31日
基于对称识别方法的贝叶斯probit模型稳健性研究
国家自然科学基金
3+阅读 · 2015年12月31日
面向大数据的安全迁移学习方法
国家自然科学基金
29+阅读 · 2015年12月31日
海量Web用户生成内容物化关键技术
国家自然科学基金
2+阅读 · 2014年12月31日
Is ChatGPT a Good Recommender? A Preliminary Study
Arxiv
174+阅读 · 2023年4月20日
A Comprehensive Survey on Deep Graph Representation Learning
Arxiv
106+阅读 · 2023年4月11日
On Efficient Training of Large-Scale Deep Learning Models: A Literature Review
Arxiv
224+阅读 · 2023年4月7日
A Survey of Large Language Models
Arxiv
494+阅读 · 2023年3月31日
Geometric multimodal representation learning
Arxiv
69+阅读 · 2022年9月7日
VIP会员
自助开通(推荐)
客服开通
详情
相关主题
ACL 2024
直接偏好优化(DPO)
大型语言模型
思维推理
相关VIP内容
【EMNLP2023】基于思维链的大型语言模型少样本知识库问题生成
专知会员服务
67+阅读 · 2023年10月14日
【CIKM2023】利用知识和强化学习提升语言模型的可靠性
专知会员服务
47+阅读 · 2023年9月20日
【AAAI2022】多任务推荐中的跨任务知识提炼
专知会员服务
25+阅读 · 2022年2月22日
【ACMMM2021】密集对比视觉语言预训练
专知会员服务
13+阅读 · 2021年10月11日
【CVPR2021】密集对比学习的自监督视觉预训练
专知会员服务
39+阅读 · 2021年5月16日
热门VIP内容
开通专知VIP会员 享更多权益服务
前沿人工智能趋势报告(Frontier AI Trends Report)
【AAAI2026】善始则事半功倍:基于前缀优化的大语言模型推理强化学习
Andrej Karpathy:2025 年 LLM 年度回顾(2025 LLM Year in Review)
音退化问题:基于输入操控的鲁棒语音转换综述
相关资讯
【AAAI2021】知识图谱增强的预训练模型的生成式常识推理
专知
29+阅读 · 2021年1月25日
【NeurIPS 2020 Tutorial】离线强化学习:从算法到挑战,80页ppt
专知
16+阅读 · 2020年12月9日
【KDD2020】图神经网络生成式预训练
专知
23+阅读 · 2020年7月3日
【复旦大学-SP2020】NLP语言模型隐私泄漏风险
专知
10+阅读 · 2020年4月20日
【Uber AI新论文】持续元学习,Learning to Continually Learn
专知
19+阅读 · 2020年2月27日
相关基金
语义Web知识库补全关键技术研究
国家自然科学基金
17+阅读 · 2017年12月31日
直接优化半周长线长的VLSI两阶段迭代布局算法研究
国家自然科学基金
0+阅读 · 2015年12月31日
基于对称识别方法的贝叶斯probit模型稳健性研究
国家自然科学基金
3+阅读 · 2015年12月31日
面向大数据的安全迁移学习方法
国家自然科学基金
29+阅读 · 2015年12月31日
海量Web用户生成内容物化关键技术
国家自然科学基金
2+阅读 · 2014年12月31日
相关论文
Is ChatGPT a Good Recommender? A Preliminary Study
Arxiv
174+阅读 · 2023年4月20日
A Comprehensive Survey on Deep Graph Representation Learning
Arxiv
106+阅读 · 2023年4月11日
On Efficient Training of Large-Scale Deep Learning Models: A Literature Review
Arxiv
224+阅读 · 2023年4月7日
A Survey of Large Language Models
Arxiv
494+阅读 · 2023年3月31日
Geometric multimodal representation learning
Arxiv
69+阅读 · 2022年9月7日
提示
微信扫码
咨询专知VIP会员与技术项目合作
(加微信请备注: "专知")
微信扫码咨询专知VIP会员
Top