【ACL2024】通过直接偏好优化的自训练提升链式思维推理

在数学推理任务中有效训练语言模型（LMs）需要高质量的有监督微调数据。除了从人类专家那里获得注释，常见的替代方法是从更大且更强大的语言模型中采样。然而，这种知识蒸馏方法可能成本高昂且不稳定，特别是依赖于如GPT-4（OpenAI, 2023）这样封闭源码的专有模型时，其行为往往不可预测。在这项工作中，我们展示了小规模语言模型的推理能力可以通过自训练得到增强，自训练是指模型从其自身输出中学习的过程。我们还展示了传统自训练可以通过一种称为直接偏好优化（Direct Preference Optimization, DPO）的方法进一步增强。通过将DPO整合到自训练中，我们利用偏好数据引导语言模型朝着更准确和多样化的链式思维推理发展。我们在各种数学推理任务中使用不同的基础模型评估了我们的方法。实验结果表明，与依赖大型专有模型相比，这种方法不仅提高了语言模型的推理性能，还提供了一种更具成本效益和可扩展的解决方案。

成为VIP会员查看完整内容

相关内容

ACL 2024

关注 1

【EMNLP2023】基于思维链的大型语言模型少样本知识库问题生成

专知会员服务

67+阅读 · 2023年10月14日

【CIKM2023】利用知识和强化学习提升语言模型的可靠性

专知会员服务

47+阅读 · 2023年9月20日

【AAAI2022】多任务推荐中的跨任务知识提炼

专知会员服务

25+阅读 · 2022年2月22日

【ACMMM2021】密集对比视觉语言预训练

专知会员服务

13+阅读 · 2021年10月11日

【CVPR2021】密集对比学习的自监督视觉预训练

专知会员服务

39+阅读 · 2021年5月16日

【AAAI2021】知识图谱增强的预训练模型的生成式常识推理

专知

29+阅读 · 2021年1月25日

【NeurIPS 2020 Tutorial】离线强化学习:从算法到挑战，80页ppt

专知

16+阅读 · 2020年12月9日

【KDD2020】图神经网络生成式预训练

专知

23+阅读 · 2020年7月3日

【复旦大学-SP2020】NLP语言模型隐私泄漏风险

专知

10+阅读 · 2020年4月20日

【Uber AI新论文】持续元学习，Learning to Continually Learn

专知

19+阅读 · 2020年2月27日

语义Web知识库补全关键技术研究

国家自然科学基金

17+阅读 · 2017年12月31日

直接优化半周长线长的VLSI两阶段迭代布局算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于对称识别方法的贝叶斯probit模型稳健性研究

国家自然科学基金

3+阅读 · 2015年12月31日

面向大数据的安全迁移学习方法

国家自然科学基金

29+阅读 · 2015年12月31日

海量Web用户生成内容物化关键技术

国家自然科学基金

2+阅读 · 2014年12月31日

Is ChatGPT a Good Recommender? A Preliminary Study

Arxiv

174+阅读 · 2023年4月20日

A Comprehensive Survey on Deep Graph Representation Learning

Arxiv

106+阅读 · 2023年4月11日

On Efficient Training of Large-Scale Deep Learning Models: A Literature Review

Arxiv

224+阅读 · 2023年4月7日

A Survey of Large Language Models

Arxiv

494+阅读 · 2023年3月31日

Geometric multimodal representation learning

Arxiv

69+阅读 · 2022年9月7日

VIP会员