测试时扩展(TTS)通过在推理过程中分配额外的计算资源来提高大语言模型(LLMs)的推理性能。我们对TTS方法进行了结构化综述,并将其分为基于采样、基于搜索和轨迹优化策略三类。我们观察到,经过推理优化的模型通常产生的输出多样性较低,这限制了TTS的有效性。为了解决这一问题,我们提出了ADAPT(A Diversity Aware Prefix fine-Tuning),这是一种轻量级方法,通过多样性聚焦的数据策略应用前缀调优。在数学推理任务上的实验表明,ADAPT在计算量仅为强基准模型的八分之一的情况下,达到了80%的准确率。我们的研究结果突出了生成多样性在最大化TTS效果中的关键作用。

1. 引言

大语言模型(LLMs)(OpenAI, 2023;Chowdhery等, 2022;Touvron等, 2023)已成为现代自然语言处理(NLP)应用的核心,例如生成、翻译和问答。它们的成功主要源于基于变换器的架构(Vaswani等, 2017)和大规模预训练(Kaplan等, 2020;Hoffmann等, 2022),这赋予了模型强大的流畅性和泛化能力。然而,标准的自回归解码施加了固定的推理流程,限制了它们在复杂推理任务中的表现。 随着模型规模的增长,训练成本也随之攀升,但边际收益却在减少。为了缓解这一问题,测试时扩展(TTS)作为一个有前景的方向应运而生:它通过在推理过程中分配更多的计算资源来提升模型表现,从而使模型能够适应输入复杂性而无需重新训练(OpenAI, 2024a;Snell等, 2024;Welleck等, 2024)。尽管TTS显示出有效性,但其表现通常与模型生成多样性的内在能力密切相关,而这一因素尚未得到很好的理解或明确优化。特别是,经过推理优化的模型,如蒸馏变体,往往表现出较低的输出方差,这可能抑制TTS带来的收益。这引发了一个开放性问题:面向多样性的微调能否提升推理模型的TTS效果? 为了解决这个问题,我们首先对近期的TTS方法进行了策略导向的综述,将其分为三大类:采样(第3.1节)、搜索(第3.2节)和轨迹优化(第3.3节),并指出多样性是TTS成功的关键因素。接下来,我们提出了一种简单而有效的微调方法——ADAPT(A Diversity Aware Prefix fine-Tuning),该方法通过前缀调优采样增强了早期阶段的输出多样性。 我们在一个紧凑的推理模型上对ADAPT进行了评估,采用了最佳N采样(Best-of-N)。如图1所示,ADAPT在减少采样次数的情况下,实现了80%的准确率,在效率上超越了所有基准模型,同时保持了强大的峰值表现。 贡献

本研究做出了三项主要贡献: * 对TTS方法进行了统一综述,涵盖了采样、搜索和轨迹优化,重点讨论了生成多样性的作用。 * 设计并评估了ADAPT,一种前缀调优方法,通过增加推理中的多样性来提高效率。 * 讨论了未来的研究方向,包括对提示的鲁棒性、训练与推理的协同效应、幻觉的缓解、安全性,以及使用合成数据进行受控TTS基准测试。

成为VIP会员查看完整内容
1

相关内容

大型语言模型推理增强外部知识:综述
专知会员服务
27+阅读 · 6月2日
多模态检索增强生成的综合综述
专知会员服务
40+阅读 · 2月17日
生成式建模:综述
专知会员服务
33+阅读 · 1月13日
基于强化学习的扩散模型微调:教程与综述
专知会员服务
43+阅读 · 2024年7月20日
[ICML2024]消除偏差:微调基础模型以进行半监督学习
专知会员服务
17+阅读 · 2024年5月23日
大型语言模型的模型压缩与高效推理:综述
专知会员服务
89+阅读 · 2024年2月17日
【AAAI2022】通过多任务学习改进证据深度学习
专知会员服务
20+阅读 · 2021年12月21日
专知会员服务
30+阅读 · 2020年9月18日
基于模型的强化学习综述
专知
38+阅读 · 2022年7月13日
【CVPR2021】跨模态检索的概率嵌入
专知
17+阅读 · 2021年3月2日
【KDD2020】图神经网络生成式预训练
专知
22+阅读 · 2020年7月3日
如何使用自然语言工具包(NLTK)在Python3中执行情感分析
Python程序员
21+阅读 · 2019年10月28日
无人机集群、蜂群与蜂群算法
无人机
91+阅读 · 2018年9月25日
MNIST入门:贝叶斯方法
Python程序员
23+阅读 · 2017年7月3日
国家自然科学基金
41+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Arxiv
170+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
464+阅读 · 2023年3月31日
Arxiv
76+阅读 · 2023年3月26日
Arxiv
24+阅读 · 2023年3月17日
VIP会员
相关VIP内容
大型语言模型推理增强外部知识:综述
专知会员服务
27+阅读 · 6月2日
多模态检索增强生成的综合综述
专知会员服务
40+阅读 · 2月17日
生成式建模:综述
专知会员服务
33+阅读 · 1月13日
基于强化学习的扩散模型微调:教程与综述
专知会员服务
43+阅读 · 2024年7月20日
[ICML2024]消除偏差:微调基础模型以进行半监督学习
专知会员服务
17+阅读 · 2024年5月23日
大型语言模型的模型压缩与高效推理:综述
专知会员服务
89+阅读 · 2024年2月17日
【AAAI2022】通过多任务学习改进证据深度学习
专知会员服务
20+阅读 · 2021年12月21日
专知会员服务
30+阅读 · 2020年9月18日
相关资讯
基于模型的强化学习综述
专知
38+阅读 · 2022年7月13日
【CVPR2021】跨模态检索的概率嵌入
专知
17+阅读 · 2021年3月2日
【KDD2020】图神经网络生成式预训练
专知
22+阅读 · 2020年7月3日
如何使用自然语言工具包(NLTK)在Python3中执行情感分析
Python程序员
21+阅读 · 2019年10月28日
无人机集群、蜂群与蜂群算法
无人机
91+阅读 · 2018年9月25日
MNIST入门:贝叶斯方法
Python程序员
23+阅读 · 2017年7月3日
相关基金
国家自然科学基金
41+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
微信扫码咨询专知VIP会员