Large language models (LLMs) can act as both problem solvers and solution verifiers, with verifiers improving solver performance by selecting high-quality answers from a pool of candidates. However, prior studies of solver-verifier interactions have been limited, focusing mainly on self-verification and rarely examining how verifiers judge outputs from models in their own or in another model family. Modern LLMs also undergo extensive post-training, but its effect on verification remains unclear. We present a systematic study across 37 models spanning multiple families, sizes, and base vs. post-trained variants, evaluated on 9 benchmarks covering logical reasoning, structured puzzles, symbolic computation, mathematics, commonsense, factual recall, and domain knowledge. We compare self-verification with verification within the same family and across different families. To support this, we introduce and empirically validate verifier gain, a metric that predicts the performance improvements from test-time verifier-based rejection sampling. We analyze how metrics like verifier gain and false positive rate scale with model size and post-training, and characterize differences in dataset verifiability. Our findings show that cross-family verification is especially effective; post-training reduces self-improvement but strengthens cross-family improvement; and mathematical and logical tasks exhibit the highest inherent verifiability.


翻译:大语言模型(LLMs)既能充当问题求解器,也能作为解决方案验证器,其中验证器通过从候选答案池中筛选高质量答案来提升求解器的性能。然而,先前关于求解器-验证器交互的研究较为有限,主要集中于自我验证,很少探讨验证器如何评估来自同模型族或不同模型族模型的输出。现代大语言模型通常经过广泛的后训练,但其对验证能力的影响尚不明确。本研究对涵盖多个模型族、不同规模以及基础与后训练变体的37个模型进行了系统性分析,并在9个基准测试上进行了评估,这些测试覆盖逻辑推理、结构化谜题、符号计算、数学、常识、事实回忆和领域知识。我们比较了自我验证、同族内验证以及跨族验证的效果。为此,我们提出并实证验证了“验证器增益”这一指标,该指标可预测基于测试时验证器的拒绝采样所带来的性能提升。我们分析了验证器增益和误报率等指标如何随模型规模和后训练而变化,并刻画了数据集可验证性的差异。研究结果表明:跨族验证尤为有效;后训练会降低自我改进能力,但增强跨族改进效果;数学和逻辑任务展现出最高的内在可验证性。

0
下载
关闭预览

相关内容

【NAACL2022】自然语言处理的对比数据与学习
专知会员服务
46+阅读 · 2022年7月10日
【CVPR2022】语言引导与基于视觉的深度度量学习的集成
专知会员服务
17+阅读 · 2022年3月17日
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
VIP会员
相关基金
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
Top
微信扫码咨询专知VIP会员