Large language models (LLMs) with explicit reasoning capabilities excel at mathematical reasoning yet still commit process errors, such as incorrect calculations, brittle logic, and superficially plausible but invalid steps. In this paper, we introduce Generative Adversarial Reasoner, an on-policy joint training framework designed to enhance reasoning by co-evolving an LLM reasoner and an LLM-based discriminator through adversarial reinforcement learning. A compute-efficient review schedule partitions each reasoning chain into logically complete slices of comparable length, and the discriminator evaluates each slice's soundness with concise, structured justifications. Learning couples complementary signals: the LLM reasoner is rewarded for logically consistent steps that yield correct answers, while the discriminator earns rewards for correctly detecting errors or distinguishing traces in the reasoning process. This produces dense, well-calibrated, on-policy step-level rewards that supplement sparse exact-match signals, improving credit assignment, increasing sample efficiency, and enhancing overall reasoning quality of LLMs. Across various mathematical benchmarks, the method delivers consistent gains over strong baselines with standard RL post-training. Specifically, on AIME24, we improve DeepSeek-R1-Distill-Qwen-7B from 54.0 to 61.3 (+7.3) and DeepSeek-R1-Distill-Llama-8B from 43.7 to 53.7 (+10.0). The modular discriminator also enables flexible reward shaping for objectives such as teacher distillation, preference alignment, and mathematical proof-based reasoning.


翻译:具备显式推理能力的大语言模型在数学推理任务中表现出色,但仍会犯过程性错误,例如错误计算、脆弱的逻辑以及表面合理但实际无效的推理步骤。本文提出生成式对抗推理器,这是一种基于策略的联合训练框架,旨在通过对抗性强化学习,协同进化一个LLM推理器和一个基于LLM的判别器,从而增强推理能力。一种计算高效的审查机制将每条推理链划分为逻辑完整且长度相当的片段,判别器则通过简洁、结构化的论证来评估每个片段的合理性。学习过程耦合了互补信号:LLM推理器因产生逻辑一致且能得出正确答案的步骤而获得奖励,而判别器则因正确检测到推理过程中的错误或区分不同推理轨迹而获得奖励。这产生了密集、校准良好、基于策略的步骤级奖励,补充了稀疏的精确匹配信号,改善了信用分配,提高了样本效率,并提升了LLM的整体推理质量。在多个数学基准测试中,该方法相较于采用标准强化学习后训练的强基线模型均取得了稳定的性能提升。具体而言,在AIME24数据集上,我们将DeepSeek-R1-Distill-Qwen-7B的性能从54.0提升至61.3(+7.3),将DeepSeek-R1-Distill-Llama-8B的性能从43.7提升至53.7(+10.0)。模块化的判别器还支持灵活的奖励塑造,可用于教师蒸馏、偏好对齐以及基于数学证明的推理等目标。

0
下载
关闭预览

相关内容

从语言模型到语言智能体,普林斯顿Shunyu Yao
专知会员服务
63+阅读 · 2023年9月18日
UTC: 用于视觉对话的任务间对比学习的统一Transformer
专知会员服务
14+阅读 · 2022年5月4日
【AAAI2021】“可瘦身”的生成式对抗网络
专知会员服务
13+阅读 · 2020年12月12日
AAAI 2022 | ProtGNN:自解释图神经网络
专知
10+阅读 · 2022年2月28日
【CVPR 2020 Oral】小样本类增量学习
专知
20+阅读 · 2020年6月26日
【NeurIPS2019】图变换网络:Graph Transformer Network
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
VIP会员
相关资讯
相关基金
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
Top
微信扫码咨询专知VIP会员