Recent Large Reasoning Language Models (LRLMs) employ long chain-of-thought reasoning with complex reflection behaviors, typically signaled by specific trigger words (e.g., "Wait" and "Alternatively") to enhance performance. However, these reflection behaviors can lead to the overthinking problem where the generation of redundant reasoning steps that unnecessarily increase token usage, raise inference costs, and reduce practical utility. In this paper, we propose Certainty-Guided Reflection Suppression (CGRS), a novel method that mitigates overthinking in LRLMs while maintaining reasoning accuracy. CGRS operates by dynamically suppressing the model's generation of reflection triggers when it exhibits high confidence in its current response, thereby preventing redundant reflection cycles without compromising output quality. Our approach is model-agnostic, requires no retraining or architectural modifications, and can be integrated seamlessly with existing autoregressive generation pipelines. Extensive experiments across four reasoning benchmarks (i.e., AIME24, AMC23, MATH500, and GPQA-D) demonstrate CGRS's effectiveness: it reduces token usage by an average of 18.5% to 41.9% while preserving accuracy. It also achieves the optimal balance between length reduction and performance compared to state-of-the-art baselines. These results hold consistently across model architectures (e.g., DeepSeek-R1-Distill series, QwQ-32B, and Qwen3 family) and scales (4B to 32B parameters), highlighting CGRS's practical value for efficient reasoning.


翻译:近期的大型推理语言模型(LRLMs)采用长链思维推理与复杂的反思行为,通常通过特定的触发词(例如“Wait”和“Alternatively”)来提升性能。然而,这些反思行为可能导致过度思考问题,即生成冗余的推理步骤,不必要地增加令牌使用量、提高推理成本并降低实际效用。本文提出确定性引导的反思抑制(CGRS),一种新颖的方法,可在保持推理准确性的同时缓解LRLMs中的过度思考问题。CGRS通过动态抑制模型在对其当前响应表现出高置信度时生成反思触发词,从而在不影响输出质量的情况下防止冗余的反思循环。我们的方法具有模型无关性,无需重新训练或修改架构,并可无缝集成到现有的自回归生成流程中。在四个推理基准(即AIME24、AMC23、MATH500和GPQA-D)上的大量实验证明了CGRS的有效性:它在保持准确性的同时,平均减少了18.5%至41.9%的令牌使用量。与最先进的基线相比,CGRS还在长度缩减和性能之间实现了最佳平衡。这些结果在不同模型架构(例如DeepSeek-R1-Distill系列、QwQ-32B和Qwen3家族)和规模(4B至32B参数)中均保持一致,凸显了CGRS在高效推理方面的实用价值。

0
下载
关闭预览

相关内容

超越语言的推理:潜在思维链推理的综合综述
专知会员服务
22+阅读 · 5月23日
NeurIPS 2021 | ConE: 针对知识图谱多跳推理的锥嵌入模型
专知会员服务
26+阅读 · 2021年12月5日
NAACL 2019 | 一种考虑缓和KL消失的简单VAE训练方法
PaperWeekly
20+阅读 · 2019年4月24日
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员