Despite recent advances in the reasoning capabilities of Large Language Models (LLMs), improving the reasoning ability of Small Language Models (SLMs, e.g., up to 1.5B parameters) remains challenging. A key obstacle lies in the complexity and variability of natural language: essentially equivalent problems often appear in diverse surface forms, often obscured by redundant or distracting details. This imposes a dual burden on SLMs: they must first extract the core problem from complex linguistic input, and then perform reasoning based on that understanding. The resulting vast and noisy problem space hinders optimization, particularly for models with limited capacity. To address this, we propose a new framework that decouples understanding from reasoning by mapping natural language problems into a canonical problem space-a semantically simplified yet expressive domain. This enables SLMs to focus on reasoning over standardized inputs, free from linguistic variability. Within this framework, we introduce DURIT (Decoupled Understanding from Reasoning via Iterative Training), a three-step algorithm that iteratively: (1) mapping natural language problems via reinforcement learning, (2) aligns reasoning trajectories through self-distillation, and (3) trains reasoning policies in the problem space. The mapper and reasoner are co-trained in an alternating loop throughout this process. Experiments show that DURIT substantially improves SLMs' performance on both in-domain and out-of-domain mathematical and logical reasoning tasks. Beyond improving reasoning capabilities, DURIT also improves the robustness of reasoning, validating decoupling understanding from reasoning as an effective strategy for strengthening SLMs.


翻译:尽管大型语言模型(LLMs)的推理能力近期取得了进展,提升小规模语言模型(SLMs,例如参数量不超过1.5B)的推理能力仍具挑战性。一个关键障碍在于自然语言的复杂性和多变性:本质上等价的问题常以多样的表层形式呈现,且常被冗余或干扰性细节所掩盖。这给SLMs带来了双重负担:它们必须先从复杂的语言输入中提取核心问题,再基于该理解进行推理。由此产生的庞大且嘈杂的问题空间阻碍了优化,尤其对于能力有限的模型。为解决此问题,我们提出了一种新框架,通过将自然语言问题映射到规范问题空间——一个语义简化但仍具表达力的领域——来实现理解与推理的解耦。这使得SLMs能够专注于对标准化输入的推理,而无需处理语言变异性。在此框架内,我们提出了DURIT(通过迭代训练实现理解与推理解耦),这是一种三步算法,迭代执行:(1)通过强化学习映射自然语言问题,(2)通过自蒸馏对齐推理轨迹,以及(3)在问题空间中训练推理策略。在此过程中,映射器和推理器以交替循环方式协同训练。实验表明,DURIT显著提升了SLMs在领域内和领域外数学与逻辑推理任务上的性能。除了提升推理能力,DURIT还增强了推理的鲁棒性,验证了将理解与推理解耦作为强化SLMs的有效策略。

0
下载
关闭预览

相关内容

【NeurIPS2022】通过模型转换的可解释强化学习
专知会员服务
38+阅读 · 2022年10月4日
【NeurIPS2019】图变换网络:Graph Transformer Network
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
Arxiv
0+阅读 · 11月17日
VIP会员
相关基金
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员