We introduce Native Parallel Reasoner (NPR), a teacher-free framework that enables Large Language Models (LLMs) to self-evolve genuine parallel reasoning capabilities. NPR transforms the model from sequential emulation to native parallel cognition through three key innovations: 1) a self-distilled progressive training paradigm that transitions from ``cold-start'' format discovery to strict topological constraints without external supervision; 2) a novel Parallel-Aware Policy Optimization (PAPO) algorithm that optimizes branching policies directly within the execution graph, allowing the model to learn adaptive decomposition via trial and error; and 3) a robust NPR Engine that refactors memory management and flow control of SGLang to enable stable, large-scale parallel RL training. Across eight reasoning benchmarks, NPR trained on Qwen3-4B achieves performance gains of up to 24.5% and inference speedups up to 4.6x. Unlike prior baselines that often fall back to autoregressive decoding, NPR demonstrates 100% genuine parallel execution, establishing a new standard for self-evolving, efficient, and scalable agentic reasoning.


翻译:本文提出原生并行推理器(Native Parallel Reasoner,NPR),一种无需教师模型的框架,使大型语言模型(LLMs)能够自我演化出真正的并行推理能力。NPR通过三项关键创新将模型从序列化模拟转变为原生并行认知:1)一种自蒸馏渐进式训练范式,在无外部监督的情况下从“冷启动”格式发现过渡到严格的拓扑约束;2)一种新颖的并行感知策略优化(Parallel-Aware Policy Optimization,PAPO)算法,直接在执行图中优化分支策略,使模型能够通过试错学习自适应分解;3)一个稳健的NPR引擎,重构了SGLang的内存管理与流程控制,以实现稳定的大规模并行强化学习训练。在八个推理基准测试中,基于Qwen3-4B训练的NPR实现了高达24.5%的性能提升和高达4.6倍的推理加速。与先前常退化为自回归解码的基线方法不同,NPR展示了100%的真正并行执行,为自我演化、高效且可扩展的智能体推理设立了新标准。

0
下载
关闭预览

相关内容

DeepSeek模型综述:V1 V2 V3 R1-Zero
专知会员服务
116+阅读 · 2月11日
图机器学习 2.2-2.4 Properties of Networks, Random Graph
图与推荐
10+阅读 · 2020年3月28日
赛尔笔记 | 条件变分自编码器(CVAE)
AINLP
28+阅读 · 2019年11月8日
Single-Shot Object Detection with Enriched Semantics
统计学习与视觉计算组
14+阅读 · 2018年8月29日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
VIP会员
相关资讯
相关基金
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员