这份报告以DeepSeek-R1为关键节点,总结了当前开源推理模型发展的三大核心经验:推理能力可以通过知识蒸馏有效迁移 至更小模型,其成本效益甚至优于强化学习;GRPO强化学习算法是核心驱动力,其改进版本(如DAPO)和训练技巧(如中期训练)至关重要;以及 “纯推理”架构是未来方向,但构建混合模型需要精心的配对数据以避免“脑裂”问题;未来进展将依赖于高效推理、更成熟的RL工具链以及复杂环境交互的进一步发展。

成为VIP会员查看完整内容
0
微信扫码咨询专知VIP会员