图片

也就是今年 1 月份 DeepSeek 在 arxiv 公布的论文《DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning》。这篇Nature论文通讯作者正是梁文锋。

论文链接:https://www.nature.com/articles/s41586-025-09422-z 在封面的推荐介绍中,Nature 写到: 如果训练出的大模型能够规划解决问题所需的步骤,那么它们往往能够更好地解决问题。这种『推理』与人类处理更复杂问题的方式类似,但这对人工智能有极大挑战,需要人工干预来添加标签和注释。在本周的期刊中,DeepSeek 的研究人员揭示了他们如何能够在极少的人工输入下训练一个模型,并使其进行推理。 DeepSeek-R1 模型采用强化学习进行训练。在这种学习中,模型正确解答数学问题时会获得高分奖励,答错则会受到惩罚。结果,它学会了推理——逐步解决问题并揭示这些步骤——更有可能得出正确答案。这使得 DeepSeek-R1 能够自我验证和自我反思,在给出新问题的答案之前检查其性能,从而提高其在编程和研究生水平科学问题上的表现。 此外,

https://static-content.springer.com/esm/art%3A10.1038%2Fs41586-025-09422-z/MediaObjects/41586_2025_9422_MOESM1_ESM.pdf

成为VIP会员查看完整内容
1

相关内容

2021 ACM博士论文奖公布,两位NeRF提出者获荣誉提名
专知会员服务
20+阅读 · 2022年6月5日
【2022新书】经典与量子计算导论,392页pdf
专知会员服务
75+阅读 · 2022年1月17日
专知会员服务
26+阅读 · 2021年3月7日
最新《Deepfakes:创造与检测》2020综述论文,36页pdf
专知会员服务
65+阅读 · 2020年5月15日
【陈天奇】TVM:端到端自动深度学习编译器,244页ppt
专知会员服务
87+阅读 · 2020年5月11日
AAAI2020接受论文列表,1591篇论文目录全集
专知会员服务
100+阅读 · 2020年1月12日
2018年有意思的几篇GAN论文
专知
21+阅读 · 2019年1月5日
网络表示学习领域(NRL/NE)必读论文汇总
AI科技评论
16+阅读 · 2018年2月18日
国家自然科学基金
1+阅读 · 2017年12月31日
国家自然科学基金
15+阅读 · 2016年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Arxiv
79+阅读 · 2023年3月26日
Deep learning for cardiac image segmentation: A review
Arxiv
21+阅读 · 2019年11月9日
VIP会员
相关基金
国家自然科学基金
1+阅读 · 2017年12月31日
国家自然科学基金
15+阅读 · 2016年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
微信扫码咨询专知VIP会员