DeepSeek从入门到精通 《DeepSeek从入门到精通》是由清华大学新闻与传播学院新媒体研究中心元宇宙文化实验室的余梦珑博士后及其团队撰写。文档的核心内容围绕DeepSeek的技术特点、应用场景、使用方法以及如何通过提示语设计提升AI使用效率等方面展开,帮助用户从入门到精通DeepSeek的使用。
DeepSeek是什么? DeepSeek 是一家专注于通用人工智能(AGI)的中国科技公司,主攻大模型研发与应用。
DeepSeek-R1 是其开源的推理模型,擅长处理复杂任务且可免费商用。
特点:AI + 国产 + 免费 + 开源 + 强大。
DeepSeek可以做什么? 直接面向用户或者支持开发者,提供智能对话,文本生成,语义理解,计算推理,代码生成补全等应用场景,支持联网搜索与深度搜索模式,同时支持文件上传,能扫描读取各类文件及图片中的文字内容。 图片 文本生成:文章写作、营销文案、社交媒体内容等。 图片 自然语言理解与分析:情感分析、意图识别、实体提取等。 图片 编程与代码相关:代码生成、调试、技术文档处理等。 图片 常规绘图:SVG矢量图、Mermaid图表、React图表等。 图片
如何使用DeepSeek? 使用平台:访问DeepSeek官方网站。
推理模型选择:根据任务类型选择合适的模型(如DeepSeek-R1)。
提示语设计:简洁指令(推理模型)或结构化引导(通用模型)。
如何从入门到精通?
这里我们将带你从入门到精通,一步步掌握DeepSeek的核心技术。
无论你是新手还是有一定基础的开发者,都能在这里找到你需要的知识。
标签:#DeepSeek入门 #DeepSeek教程 #数据分析 #数据挖掘 #数据可视化 #从入门到精通 #实战指南 #技术分享
本手册主要介绍了DeepSeek从入门到精通的全方位指导,包括准备篇、基础指令集、效率飞跃篇、自媒体运营、数据准备黄金法则、API开发者模式、日志分析图谱以及视频脚本等内容。
以下是详细要点:
1.准备篇:
上手时间:30分钟即可上手使用DeepSeek。
重命名功能:可以将当前对话重命名为“测试练习”。
2.基础指令集:
续写指令:当回答中断时,可自动继续生成内容。
简化指令:将复杂内容转换成大白话,便于理解。
示例指令:要求展示实际案例,特别是在编写代码时。
步骤指令:让AI分步骤指导操作流程,如“/步骤 如何用手机拍摄美食照片”。
检查指令:帮助发现文档中的错误。
3.效率飞跃篇:
文档分析:五分钟学会文档分析,支持PDF、Word、TXT等格式。
具体指令:如“总结这份年报的三个核心要点”、“提取合同中的责任条款制成表格”。
进阶技巧:对比分析,如“对比文档A和文档B的市场策略差异”。
4.自媒体运营:
标题生成术:基础版和进阶版,如生成关于“时间管理”的小红书标题,或改写“Python入门教程”为吸引大学生的抖音文案标题。
内容创作模板:如科普类短视频脚本,用“冰箱整理食物”做类比解释量子比特。
排版优化技巧:将文字改造成适合微信公众号的排版,如每段不超过三行,关键句加emoji等。
5.数据准备黄金法则:
适用场景:法律从业者整理判例库、医生建立疾病诊疗手册、电商运营积累产品知识等。
操作流程:创建结构化文档模板,如“糖尿病饮食管理”知识单元,包含核心要点、禁忌清单、常见问题等。
6.API开发者模式:
创建知识库:进入“知识库”面板,拖拽上传文件,设置调用关键词。
开发者代码示例:展示了如何使用DeepSeek的API创建知识库。
7.日志分析图谱:
实战流程:生成题目,如要求包含递归和非递归两种解法的二叉树题目,设置易错测试用例,附带时间复杂度分析要点。
8.视频脚本——情绪流量密码:
爆款公式拆解:黄金结构模板,如反常识开头“你知道吗?90%的人刷牙方式都是错的!”
总结:
全面介绍了DeepSeek的使用方法和技巧,从基础指令集到效率飞跃篇,再到自媒体运营和数据准备黄金法则,以及API开发者模式和日志分析图谱,最后还提供了视频脚本的创作技巧。这些内容不仅有助于用户快速上手DeepSeek,还能提高用户在工作和生活中的效率与创造力。
书籍简介
通过数学、插图和代码掌握语言模型,并从零开始构建自己的模型! 《百页语言模型书》由Andriy Burkov编写,是其畅销书《百页机器学习书》的续集(现已翻译成12种语言),为读者提供了从语言建模基础到现代大型语言模型(LLM)前沿的简洁而深入的学习旅程。借助Andriy著名的“百页”格式,读者将掌握理论概念和实际实现,是开发者、数据科学家和机器学习工程师的宝贵资源。 《百页语言模型书》将帮助你: * 掌握现代机器学习和神经网络的数学基础 * 用Python构建和训练三种语言模型架构 * 从零开始理解并编写基于Transformer的语言模型(使用PyTorch) * 使用LLM,包括指令微调和提示工程
本书以实践为导向,包含可运行的Python代码示例,逐步提升读者的理解,从基础机器学习概念到高级语言模型架构。所有代码示例均可在Google Colab上运行,任何拥有现代笔记本电脑的人都可以访问。 关于技术
语言模型已经从简单的n-gram统计方法演变为AI领域最具变革性的技术之一,其影响力仅次于个人计算机。本书涵盖了语言模型的完整演变——从基于计数的方法到现代的Transformer架构——深入理解这些模型的工作原理以及如何实现它们。 关于本书
《百页语言模型书》采取独特的方式,逐步介绍语言建模概念,从基础方法开始,逐步深入到现代架构。每一章都建立在前一章的基础上,通过清晰的解释、图示和实际实现,使复杂概念变得易于理解。 本书内容
机器学习和神经网络的基本原理 * 文本表示技术和基础语言建模 * 使用PyTorch实现RNN和Transformer架构 * 关于语言模型微调和提示工程的实用指导 * 重要的幻觉问题及模型评估方法 * 通过本书的维基提供的高级主题资源
完整代码和额外资源可以通过本书的网站在thelmbook.com/wiki上访问。 读者群体
读者应具备Python编程经验。虽然了解PyTorch和张量有帮助,但不是必需的。具备大学水平的数学知识会有助于理解,但本书通过直观的例子和图示以清晰的方式呈现数学概念。 技术和AI领袖的推荐
Vint Cerf,互联网先驱,图灵奖得主:“这本书帮我澄清了很多关于机器学习如何运作的概念——它是一本清晰的瑰宝。” * Tomáš Mikolov,word2vec和FastText的作者:“这本书是任何语言建模新手的良好起点,尤其适合那些渴望在现有技术基础上改进的读者。” * Florian Douetteau,Dataiku联合创始人兼首席执行官:“Andriy为我们呈现了从线性代数基础到Transformer实现的精彩历程,堪称100幅精彩画作。” * Jerry Liu,LlamaIndex联合创始人兼首席执行官:“这是一本最全面却又简明的手册,帮助我们深入理解LLM如何在幕后运作。”
更多AI领域领袖的推荐,敬请访问thelmbook.com。
无论是在自然世界还是人造环境中,现实世界的形态在某种深层意义上都具有数学特性。因此,学生和受过教育的成年人若能理解数学的核心原理,并欣赏数学的结构、模式和公式为何能恰如其分地成为我们理解世界的语言,将大有裨益。要实现这一目标的第二部分或许需要一定的专业背景,但本书的作者专注于第一部分,即探讨基础数学如何帮助我们从内部理解数学的本质。 《数学的本质》由270 道精心设计的问题构成,并附有详细的解答与评注。本书假设读者具备合理的中学数学基础,但更重要的是,他们希望探索课堂之外的数学世界,并愿意思考和解决那些揭示数学核心思想的挑战性问题。 全书共分六个章节,内容逐步递进,涵盖: * 心算技巧(Mental Skills) * 算术(Arithmetic) * 文字题(Word Problems) * 代数(Algebra) * 几何(Geometry) * 无限性(Infinity)
每个章节均穿插评注与解析,引导读者理解数学思维的运作方式。本书适合计划在大学深造数学的学生、教授 14-18 岁学生的数学教师,以及任何希望了解数学如何真正运作的人。它不仅提供了一系列启发性的基础数学问题,还帮助读者窥探数学的深层逻辑,体会数学的真正魅力。
https://aman.ai/primers/ai/deepseek-R1/
简介
DeepSeek-R1 代表了具备推理能力的大型语言模型(LLM)的一项重要突破。该模型以 MIT 许可协议发布,与 OpenAI 的 o1 系列等封闭源代码巨头竞争,同时开创了一种基于强化学习(RL)的推理任务框架。 DeepSeek-R1 利用在《DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models》一文中提出的组相对策略优化(GRPO),取代了传统的 PPO 方法,使得训练更加高效且具可扩展性。DeepSeek-R1 还采用了在 DeepSeek-V3 中引入的多头潜在注意力(MLA),通过将键-查询-值(KQV)矩阵投影到低维潜在空间,减少了长上下文处理时的计算和内存低效问题。此外,DeepSeek-R1 展示了通过 RL 推理能力的自然涌现,而无需依赖大规模的监督微调(SFT)。 DeepSeek-R1 重新定义了开源 AI,证明了推理能力可以仅通过 RL 自然涌现。通过诸如 GRPO、FP8 量化和涌现的 CoT 推理等创新,它与封闭源代码模型相媲美,同时促进了透明度和可访问性。随着研究社区在这些创新基础上不断发展,DeepSeek-R1 标志着朝着高效、推理驱动的 AI 迈出了重要的一步,并使所有人都能接触到这一技术。 本报告将探讨其架构、阶段性训练流程、GRPO 机制和涌现推理行为,以及蒸馏如何将推理能力传递到较小的模型中。架构基础
DeepSeek-R1 构建于 DeepSeek-V3-Base 模型之上,集成了优化训练效率和推理性能的前沿架构创新。这些基础增强包括专家混合(MoE)、多头潜在注意力(MLA)、FP8 量化和多标记预测(MTP)。本节详细介绍了每个组件。 DeepSeek-R1 的架构基础代表了最先进技术的综合应用,集合这些创新使其在推理密集型任务中的表现得到了优化。这些创新使其成为领先的开源大型语言模型,在效率和推理能力上与专有模型竞争。专家混合(MoE)
概述:专家混合(MoE)机制仅激活每个 Transformer 块中的部分参数,从而在保持模型质量的同时,实现了显著的计算节省。这种选择性激活对于在不成比例增加计算成本的情况下扩大模型参数非常有利。DeepSeek-V3 实现:DeepSeek-V3 在 MoE 中使用稀疏路由机制,其中一个门控网络为每个标记选择 top-k 专家。这确保了在任何给定时间,只有部分参数被激活,从而大大减少了计算量,同时保持了性能。DeepSeek-R1 的增强与实现细节:
最近,DeepSeek 在人工智能社区及其外部引起了广泛关注。一个有趣的问题是,DeepSeek 与其他大型语言模型(LLMs)相比如何。在许多 LLM 可以执行的任务中,本文选择了使用简短文本进行预测结果的任务进行比较。我们考虑了两种设置,一种是作者分类任务,另一种是引用分类任务。在第一个设置中,目标是确定一段简短文本是由人类还是 AI 撰写。在第二个设置中,目标是根据文本内容将引用分类为四种类型之一。对于每个实验,我们将 DeepSeek 与 4 种流行的 LLM 进行比较:Claude、Gemini、GPT 和 Llama。我们发现,在分类准确性方面,DeepSeek 在大多数情况下优于 Gemini、GPT 和 Llama,但在与 Claude 的比较中表现较差。我们还发现,DeepSeek 的运行速度与其他模型相当,但使用成本较低,而 Claude 的成本则远高于其他模型。最后,我们发现,在相似度方面,DeepSeek 的输出与 Gemini 和 Claude 最为相似(在所有五种 LLM 中,Claude 和 Gemini 的输出最为相似)。本文还展示了我们自己收集的一个完全标注的数据集,并提出了一种方法,利用 LLM 和近期的数据集 MADStat 来生成新的数据集。我们论文中的数据集可作为未来 LLM 研究的基准。关键词:引用分类、AI 生成文本检测、MADStat、提示、文本分析、文本内容。
1 引言
在过去的两周里,DeepSeek(DS),一款近期发布的大型语言模型(LLM)(DeepSeek-AI,2024),引起了整个人工智能行业的关注。自2025年1月20日发布最新版本以来,DS 已登上新闻和社交媒体的头条,迅速成为苹果商店下载量的顶端,令投资者惊讶不已,并使一些科技股,包括 Nvidia,出现下跌。DeepSeek 的特别之处在于,在一些基准任务中,它达到了与行业巨头(如 OpenAI 的 ChatGPT)相同甚至更好的结果,但训练成本却只有其一小部分。例如: * 在 Evstafev(2024)中,作者展示了基于 MATH 数据集(Hendrycks et al., 2021)衍生的30多个具有挑战性的数学问题,DeepSeek-R1 在这些复杂问题上取得了优于 ChatGPT 和 Gemini 等的准确性。 * 在2025年1月28日的 LinkedIn 帖子中,Javier Aguirre(专注于医学与人工智能的研究员,韩国)写道:“我对 DeepSeek 印象深刻……今天我遇到了一个非常棘手且复杂的(编程)问题。即便是 chatGPT-o1 也无法推理出足够的信息来解决它。我尝试了 DeepSeek,它立刻解决了这个问题,直击要点。” 这一观点得到了其他 AI 研究人员的认可。有关更多比较,请参见 DeepSeek-AI(2024);Zuo et al.(2025);Arrieta et al.(2025)。当然,一个复杂的 LLM 涉及多个方面(如基础设施、架构、性能、成本等),并能够完成许多任务。上面讨论的任务仅是 LLM 能够执行的一小部分。因此,进行更全面和深入的比较是十分必要的。显然,这样的比较可能需要大量时间和精力,但一些有趣的讨论已经出现在互联网上和社交媒体上(如 Ramadhan(2025))。 我们尤其关注 LLM 在预测准确性方面的表现。尽管关于该话题的文献非常丰富(例如,Friedman et al.(2001)),但使用 LLM 进行预测仍然具有优势:传统方法可能需要一个合理的训练样本集,而 LLM 仅需一个提示即可工作。因此,一个重要的问题是,DS 在预测准确性方面与其他 LLM 的比较。在本文中,我们考虑了以下两种分类设置。 * 作者分类(AC):确定文档是由人类生成(hum)、AI 生成(AI),还是由人类生成但经过 AI 编辑(humAI)。 * 引用分类(CC):给定一个(学术)引用及其周围的简短文本,确定该引用属于哪种类型(见下文的四种引用类型)。 对于这两种设置,我们将 DeepSeek-R1(DS)与四种代表性 LLM 进行比较:OpenAI 的 GPT-4o-mini(GPT)、Google 的 Gemini-1.5-flash(Gemini)、Meta 的 Llama-3.1-8b(Llama)和 Anthropic 的 Claude-3.5-sonnet(Claude)。接下来,我们将详细讨论这两种设置。1.1 作者分类在过去的两年中,AI 生成的文本内容开始迅速传播,影响了互联网、工作场所和日常生活。这引发了一个问题:如何区分 AI 生成的内容和人类生成的内容(Kreps et al., 2022;Danilevsky et al., 2020)。这个问题至少有两个有趣的方面。首先,AI 生成的内容可能包含有害的虚假信息,特别是在健康护理、新闻和金融等领域(Kreps et al., 2022),虚假和误导性信息的传播可能威胁到在线资源的完整性。其次,理解人类生成的内容与 AI 生成的内容之间的主要区别,可以显著帮助改进 AI 语言模型(Danilevsky et al., 2020)。我们通过考虑两种分类设置来解决这个问题:AC1 和 AC2。 * (AC1):在第一个设置中,我们专注于区分人类生成的文本与 AI 生成的文本(即,hum vs. AI)。 * (AC2):在第二个设置中,我们考虑区分由人类生成的文本和经过 AI 编辑的由人类生成的文本(即,hum vs. humAI)。 对于实验,我们建议使用近期的 MADStat 数据集(Ji et al., 2022;Ke et al., 2024)。MADStat 是一个大型统计出版物数据集,包含来自 36 本统计学及相关领域期刊的 83,331 篇论文的 BibTeX 和引用信息,时间跨度为 1975 到 2015 年。该数据集可以免费下载(下载链接请见第 2 节)。我们提出了一种通用的方法,利用 LLM 和 MADStat 来生成新的数据集进行研究。我们首先选择一些作者,并收集他们在 MADStat 中发表的所有论文。对于每篇论文,MADStat 包含标题和摘要。 * (hum):我们将所有摘要作为人类生成的文本。 * (AI):对于每篇论文,我们将标题输入 GPT-4o-mini,要求其生成摘要。我们将这些摘要视为 AI 生成的文本。 * (humAI):对于每篇论文,我们还要求 GPT-4o-mini 编辑摘要。我们将这些摘要视为经过 AI 编辑的人类生成文本。 看起来,使用这种方法,我们可以生成许多不同的数据集。这些数据集提供了一个有用的平台,供我们比较不同的分类方法,尤其是 5 种 LLM。备注 1(MadStatAI 数据集):在第 2.2 节中,我们在 MADStat 数据集中固定了 15 位作者(见表 2),并生成了一个包含 582 个摘要三元组的数据集(每个三元组包含三个摘要:hum、AI 和 humAI)。为了简化,我们将此数据集称为 MadStatAI。一旦数据集准备好,我们就可以使用上述 5 种 LLM 进行分类,使用相同的提示。详情请见第 2.1 节。请注意,除了 LLM,我们还可以将其他算法应用于该问题(Solaiman et al., 2019;Zellers et al., 2019;Gehrmann et al., 2019;Ippolito et al., 2020;Fagni et al., 2021;Adelani et al., 2020;Kashtan 和 Kipnis, 2024)。然而,由于本文的重点是将 DeepSeek 与其他 LLM 进行比较,因此我们仅考虑上述 5 种 LLM 分类器。1.2 引用分类当一篇论文被引用时,这个引用可能是重要的也可能是不重要的。因此,在评估一篇论文的影响力时,我们不仅关心它被引用的次数,还关心它有多少重要的引用。挑战在于,尽管统计一篇论文的原始引用次数(例如通过 Google Scholar 或 Web of Science)相对较为容易,但如何统计一篇论文的“重要”引用次数却不明确。为了解决这一问题,请注意,引用实例周围通常会有一段简短的文本。该文本包含了关于引用的重要信息,我们可以利用它来预测该引用的类型。这就引出了引用分类的问题,其目标是利用引用周围的简短文本来预测引用类型。在这里,我们面临两个挑战。首先,学术引用可能有多少种不同类型,以及这些类型是什么,这一点尚不清楚。其次,我们没有现成可用的数据集。为了解决这些挑战,首先,在回顾了大量文献和实证结果后,我们提出将所有学术引用分为四种不同类型:“基础思想(FI)”“技术基础(TB)”“背景(BG)”“比较(CP)”为了简化起见,我们将这四种类型编码为“1”、“2”、“3”、“4”。注意,前两种类型被视为重要引用,而后两种类型被视为相对不重要的引用。详细信息见第2.2节。其次,我们通过大量努力,亲自从头开始收集了一个新的数据集,命名为 CitaStat。在该数据集中,我们下载了1996至2020年间四本代表性统计学期刊中的所有论文PDF文件,这些论文包含约36万次引用实例。在我们的研究中,我们选择了3000个引用实例。对于每个引用:我们编写代码从PDF文件中选择引用周围的小段文本,并将其转换为可用的文本文件。我们手动将每个引用标记为上述四种引用类型中的一种。详见第2.2节。因此,CitaStat 是一个完全标注的数据集,包含3000个样本,其中每个y变量的值为 {1, 2, 3, 4}(如上所述),每个x变量是对应引用的简短文本,我们称之为该引用的文本内容。现在,我们可以使用该数据集比较上述五种 LLM 在引用分类任务中的表现。我们考虑了两个实验:(CC1):一个四类分类实验,我们使用未经修改的 CitaStat 数据集。(CC2):一个两类分类实验,我们将“1”和“2”(‘FI’ 和 ‘TB’)合并为一个新的类别“S”(重要引用),将“3”和“4”(‘BG’ 和 ‘CP’)合并为一个新的类别“I”(偶然引用)。1.3 结果与贡献我们将所有五种 LLM 应用到四个实验(AC1、AC2、CC1、CC2),并得出了以下观察结果:在分类错误方面,Claude 始终优于其他所有 LLM 方法。DeepSeek-R1 的表现逊色于 Claude,但在大多数情况下优于 Gemini、GPT 和 Llama。GPT 在 AC1 和 AC2 中的表现不佳,错误率接近随机猜测,但在 CC1 和 CC2 中的表现比随机猜测要好得多。Llama 的表现不尽如人意:它的错误率要么与随机猜测相当,要么甚至更高。在计算时间方面,Gemini 和 GPT 的速度远快于其他三种方法,而 DeepSeek-R1 最慢(DeepSeek 的旧版本 DeepSeekV3 更快,但其表现不如 DeepSeek-R1)。在成本方面,Claude 对客户来说远比其他方法昂贵。例如,对于 CC1 和 CC2,Claude 的成本为 $12.30,而 Llama 的成本为 $1.2,其他三种方法(DeepSeek、Gemini 和 GPT)的成本不超过 $0.3。在输出相似性方面,DeepSeek 与 Gemini 和 Claude 最为相似(GPT 和 Llama 在 AC1 和 AC2 中的输出非常相似,但两者的表现相对不理想)。**总体来说,我们发现 Claude 和 DeepSeek 具有最低的错误率,但 Claude 相对昂贵,而 DeepSeek 相对较慢。**我们做出了以下贡献。首先,随着 DeepSeek 成为 AI 社区内外的焦点,迫切需要了解它与其他流行的 LLM(大型语言模型)之间的比较。通过两个有趣的分类问题,我们展示了 DeepSeek 在使用一小段文本预测结果的任务中具有竞争力。其次,我们提出引用分类作为一个有趣的新问题,理解这一问题有助于评估学术研究的影响力。最后但同样重要的是,我们提供了 CitaStat 作为一个新的数据集,供评估学术研究使用。我们还提出了一个通用的生成新数据集的方法(以 MadStatAI 为例),用于研究 AI 生成的文本。这些数据集可以作为基准,用于比较不同算法,并学习人类生成的文本与 AI 生成的文本之间的差异。
人工智能的发展已到战略拐点 经过近七十年的发展,人工智能自出现至今其核心能力一直在提升,到如今已经成为覆盖感知、认知、决策、学习、执行、社会协作能力,未来还会向符合人类情感、伦理与道德观念的智能机器迈进。 发展到现在,人工智能的技术能力已经到了一个拐点,即从技术能力驱动向需求应用驱动转型的关键时期。随着技术能力的提升,技术进化引发经济进化,从旧范式抵达新范式。如今人工智能的发展已经处于从第三阶段向第四阶段过渡的时期。人工智能的能力成长历程已经足够长,到了寻找需求的战略拐点。 算力拐点:DeepSeek的出现,意味着算力效率拐点显现 DeepSeek通过优化算法架构,显著提升了算力利用效率,打破了算力至上的传统认知DeepSeek通过重新设计AI Infra,验证“性价比”训练路径 DeepSeek-R1的惊艳之处是通过重新设计训练流程、以少量SFT数据+多轮强化学习的办法,在提高了模型准确性的同时,也显著降低了内存占用和计算开销。 DeepSeek-R1提供了一种低成本训练的方法,而不是说只能通过低成本来进行训练。 反而通过优化,DeepSeek-R1可能实现了算力与性能的近似线性关系。每增加一张GPU,模型推理能力可稳定提升,无需依赖复杂的外部监督机制。这一特性直接验证了“算力即性能”的Scaling Law,为AI芯片市场及AI Infra市场提供了明确的增量需求逻辑。
随着人工智能(AI)技术的快速发展,大型语言模型(LLMs)在自然语言处理(NLP)、代码生成和决策支持等领域取得了显著进展。然而,传统的LLMs在多步逻辑推理、抽象概念化和潜在关系推断等方面仍存在局限性。DeepSeek AI通过计算高效的架构,如DeepSeek Mixture-of-Experts(MoE)框架,解决了这些挑战,减少了推理成本,同时保持了性能。DeepSeek v3是一种通用LLM,优化了指令跟随和推理能力,DeepSeek Coder专注于代码生成和软件工程,DeepSeek Math处理符号和定量推理,DeepSeek R1-Zero和DeepSeek R1则设计用于跨领域问题解决,且只需最少的微调。通过开源硬件无关的实现,DeepSeek拓宽了高性能AI的访问范围。本文综述了DeepSeek的架构进展,比较了其与最先进LLMs的特点和局限性,并探讨了其对AI研究的影响,详细讨论了未来工作的潜在方向。
近年来,AI领域的进展催生了专门优化的模型,用于推理、数学问题解决和代码生成,补充了在文本任务中表现出色但在数学精度和结构化问题解决方面表现不佳的通用LLMs。为了弥补这些差距,AI研究越来越关注增强下一代模型的推理能力和计算效率。
OpenAI的GPT-4于2023年3月发布,是一种多模态模型,能够处理文本和图像。基于Transformer架构,GPT-4在数学推理和语言理解等任务上超越了GPT-3。GPT-4估计拥有1.8万亿参数,显著大于GPT-3的1750亿参数。GPT-4最初支持8,192个令牌(GPT-4-8K)和32,768个令牌(GPT-4-32K)的上下文窗口。2023年晚些时候,GPT-4 Turbo的推出将上下文窗口扩展到了128K个令牌。尽管GPT-4在图像字幕生成和问题解决等任务中表现出色,但在医学、法律或技术领域等专业领域中,模型可能会生成听起来合理但实际上不正确或捏造的信息(幻觉)。
Claude 3.5于2024年发布,是Anthropic语言模型家族的最新进展。基于先前版本,Claude 3.5强调安全性、对齐性和性能,在推理、语言理解和处理复杂任务(如文本和代码生成)方面有所改进。Claude 3.5拥有约2500亿参数,在准确性和伦理对齐方面优于早期模型。它支持高达200K个令牌的扩展上下文,能够更好地处理较大的输入。通过人类反馈强化学习(RLHF)和宪法AI的增强,Claude 3.5减少了不良响应、偏见,并更好地与人类意图对齐。Claude 3.5在编码和科学推理等专业领域表现出色,具有更高的透明度和伦理保障。然而,当输入复杂或模糊且接近上下文限制时,性能可能会下降。
LLaMA 3.1于2024年发布,是Meta的LLaMA(大型语言模型Meta AI)家族的最新版本,继LLaMA 1(2022年)和LLaMA 2(2023年)之后。LLaMA 1拥有高达650亿参数,而LLaMA 2则扩展到700亿参数,并提供了较小的变体(7B、13B),增强了泛化和多语言能力。LLaMA 3.1进一步推进,拥有4050亿参数和128K个令牌的上下文窗口,通过分组查询注意力提高了效率。LLaMA 3.1在编码、逻辑问题解决和低资源语言任务中表现出色。与GPT-4等封闭模型不同,LLaMA 3.1保持开放权重,可供研究和商业使用,但仅限于文本输入。通过自动红队测试(模拟攻击或从对手角度测试系统的实践)和过滤训练数据等安全措施,LLaMA 3.1有助于减少不良输出。
Qwen2于2024年6月发布,是Qwen系列的最新版本,继Qwen1.5(2024年2月)和原始Qwen(2023年8月)之后。Qwen1.5拥有高达720亿参数的模型,强调效率和开源可访问性,而Qwen2则扩展到1100亿参数,在推理、多语言支持和编码能力方面有所改进。Qwen2利用128K个令牌的上下文窗口,通过YaRN(上下文扩展微调)等创新实现稳定的长上下文处理。Qwen2在数学推理、代码生成和低资源语言理解等任务中优于其前身。对齐技术包括RLHF、直接偏好优化(DPO)和精选的安全数据集,以减少不良响应。
Gemini 2.0是谷歌最新的多模态LLM,基于1.0和1.5版本,提供了更强大的生成式AI能力,涵盖文本、图像、音频和视频。Gemini 2.0 Flash最初作为实验性变体引入,提供了比其前身Gemini 1.5 Flash显著的速度和效率提升,而不会牺牲质量。它支持代理AI和原生工具使用,允许模型调用外部函数(如Google搜索和地图)并集成流数据以扩展实时应用。通过在数学、代码生成和多语言音频输出等任务中的更好表现以及增强的能源效率,Gemini 2.0旨在为开发者和终端用户提供全面、经济高效的AI解决方案。
DeepSeek模型基于Transformer架构,通过分组查询注意力(GQA)和FlashAttention 2进行优化。GQA通过分组查询共享键值头来平衡效率和质量,FlashAttention 2是一种计算感知算法,通过平铺和重计算优化GPU内存使用。这些增强功能减少了内存开销并提高了推理速度。核心注意力机制遵循以下公式:
Attention(Q,K,V)=softmax(QKTdk)V
3.1 DeepSeek 7BDeepSeek 7B是一个70亿参数的模型,设计用于通用任务,如推理、编码和文本生成。它采用预归一化、仅解码器的Transformer设置,具有RMSNorm归一化和SwiGLU激活的馈送层。该模型结合了RoPE和GQA,由30个Transformer层、32个注意力头和4096的隐藏维度组成,上下文窗口范围从4K到32K个令牌,可通过RoPE调整。DeepSeek Chat是一个更大的变体,拥有670亿参数,包括95个Transformer层、64个注意力头和8192的隐藏维度。
DeepSeek MoE-16B是一个160亿参数的MoE模型,每个令牌仅激活26亿参数,通过动态路由输入通过16个专家网络中的2个。这种稀疏激活将推理成本降低了70%,同时保持了与类似大小的密集模型相当的性能。它在涵盖代码、数学和通用文本的多样化数据集上进行了预训练,专注于高质量数据和专家专业化,以处理代码生成和数学推理等任务。表I展示了其他基于DeepSeek的专用变体。
DeepSeek V2系列包括DeepSeek V2,拥有2360亿总参数和210亿活跃参数,跨越60层和128K上下文长度,以及DeepSeek V2 Lite和两个聊天机器人。在架构上,它集成了MLA(多头潜在注意力)、低秩近似和MoE框架,以减少内存使用,同时保持深度上下文理解。该系列在8.1T个令牌上进行了预训练,使用YARN从4K扩展到128K,并通过1.2M个实例进行了SFT,以提高帮助性和安全性,最终形成了未发布的DeepSeek V2 Chat(SFT)。它通过两阶段RL过程进一步优化:第一阶段专注于数学和编码,使用基于编译器反馈和地面真实标签的奖励模型;第二阶段旨在提高帮助性、安全性和规则遵从性,利用基于人类偏好和手动编程的三个奖励模型。
DeepSeek V3代表了LLM的重大升级,使用14.8T个令牌从多语言语料库中进行预训练,并采用稀疏MoE架构,拥有6710亿参数,每个任务仅激活370亿参数。这种设计通过动态分配资源以满足特定任务需求,提高了计算效率,从而降低了运营成本。该模型包括一个路由系统,具有1个共享专家和256个路由专家,具有动态偏差调整功能,以确保专家利用的平衡,提高了可扩展性和可靠性。此外,多令牌预测(MTP)增强了模型在复杂语言和推理任务中的能力。尽管其架构先进,DeepSeek V3仍面临一些局限性:
奖励通过基于规则的信号指导优化过程,以提高训练效率并防止黑客攻击。准确性奖励通过确定性检查确保响应正确,例如验证数学解决方案是否符合所需格式或代码是否通过指定测试。格式奖励通过要求推理和答案在
DeepSeek R1顺序生成令牌,并通过生成思考令牌来阐明其推理过程,从而为问题解决分配额外时间,如图3所示。其训练管道包括以下步骤,如图4所示:
蒙特卡罗树搜索(MCTS)受AlphaGo启发,曾尝试系统地探索解决方案空间,但由于以下原因,证明在计算上不可行:
DeepSeek通过优先考虑领域特定优化、透明度和成本效率,与GPT-4.0、Claude 3.5、LLaMA 3.1、Qwen 2.5和Gemini 2.0等通用模型区分开来。虽然主流LLMs专注于广泛的适应性,DeepSeek则专注于精确推理和决策制定,使AI更加实用和可靠。DeepSeek R1是DeepSeek的最新变体,集成了文本、数据库和知识图谱,采用思维链(CoT)进行逐步推理和Pro Search进行上下文感知响应。这提高了数学、编码和决策制定等领域的准确性,同时保持了清晰度。在编码中,R1在提供答案之前概述其逻辑,使用户能够验证其推理。与专有模型不同,DeepSeek R1是开放访问的,降低了成本,同时保持了在不同领域的竞争性能。其高效设计,包括8位浮点精度(FP8),优化了内存使用,使其能够在资源有限的环境中部署。通过降低财务和技术门槛,DeepSeek使资源有限的地区、小型企业和研究人员能够访问先进的AI。早期版本的DeepSeek R1,DeepSeek R1-Zero存在格式不一致和多语言输出问题。为了解决这个问题,冷启动数据生成强制执行结构化格式和简洁摘要以提高清晰度。DeepSeek R1在以下方面表现出色:
DeepSeek R1提高了推理、效率、透明度和决策制定能力。其效率和清晰的推理为资源节约和可理解的AI设定了新标准。通过提供强大的开源性能,它挑战了专有模型,使先进的AI工具更加可访问,并在关键领域建立了信任。未来的工作可以集中在将DeepSeek R1的基础能力应用于各个领域的现实世界挑战。在医疗保健领域,改进结构化症状分析并整合医学知识图谱可以提高诊断准确性。在教育领域,自适应辅导系统可以将复杂概念分解为清晰的逐步推理,使学习更加有效。科学研究可以受益于将实验数据与理论模型连接的AI驱动方法,加速材料科学等领域的发现。通过更好的硬件-软件集成,可以在物联网和边缘设备上更有效地运行AI,同时减少能源消耗,从而实现效率的进步。在自动驾驶系统和法律AI等高风险领域确保透明度,将需要可审计的推理路径和内置的偏见缓解策略。通过社区驱动开发和专有增强相结合的开放源代码生态系统扩展,可以帮助为公共和企业需求定制AI工具。除了这些领域,AI在金融中的应用,如通过市场图谱分析进行实时风险评估,以及通过地缘政治知识图谱集成进行供应链管理,可以改变决策过程。展望未来,建立伦理问责标准,赋予领域专家AI驱动的洞察力,以及完善平衡规模与精度的混合架构,将是关键。DeepSeek R1有潜力推动一个建立在效率、透明度和现实世界影响基础上的AI景观。
[1] J. Achiam, S. Adler, S. Agarwal, L. Ahmad, I. Akkaya, F. L. Aleman, D. Almeida, J. Altenschmidt, S. Altman, S. Anadkat et al., "Gpt-4 technical report," arXiv preprint arXiv:2303.08774, 2023.[2] Anthropic, "Claude 3.5 sonnet," Blog post, 2024, accessed: 2024-07-15. [Online]. Available: https://www.anthropic.com/news/claude-3.5-sonnet[3] A. Dubey, A. Jauhri, A. Pandey, A. Kadian, A. Al-Daille, A. Lerman, A. Mathur, A. Schelten, A. Yang, R. Fan et al., "The llama 3 herd of models," arXiv preprint arXiv:2407.21783, 2024.[4] A. Yang, B. Yang, B. Zhang, B. Hui, B. Zheng, B. Yu, C. Li, D. Liu, F. Huang, H. Wei et al., "Qwen2. 5 technical report," arXiv preprint arXiv:2412.15115, 2024.[5] DeepMind, "Gemini 2.0," https://deepmind.google/technologies/gemini/, 2023, accessed: 2025-01-01.[6] X. Bi, D. Chen, G. Chen, S. Chen, D. Dai, C. Deng, H. Ding, K. Dong, Q. Du, Z. Fu et al., "Deepseek llm:
DeepSeek发展突飞猛进,领跑开源大模型技术与生态,DeepSeek模型已成为全球现象级模型。DeepSeek(深度求索)公司成立于2023年7月,是一家致力于实现通用人工智能(AGI)的创新型科技公司。2024年12月,DeepSeek-V3发布,性能对齐海外领军闭源模型。据官方技术论文披露,V3模型的总训练成本为557.6万美元,对比GPT-4o等模型的训练成本约为1亿美元。2025年1月,DeepSeek-R1发布,性能对标OpenAI-o1正式版。在数学、代码、自然语言推理等任务上,性能比肩OpenAI-o1正式版。2月1日消息,据彭博社报道,DeepSeek的人工智能助手在140个市场下载次数最多的移动应用程序排行榜上名列前茅。国外大型科技公司如微软、英伟达、亚马逊等已先后上线部署支持用户访问DeepSeek-R1模型。2月1日,华为云官方发布消息,硅基流动和华为云团队联合首发并上线基于华为云昇腾云服务的DeepSeekR1/V3推理服务。 DeepSeek通过MLA和DeepSeekMoE实现高效的推理和低成本训练,构建DualPipe算法和混合精度训练优化计算与通信负载;通过(分阶段)强化学习实现性能突破。多头潜在注意力(MLA)通过低秩联合压缩技术,大幅削减了注意力键(keys)和值(values)的存储空间,显著降低了内存需求。DeepSeekMoE架构采用了更为精细粒度的专家设置,能够更加灵活且高效地调配资源,进一步提升了整体的运行效率和表现。DeepSeek模型对跨节点的全对全通信机制进行优化,充分利用InfiniBand和NVLink提供的高带宽。创新性提出了DualPipe算法,通过优化计算与通信的重叠,有效减少了流水线中的空闲时间。采用FP8混合精度训练技术,不仅极大地加快了训练速度,还大幅降低了GPU内存的消耗。DeepSeek-R1-Zero通过强化学习架构创新实现突破性性能,核心技术创新体现在训练效能优化策略、双维度评价体系、结构化训练范式三个维度。DeepSeek-R1采用分阶段强化学习架构演进,包括冷启动阶段、面向推理的强化学习、拒绝采样与监督式微调、全场景强化学习等。 AI应用爆发在即,算力需求持续攀升,关注ASIC及服务器产业链。ScalingLaw与“涌现”能力是大模型训练遵循的重要法则,随着ChatGPT引领全球AI浪潮,国内外科技公司纷纷发布AI大模型,截至24年7月,全球AI大模型数量约1328个(其中美国位居第一位,占比44%;中国位居第二位,占比36%),模型的迭代加速、竞争加剧。同时,AI模型向多模态全方位转变,AI应用百花齐放,企业主动拥抱AI应用市场。因此,模型数量、模型参数、数据总量的持续增长及AI应用需求推动全球算力爆发式增长。在英伟达GPU随着架构的不断演进及算力的成倍增长,于AI大模型训练中得到广泛运用的同时,为了满足CSP客户更高性能和更好功能的需求,定制化芯片ASIC的需求持续提升,牧本钟摆从标准化逐渐摆向定制化。与之相应的算力基础设施持续建设和升级,促使国内外云服务商资本开支持续高速增长,带来AI服务器市场规模大幅提升,预计到26年全球AI服务器出货量将达到237万台,对应2023-2026年CAGR为26%。
书籍描述
数字孪生技术在制造业、能源、医疗保健和交通等各个领域迅速发展并获得广泛应用。数字孪生是对物理系统或过程的虚拟表示,能够实现实时监控、分析和优化。本书将全面介绍数字孪生技术及其进展与应用。对于从事工程学、计算机科学、数据分析及工业4.0领域的研究人员、学者、从业者和学生而言,将是一本有益的参考书。封底介绍
数字孪生技术在制造业、能源、医疗保健和交通等各个领域迅速发展并获得广泛应用。数字孪生是对物理系统或过程的虚拟表示,能够实现实时监控、分析和优化。本书将全面介绍数字孪生技术及其进展与应用。对于从事工程学、计算机科学、数据分析及工业4.0领域的研究人员、学者、从业者和学生而言,将是一本有益的参考书。作者简介
孙日尔(Dr. Sunil Gupta)教授是一位知名学者和研究人员,拥有超过20年的计算机科学与工程领域的教学、研究和行业经验。作为印度著名的国家理工学院贾兰达尔分校和哈米尔普尔分校的校友,孙教授将学术和行业的见解完美结合,打造了卓越的职业生涯。他曾在多个知名机构任职,包括UPES大学、BML孟贾尔大学、德里技术学院、IP大学、北印度工程学院、巴迪新兴科学大学和IFTM大学及物理实验室。他在课程开发方面做出了显著贡献,尤其是在UPES和BMU,他曾主导设计创新的技术课程,涉及前沿科技领域。孙教授的研究兴趣包括网络安全、云计算、大数据、无线传感器网络和医疗健康。他已在知名期刊和会议上发表超过100篇研究论文,拥有10项专利。他还编写了六本关于网络安全和人工智能的教材,并获得了政府和私营组织的研究资助。凭借其专业能力,孙教授曾担任多个国际期刊的审稿人,并且在工程学和物理科学领域的科学委员会和编辑审稿委员会担任职务。作为一名敬业的教师,孙教授指导了许多学生的研究和项目工作。他还组织过各种研讨会、会议和教师发展项目,并常常应私营和政府组织的邀请担任技术专家。他曾参与多个专家小组,包括教师招聘和机构评估专家小组。S. Ravi Shankar博士是一位技术专家,拥有超过30年的经验(博士后),专注于设计、开发和运营大规模复杂产品,并管理利用物联网、分布式系统、人工智能和自动驾驶车辆(如无人机)等技术提升运营效率和韧性的业务,推动了公司收入和利润的双重增长。他在领导跨四大洲、多个市场和领域(电信、交通、医疗和金融科技)的产品开发和管理团队方面积累了丰富经验。作为一名领导者,他提供了基于丰富经验的务实见解。他曾管理过超过1亿美元的收入流,并创造了多个获奖产品(如2002年TMC杂志的年度互联网电话产品奖)。他曾创办四家公司,并为30多家初创公司提供指导和咨询。他是PoMA(Proof-of-Match Adaptive)的发明人,这是一种为高速区块链设计的快速、公平、量子抗性领导者选举机制。同时,他还发明了一种与PoMA配套使用的信任模型,实现了一种高速共识机制,具有拜占庭容错性,并且可执行的资源占用极低。他拥有多个正在处理中的专利,并提供了两项最近专利申请的链接。Sanjeev Kumar博士,拥有坚实的教育背景和对学习的热情,带来了丰富的知识和专业经验。他在新德里的贾瓦哈拉尔·尼赫鲁大学(Jawaharlal Nehru University)计算机与系统科学学院获得了博士学位,论文题目为《神经元集群中峰值模式的随机建模与蒙特卡洛仿真》。此外,他还拥有Dayalbagh教育学院(被认证为大学)颁发的M.Tech和B.E学位。Prof. Sanjeev有超过23年的高等教育经验,是一位能够出色管理团队、进行研究和行政管理的学者。他在系级和院级研究与开发工作中做出了重要贡献。对于促进研究和创新文化,他建立了一个卓越中心,并指导教师成员撰写研究论文和专利申请,同时担任SCI期刊的审稿人和研究书籍的编辑。
被 DeepSeek 狂轰乱炸了一周后,终于在今天发布了新的模型 o3-mini。
此次发布,o3-mini 包含 low、medium 和 high 三个版本。OpenAI 表示,今天发布的 o3-mini 是其推理模型系列中最新、最具成本效益的模型,已上线 ChatGPT 和 API 。我们打开 ChatGPT,o3-mini 和 o3-mini-high 两个新模型已然上线。
不过 o3-mini 目前还不支持视觉功能,因此开发者需要继续使用 OpenAI o1 进行视觉推理任务。在使用权限上,ChatGPT Plus、Team 和 Pro 用户从今天起就可以访问 OpenAI o3-mini,企业版访问权限将在一周内开放。作为此次升级的一部分,OpenAI 将 Plus 和 Team 用户的速率限制从 o1-mini 的每天 50 条消息提高到 o3-mini 的每天 150 条消息。此外,o3-mini 现在可以使用搜索功能,提供带有相关网络来源链接的最新答案。这是其在推理模型中整合搜索功能的早期原型。从今天开始,免费用户也可以通过在消息编辑器中选择「推理」或重新生成响应来试用 OpenAI o3-mini。这是 OpenAI 首次向 ChatGPT 的免费用户提供推理模型。
虽然 OpenAI o1 仍然是更广泛使用的通用知识推理模型,但 OpenAI o3-mini 为需要精确性和速度的技术领域提供了专门的替代选择。在 ChatGPT 中,o3-mini 使用中等推理级别来提供速度和准确性之间的平衡。所有付费用户还可以在模型选择器中选择 o3-mini-high,从而获得需要更长时间生成响应但智能水平更高的版本。Pro 用户将可以无限制地访问 o3-mini 和 o3-mini-high。
OpenAI o3-mini 技术报告
OpenAI o系列模型通过大规模强化学习进行训练,利用思维链(chain of thought)进行推理。这些先进的推理能力为提升我们模型的安全性和鲁棒性提供了新的途径。特别是,当应对可能不安全的提示时,我们的模型能够在上下文中推理我们的安全策略,通过深思熟虑的对齐(deliberative alignment)[1]。这使得OpenAI o3-mini在某些风险基准测试中与最先进的性能达到同等水平,例如生成非法建议、选择刻板的回应以及容易受到已知突破的影响。训练模型在回答之前整合思维链有潜力解锁显著的好处,同时也增加了来自增强智能的潜在风险。 在《准备框架》(Preparedness Framework)下,OpenAI安全咨询小组(SAG)建议将OpenAI o3-mini(前缓解版)模型总体评定为中等风险。它在说服力(Persuasion)、化学、生物、辐射、核(CBRN)、以及模型自治性(Model Autonomy)方面的风险评定为中等风险,而在网络安全(Cybersecurity)方面的风险评定为低风险。只有那些在后缓解评定中为中等风险或以下的模型,才能部署;而只有那些在后缓解评定中为高风险或以下的模型,才能进一步开发。 由于编码和研究工程表现的提升,OpenAI o3-mini是第一个在模型自治性(Model Autonomy)方面达到中等风险评定的模型(见第5节《准备框架评估》)。然而,它在旨在测试与自我改进相关的现实世界机器学习研究能力的评估中表现不佳,而这对于高风险分类是必需的。我们的结果强调了构建稳健的对齐方法、广泛压力测试其有效性以及保持严格风险管理协议的必要性。 本报告概述了针对OpenAI o3-mini模型所开展的安全工作,包括安全评估、外部红队测试以及《准备框架》评估。
TJUNLP
本文分享内容来源于天津大学举办的“人工智能实践能力提升行动——DeepSeek 专题报告”活动中熊德意教授所做的主题报告,如需获取完整ppt,请在公众号窗口回复“TJUNLP-DeepSeek”即可下载。
【报告内容简介】
2025年2月,天津大学熊德意教授在天津大学“人工智能实践能力提升行动——DeepSeek 专题报告”活动上进行了题为“深度解读DeepSeek:从原理到模型”的主题报告。扫码即可观看报告视频回放。
报告中,熊德意教授系统剖析了DeepSeek的技术架构与创新优势。他首先探讨了生成式AI发展的黄金10年,分析了支撑生成式AI的五大技术突破;描绘了过去几年大语言模型发展的技术路径图,指出大语言发展至今两大问题:扩展法则是否到头了,推理模型如何实现。 在报告分享的第二部分,熊德意教授深入解读了DeepSeek的技术迭代路线、原理和创新,指出DeepSeek系列模型围绕模型架构和推理模型,通过算法和技术创新,以极低的训练成本实现与全球顶尖模型的性能对齐,其开源生态与推理能力为科研智能化提供了坚实基础;在剖析R1技术中,熊德意教授从扩展性及竞争策略角度分析了MCTS+PRM实现推理模型可能是一条无法扩展的路线,指出DeepSeek-R1在业内首次公开通过大规模强化学习探索出推理能力涌现的技术路线;在分析DeepSeek技术创新程度时,熊德意教授指出,DeepSeek在模型架构方面围绕降本增效大胆魔改模型底层架构和训练算法,成功绕过了美国通过芯片三级管控禁令设置的算力护城河,DeepSeek R1的开源发布进一步打破了美国第一梯队企业闭源形成的技术护城河,从而动摇了美国“AI Dominance”的两大基础。 在第三部分解读DeepSeek效应时,熊德意教授进一步探讨了DeepSeek技术创新背后的深层原因,指出0-1****的创新突破需要大模型技术型人才与战略性人才紧密合作。指出现阶段虽然取得了重大突破,但仍然要保持清醒,未来还需要进行更多的探明方向及未探明方向的0-1突破。 在最后展望部分,熊德意教授分享了他在TJUNLP实验室2024年终总结和2025展望会上的两页slides,提到实现AGI可能还需要3-5个重大突破;指出DeepSeek推理模型仍在快速迭代中,R2/R3可能很快推出,将有力支撑科学研究第五范式:智能驱动的科学研究范式;同时提到,AI安全是不容忽视的重大问题,推理能力应该和AI安全防控相结合。 报告PPT还提供了TJUNLP基于自研大模型评测基准数据实测DeepSeek R1逻辑推理及自主性AI风险的评测结果。
DeepSeek原理与效应
摘要—大规模语言模型(LLMs)在各种自然语言处理(NLP)任务中取得了显著成功,但它们的推理能力仍然是一个根本性挑战。尽管LLMs在流畅性和事实回忆方面表现出色,但在进行复杂推理时——涵盖逻辑推理、数学问题求解、常识推理以及多步骤推理——它们的表现常常未能达到人类的预期。本文综述了增强LLMs推理能力的新兴技术,并将现有方法归类为几种关键途径,包括提示策略(如链式思维推理、自一致性推理和树状思维推理)、架构创新(如检索增强模型、模块化推理网络和神经符号集成)以及学习范式(如使用推理专用数据集的微调、强化学习和自监督推理目标)。此外,本文还探讨了用于评估LLMs推理能力的评估框架,并强调了如幻觉、鲁棒性和推理在不同任务中的泛化等挑战。通过综合近期的进展,本文旨在为推理增强型LLMs的未来研究方向和实际应用提供见解。关键词—大规模语言模型(LLMs)、推理、逻辑推理、数学问题求解、常识推理、多步骤推理、提示策略、链式思维推理、自一致性推理、树状思维推理、检索增强模型、模块化推理网络、神经符号集成、强化学习、自监督学习、幻觉、人工智能推理。最近发布的LLM DeepSeek-R1 [1] 在数学和编程等复杂任务中表现突出,展示了先进的推理能力。它能够有效模拟类似人类的分析思维,提升数学、逻辑和编程等领域中的多步骤推理能力。
I. 引言
大规模语言模型(LLMs)在自然语言处理(NLP)领域引发了革命性的变化,实现了机器翻译、文本生成、问答系统等复杂语言任务的突破。尽管这些模型在流畅性和知识保持方面表现出色,但它们在系统性推理方面常常遇到挑战——这一能力对于需要逻辑推理、问题解决和决策的任务至关重要[2]。虽然LLMs能够生成似是而非的回答,但它们经常出现推理错误、不一致性和幻觉,限制了它们在科学发现、法律和医学等关键领域的可靠性[3][4]。人工智能中的推理广泛涵盖了多个认知过程,包括演绎推理、归纳推理、溯因推理和常识推理[5]–[9]。与基于检索的知识综合不同,推理要求进行多步骤的逻辑转换、上下文推广和结构化问题求解。传统的人工智能方法通过基于规则的符号系统处理推理问题[10][11],然而将这种结构化推理与基于数据驱动的LLMs范式相结合,仍然是一个持续的挑战。近期的研究探索了多种方法来增强LLMs的推理能力。这些方法可以分为三个领域:(1)提示策略,如链式思维(CoT)推理[12]、自一致性推理[13]和树状思维推理[14]方法,这些方法利用结构化提示来引导逐步推理;(2)架构创新,包括检索增强模型[15]、神经符号混合框架[16]以及整合结构化知识和逻辑的模块化推理架构[17];(3)学习范式,涉及使用专用数据集的微调[18]、强化学习以保持推理一致性[1]和鼓励逻辑泛化的自监督目标[19]。在近期的进展中,刚发布的LLM DeepSeek-R1 [1]在推理性能上表现出色,特别是在数学和编程等复杂领域。DeepSeek-R1通过有效模拟类人分析思维,增强了数学问题求解、逻辑推理和编程任务中的多步骤推理,展示了微调架构和新型训练范式在提升LLMs结构化推理方面的潜力。本综述系统地回顾了LLM推理的这些进展,评估了它们的有效性、局限性和应用,涵盖了评估基准、对抗性鲁棒性、跨领域泛化和推理偏见等关键挑战。通过综合近期的进展,本文提供了对有前景的技术和未来研究方向的全面概述。本文的结构如下:第二节介绍推理的基础,第三节探讨基于提示的推理增强,第四节讨论架构创新,第五节考察基于学习的方法,第六节重点讨论评估和基准测试,第七节强调挑战和开放研究方向,第八节总结全文。
2. AI和LLMs中的推理基础
2.1 定义和推理类型推理是从前提或证据中得出结论的认知过程。它可以分为以下几种类型:演绎推理:从一般前提中得出具体结论。如果前提为真,结论必须为真。这种方法在形式逻辑和自动定理证明中是基础。归纳推理:从具体例子或观察中得出一般原则。这种方法在机器学习的模式识别和预测中很常见。溯因推理:推断给定观察的最可能解释,常用于诊断和假设形成。常识推理:应用一般世界知识来推断合理结论,这对于理解人类交流中的隐含意义至关重要。概率推理:使用概率论处理逻辑推理中的不确定性,通常在贝叶斯网络和马尔可夫模型中实现。2.2 经典AI推理方法传统的AI研究长期以来一直专注于结合结构化知识表示的形式推理技术。一些关键的经典方法包括:符号逻辑:使用一阶逻辑(FOL)和命题逻辑推导结论的形式规则系统。基于规则的系统:应用预定义规则推断逻辑结论的AI模型,用于专家系统和决策树。知识图谱:实体及其关系的结构化表示,支持通过图遍历和推理机制进行推理。自动定理证明(ATP):使用逻辑演绎证明数学定理的算法,如命题逻辑中的归结原理。贝叶斯网络:通过表示变量之间的依赖关系,在不确定性下进行推理的概率图模型。尽管这些经典方法提供了强大的逻辑基础,但它们在应用于开放式、非结构化问题(如自然语言理解)时,面临着可扩展性和适应性的挑战。2.3 大语言模型中的推理大语言模型(LLMs)如GPT-4、PaLM和LLaMA利用深度学习架构(主要是Transformer)来处理和生成类人文本。然而,它们的推理能力与传统AI方法有显著不同:统计学习与符号逻辑:与遵循显式逻辑规则的符号AI不同,LLMs学习语言数据中的概率模式,使其推理隐含且非确定性。涌现的推理能力:研究表明,扩展LLMs可以提高其执行多步推理任务的能力,尽管缺乏显式逻辑约束。上下文和提示驱动的推理:LLMs严重依赖上下文窗口和外部提示工程技术(如链式思维提示)来生成推理响应。逻辑推理的局限性:虽然LLMs在识别语言模式方面表现出色,但它们在形式逻辑、数学证明和系统验证结论方面表现不佳。2.4 LLMs推理的挑战尽管取得了进展,LLMs在实现稳健和可靠的推理方面仍面临几个挑战:幻觉:LLMs有时会生成看似合理但错误的信息,导致不可靠的推理。缺乏显式记忆:与知识图谱或基于规则的系统不同,LLMs缺乏结构化的长期记忆,使得推理一致性难以维持。多步推理的困难:尽管链式思维提示等技术有所帮助,但LLMs经常无法正确遵循多步逻辑结构。偏见和可解释性问题:由于LLMs在大量文本语料库上训练,它们会继承数据中的偏见,这可能会以不可预测的方式影响推理输出。跨领域泛化的局限性:在多样化数据集上训练的LLMs仍然难以在不同领域之间转移推理技能(如法律推理与科学推理)。2.5 弥合AI推理与LLMs之间的差距为了增强LLMs的推理能力,最近的研究探索了将传统推理技术与深度学习相结合的混合模型。关键方向包括:使用结构化推理数据进行微调:在专门关注逻辑推理和数学问题解决的数据集上训练LLMs。检索增强推理:通过知识检索机制增强LLMs,使其能够基于外部事实生成响应。神经符号AI:将神经网络与符号推理框架相结合,以利用两者的优势。自监督和强化学习技术:鼓励模型通过迭代自训练和奖励机制来优化其推理。
3. 基于提示的推理增强
大语言模型(LLMs)通过结构化提示展示了涌现的推理能力,绕过了微调的需要。本节探讨了关键的提示技术,如图1所示,并在表I中进行了总结。3.1 链式思维(CoT)推理链式思维(CoT)推理是一种提示技术,用于提高大语言模型(LLMs)解决复杂推理问题的能力。它涉及将问题分解为一系列中间步骤,使模型能够更有效地推理并得出准确的结论。该技术在复杂的数学问题解决、逻辑推理和常识推理中特别有效。逐步推理:模型生成一系列逻辑步骤来解决问题,而不是立即回答,从而提高多步问题解决的准确性。中间推理:该方法通过考虑子问题来模仿人类的问题解决过程,然后再得出最终答案。性能提升:研究表明,与标准提示相比,CoT提示在算术和逻辑任务中的表现有所提高。局限性:虽然CoT增强了可解释性,但其有效性取决于提示设计和模型大小。在某些情况下,模型可能仍会生成错误的中间步骤。3.2 自一致性提示自一致性提示是一种先进的提示技术,通过生成多个不同的推理路径并选择最一致的答案来提高推理准确性。该方法在复杂推理任务中非常有用,因为单一的链式思维(CoT)可能容易出错。该技术通过聚合输出来减少响应的变异性并提高准确性。多个推理路径:模型生成多个不同的推理链,而不是单一的逐步解决方案。多样化的思维过程:每个推理链可能遵循不同的逻辑方法,减少了单一轨迹中的偏见。最终答案的多数投票:最终响应基于生成的样本中最频繁出现的正确答案。3.3 树状思维(ToT)推理树状思维(ToT)推理是一种高级问题解决框架,通过探索树状结构中的多个可能推理路径来扩展CoT推理。与遵循单一线性推理路径不同,ToT允许在每个步骤中进行分支和评估,从而产生更稳健和最优的解决方案。结构化探索:模型在树状结构中探索不同的路径,选择最优的推理路线。决策评估与剪枝:ToT推理在组合和规划任务中特别有效。最终答案选择:基于评分或多数选择过程选择最佳推理路径。3.4 程序辅助语言模型(PAL)程序辅助语言模型(PAL)是一种通过允许模型调用外部计算工具(如Python或符号求解器)来执行计算、执行基于逻辑的步骤或验证解决方案的技术。与纯粹依赖内部基于标记的推理不同,PAL利用外部代码执行来提高准确性和可靠性。基于执行的验证:模型生成代码格式的推理步骤,执行代码以验证正确性。数学推理中的更高准确性:PAL在需要精确计算的任务中表现出色。依赖外部工具:该方法需要与外部计算环境集成,限制了其可扩展性。实证研究表明,CoT和自一致性提示显著提高了推理性能,特别是在数学和逻辑等结构化领域。
4. 增强推理的架构创新虽然基于提示的技术提高了大语言模型(LLMs)的推理能力,但架构创新在增强其执行结构化和复杂推理的能力方面起着至关重要的作用。本节探讨了各种模型架构和修改,以提高逻辑推理、多步推理和知识集成。
4.1 检索增强生成(RAG)检索增强生成(RAG)是一种结合信息检索与文本生成的AI框架。它通过结合外部知识源来增强LLM推理。与仅依赖参数记忆相比,该方法提高了响应的准确性、相关性和事实基础。查询处理:输入查询被处理并嵌入到向量空间中。模型使用检索系统(如密集段落检索、BM25)搜索相关文档。检索到的文档被附加到输入中。知识增强推理:基于查询和检索到的信息,RAG模型补充其推理过程。减少幻觉:通过将响应基于外部数据,RAG有助于减少纯生成模型中常见的幻觉。4.2 神经符号混合模型神经符号混合模型结合了神经网络(擅长模式识别和从数据中学习)与符号AI(支持推理、逻辑和显式知识表示)。这种融合旨在创建更可解释、可泛化和稳健的AI系统。逻辑与学习的集成:这些模型使用神经网络处理非结构化文本,同时使用符号逻辑进行基于规则的推理。神经网络提取特征,而符号系统提供逻辑推理。增强的可解释性:符号组件提高了透明度,使推理步骤更易解释。基于规则的系统、知识图谱和形式逻辑支持结构化推理。4.3 记忆增强神经网络记忆增强神经网络(MANNs)是将外部记忆与神经网络集成的AI模型,使其能够动态存储、检索和操作信息。MANNs可以从外部记忆模块中读取和写入数据,使其在长序列推理一致性、终身学习和少样本学习任务中更具适应性。控制器(神经网络核心):处理输入并管理与内存交互的神经网络(通常是RNN或Transformer),决定何时以及如何读取/写入数据。外部记忆存储:一种结构化记忆组件(如可微分记忆矩阵或键值存储),用于随时间保存信息。与仅依赖隐藏状态的标准RNN不同,MANNs显式检索和更新记忆。记忆访问机制:记忆增强神经网络中的读/写操作通常是可微分的,支持基于梯度的学习。寻址机制包括基于内容的寻址(通过评估与存储数据的相似性来检索记忆)和基于位置的寻址(基于位置或顺序访问记忆)。
4.4 图神经网络(GNNs)和知识图谱图神经网络(GNNs)通过显式表示实体及其关系,提供了结构化推理框架,支持逻辑推理和多跳问答。结构化表示:图神经网络是设计用于处理图结构数据的神经模型。与传统的深度学习模型(处理图像等网格或文本等序列)不同,GNNs可以建模相互连接实体之间的复杂关系。知识图谱上的推理:知识图谱将事实表示为实体和关系的结构化格式,通常为三元组(主语、谓语、宾语)。当GNNs应用于知识图谱时,它们支持推理、推断和发现隐藏关系。提高可解释性:基于知识图谱的推理通过使推理路径显式化来增强透明度。
4.5 工具使用和API增强LLMs可以通过外部工具和API增强推理能力,利用语言建模之外的专业计算资源。程序化推理:模型调用外部计算器、定理求解器或搜索引擎来验证推理步骤。动态数据集成:如表II所示,API支持实时访问更新知识,提高推理的事实准确性。局限性:依赖外部服务会引入延迟,并需要访问控制机制。实证结果表明,检索增强和神经符号模型在结构化推理任务中优于标准Transformer架构。
5. 基于学习的推理方法除了提示和架构创新外,基于学习的方法在提高大语言模型(LLMs)的推理能力方面至关重要。这些方法涉及训练范式,如使用推理特定数据集进行微调、强化学习以提高一致性,以及自监督学习以支持逻辑推理。本节探讨了各种基于学习的方法,以增强LLMs的推理能力。
5.1 使用推理特定数据集进行监督微调在高质量推理数据集上微调LLMs可以提高模型的逻辑、数学和常识推理能力。数学和逻辑推理:在MATH和GSM8K等数据集上微调,增强了数学问题解决和逻辑推理能力。常识和因果推理:在SWAG和Abductive NLI(aNLI)等数据集上微调,帮助模型学习常识推理和溯因推理。科学和多跳推理:在ARC和HotpotQA等数据集上微调,提高了多步推理和问答能力。尽管微调可以显著提高模型性能,但需要仔细的数据集策划,以防止过拟合并确保泛化能力。
5.2 基于人类反馈的强化学习基于人类反馈的强化学习(RLHF)等方法训练模型,使其推理与人类偏好保持一致。逻辑一致性的奖励模型:RLHF根据人类评估者的反馈优化模型输出,减少逻辑推理中的错误。奖励模型(RM)训练:人类评估者根据偏好评估多个模型输出。一个专门的神经网络(称为奖励模型)在这些排名上进行训练,以捕捉人类偏好。模型生成并评估其推理步骤,通过迭代学习优化正确解决方案。通过近端策略优化(PPO)进行强化学习:PPO是一种强化学习算法,用于优化模型,同时防止其基础性能的剧烈偏离。
5.3 自监督和对比学习用于推理自监督学习(SSL)和对比学习(CL)已成为训练大规模语言模型进行推理任务的有效方法。与依赖人工标注数据的监督学习不同,SSL和CL利用数据中的固有结构来创建有用的表示并提高推理能力。用于逻辑推理的对比学习:通过训练模型区分有效和无效的推理链,对比学习提高了逻辑一致性。对比学习优化对比损失(如InfoNCE或Triplet Loss),鼓励正确的推理对具有更高的相似性分数。使用合成数据进行自训练:模型生成合成推理路径并验证其正确性,迭代优化其推理能力。零样本和少样本推理改进:自监督学习通过使模型能够直接从原始数据中提取抽象推理模式,增强了模型在新推理任务中的泛化能力。
5.4 自动验证器和批评模型为了进一步提高推理准确性,LLMs可以与自动验证器配对,后者对模型的输出进行批判性评估。二次验证模型:一个单独的模型评估LLM的推理输出,过滤掉错误的推理。形式证明检查:与定理证明器集成,允许模型严格验证逻辑推理。局限性:由于难以形式化自然语言推理,自动验证仍然具有挑战性。
评估大语言模型(LLMs)的推理能力需要使用标准化的基准和性能指标进行系统评估。本节探讨了各种评估方法,包括推理基准、关键性能指标、与人类推理的比较分析以及当前评估策略的局限性。
已经开发了多个基准来评估LLMs在不同推理方面的能力,从数学问题解决到逻辑推理和常识推理。
VII. 挑战与开放研究方向
尽管在增强大规模语言模型(LLMs)推理能力方面取得了显著进展,仍然存在若干挑战。这些局限性妨碍了它们在高风险领域的可靠性、鲁棒性和适用性。本节讨论了关键挑战,并提出了解决这些问题的开放研究方向。A. 幻觉与虚假信息LLMs推理中的一个关键挑战是生成幻觉或事实错误的信息[20]。未验证的推理步骤:LLMs有时会生成看似合理但实际上不正确的推理链,导致逻辑不一致[48]。事实检查机制:现有的事实检查技术未能有效过滤多步骤推理任务中的虚假信息[30]。开放研究方向:开发自动化验证工具,并将LLMs与结构化数据库集成,以提高事实准确性。B. 跨领域泛化LLMs往往难以将推理能力泛化到不同领域,限制了它们在新场景中的适应性[49]。领域特定过拟合:在特定推理数据集上进行微调可能会提升目标任务的性能,但却妨碍了模型在未见领域中的适应性[32]。跨领域迁移学习:当前的迁移学习方法在保持推理一致性方面存在局限性,尤其在不同语境下[19]。开放研究方向:研究元学习和持续学习策略以促进跨领域泛化。C. 对抗性攻击的鲁棒性LLMs容易受到对抗性扰动的影响,这些扰动利用推理中的弱点,导致错误或误导性的输出[44]。对输入变化的敏感性:在提示词中做出微小修改可能会导致推理输出发生显著变化,影响模型的可靠性。对抗性鲁棒性测试:现有的基准测试并未充分评估LLMs在对抗性推理挑战中的表现[27]。开放研究方向:开发稳健的对抗性训练技术,提高模型对输入操控的抗性。D. 结合符号推理与神经推理LLMs依赖于统计模式识别,而非形式化的逻辑推理,这导致它们在复杂推理任务中出现错误[16]。纯神经网络方法的局限性:LLMs在结构化逻辑、形式证明和抽象符号推理方面表现较差[40]。神经符号人工智能:将神经网络与符号推理框架结合,可以增强逻辑一致性和可解释性[16]。开放研究方向:推进混合神经符号架构,以增强推理的人工智能模型。
VIII. 结论推动大规模语言模型(LLMs)中的推理能力发展是人工智能发展的一个关键里程碑。尽管在提示技术、架构创新和基于学习的方法上有所进步,但在逻辑一致性、泛化能力、鲁棒性和可解释性等方面仍然存在挑战。本文综述了增强LLM推理能力的关键方法,将其分类为提示技术、架构创新和基于学习的策略。
摘 要 多智能体协同应用广泛, 并被列为新一代人工智能基础理论亟待突破的重要内容之一, 对其开展研究具有鲜明的 科学价值和工程意义.随着人工智能技术的进步, 单一控制视角下的多智能体协同已无法满足执行大规模复杂任务的需求, 融合博弈与控制的多智能体协同应运而生.在这一框架下, 多智能体协同具有更高的灵活性、适应性和扩展性, 为多智能体 系统的发展带来了更多可能性. 本文首先从协同角度入手, 回顾了多智能体协同控制与估计领域的进展. 接着, 围绕博弈与 控制的融合, 介绍了博弈框架的基本概念, 重点讨论了在微分博弈下多智能体协同问题的建模与分析, 并简要总结了如何应 用强化学习算法求解博弈均衡. 文章选取多移动机器人导航和电动汽车充电调度这两个典型的多智能体协同场景, 介绍了 博弈与控制融合的思想如何用于解决相关领域的难点问题. 最后, 对博弈与控制融合框架下的多智能体协同进行了总结和 展望. 关键词 多智能体系统, 协同控制, 博弈优化, 应用