了解 GPT、Gemini 等大型语言模型的原理(通俗易懂)

《How Large Language Models Work》(大型语言模型的工作原理)将多年关于大型语言模型(LLMs)的专家研究成果,转化为一本可读性强、内容聚焦的入门读物,帮助你掌握这些令人惊叹的系统。书中清晰解释了 LLM 的工作机制,介绍了优化与微调方法,以及如何构建高效、可靠的 AI 应用流程和管道。

**你将在本书中学到:

如何测试与评估 LLM * 如何使用人类反馈、监督微调和检索增强生成(RAG)技术 * 如何降低错误输出、高风险失误和自动化偏差的风险 * 如何构建人机交互系统 * 如何将 LLM 与传统机器学习方法相结合

本书由 Booz Allen Hamilton 的顶尖机器学习研究人员撰写,包括研究员 Stella Biderman、AI/ML 研究总监 Drew Farris 和新兴 AI 研究总监 Edward Raff。他们用通俗易懂的语言,深入浅出地讲解了 LLM 和 GPT 技术的运作原理,适合所有读者阅读和理解。


技术背景介绍

大型语言模型为“人工智能”中的“I”(智能)赋予了实质含义。通过连接来自数十亿文档中的词语、概念与模式,LLM 能够生成类似人类的自然语言回应,这正是 ChatGPT、Claude 和 Deep-Seek 等工具令人惊艳的原因所在。在这本内容翔实又富有趣味的书中,来自 Booz Allen Hamilton 的全球顶尖机器学习研究人员将带你探讨 LLM 的基本原理、机遇与局限,并介绍如何将 AI 融入组织与应用中。


图书内容简介

《How Large Language Models Work》将带你深入了解 LLM 的内部运作机制,逐步揭示从自然语言提示到清晰文本生成的全过程。书中采用平实语言,讲解 LLM 的构建方式、错误成因,以及如何设计可靠的 AI 解决方案。同时你还将了解 LLM 的“思维方式”、如何构建基于 LLM 的智能体与问答系统,以及如何处理相关的伦理、法律与安全问题。

**书中内容包括:

如何定制 LLM 以满足具体应用需求 * 如何降低错误输出和偏差风险 * 破解 LLM 的常见误解 * LLM 在语言处理之外的更多能力


适读人群

无需具备机器学习或人工智能相关知识,初学者亦可放心阅读。


作者简介

Edward Raff 是 Booz Allen Hamilton 的新兴 AI 总监,领导该公司机器学习研究团队。他在医疗、自然语言处理、计算机视觉和网络安全等多个领域从事 AI/ML 基础研究,著有《Inside Deep Learning》。Raff 博士已在顶级 AI 会议发表超过 100 篇研究论文,是 Java Statistical Analysis Tool 库的作者,美国人工智能促进协会资深会员,曾两度担任“应用机器学习与信息技术大会”及“网络安全人工智能研讨会”主席。他的研究成果已被全球多个杀毒软件厂商采纳并部署。 Drew Farris 是一位资深软件开发者与技术顾问,专注于大规模分析、分布式计算与机器学习。曾在 TextWise 公司工作,开发结合自然语言处理、分类与可视化的文本管理与检索系统。他参与多个开源项目,包括 Apache Mahout、Lucene 和 Solr,并拥有雪城大学信息学院的信息资源管理硕士学位与计算机图形学学士学位。 Stella Biderman 是 Booz Allen Hamilton 的机器学习研究员,同时担任非营利研究机构 EleutherAI 的执行董事。她是开源人工智能的重要倡导者,参与训练了多个世界领先的开源 AI 模型。Biderman 拥有佐治亚理工学院计算机科学硕士学位,以及芝加哥大学的数学与哲学学士学位。


目录一览

大局观:LLM 是什么? 1. 分词器:LLM 如何“看”世界 1. Transformer:输入如何变成输出 1. LLM 是如何学习的 1. 如何约束 LLM 的行为 1. 超越自然语言处理 1. 对 LLM 的误解、局限与能力 1. 如何用 LLM 设计解决方案 1. 构建与使用 LLM 的伦理问题

成为VIP会员查看完整内容
41

本书的核心观点是:自人工智能(AI)发展以来,我们能够且应当将过去40至50年视作重大变革来临前的“前奏”。人类认知曾是推动人类发展的核心动力。因此,机器执行人类认知的能力,以及人机团队共同学习、协同思考的能力,将塑造一个崭新的世界。这场变革开创的现实,让我们得以构想这样的未来:后人会将我们生活的时代视为新阶段智人(或无论何种称谓)的起源。唯有数十年后——甚或更久——人类才能获得理解这些变革的恰当视角。在我们这一代,技术不仅是辅助人类的工具;是AI在改变人类。是AI在重构知识与传播的本质。有生以来第一次,改写DNA的可能性不再属于科幻范畴。我们正处于数字时代变革加速的临界点。

本文探讨当AI颠覆基本规则时,如何在此数字时代(DE)加速期引领国家与组织。书中案例源自国家安全领域的经验与视角,但其洞见同样适用于经济、医疗健康、个人安全等其他领域。任何国家、机构及学科均可借鉴本书观点并应用于自身领域。本书遵循一条既宽广又聚焦的道路——宽广到足以引领我们迈向未来,聚焦到贴合现实、切实可行,并阐明我们能够且真正应当采取的行动。我们当下构建的理念、概念与实践,将成为下一代发展的基石。因此,在此阶段赢得竞争的国家或组织,将具备定义并主宰未来的潜力。

本书面向高级领导人、高级军官与高层管理者;面向期望精准把握组织所面临挑战、风险与机遇的国家安全官员及管理者;亦面向所有渴望理解AI潜力与应用的人们。

成为VIP会员查看完整内容
31

书籍简介

《没有标签的数据》揭示了处理未标注数据的关键算法和模型的所有实践实现,充满了案例研究,展示了如何将每项技术应用于现实世界的问题。 在《没有标签的数据》中,您将学习到: * 机器学习和无监督学习的基本构建块和概念 * 结构化和非结构化数据(如文本和图像)的数据清理 * 聚类算法,如K-means、层次聚类、DBSCAN、高斯混合模型和谱聚类 * 降维方法,如主成分分析(PCA)、SVD、多维尺度法和t-SNE * 关联规则算法,如aPriori、ECLAT、SPADE * 无监督时间序列聚类、高斯混合模型和统计方法 * 构建神经网络,如生成对抗网络(GANs)和自编码器 * 使用Python工具和库,如scikit-learn、numpy、Pandas、matplotlib、Seaborn、Keras、TensorFlow和Flask * 如何解释无监督学习的结果 * 如何为您的问题选择合适的算法 * 如何将无监督学习部署到生产环境 * 机器学习解决方案的维护与更新

《没有标签的数据》介绍了数学技巧、关键算法和Python实现,帮助您构建针对无标签数据的机器学习模型。您将发现无监督机器学习的方法,这些方法可以解开原始、现实世界的数据集,并支持您的业务做出正确的战略决策。 这本书不仅仅是理论的堆砌,它架起了复杂数学和实践Python实现之间的桥梁,涵盖了从模型开发到生产部署的全过程。您将发现机器学习和无监督学习的业务用例,并访问相关的研究论文,帮助您完善知识体系。 技术概述

生成式AI、预测算法、欺诈检测等许多分析任务都依赖廉价且丰富的无标签数据。无标签数据的机器学习——即无监督学习——将原始文本、图像和数字转化为有关客户的洞察、精确的计算机视觉和用于训练AI模型的高质量数据集。本书将向您展示如何实现这一点。 关于本书

《没有标签的数据》是一本全面介绍无监督学习的指南,深入探讨其数学基础、算法和实际应用。书中通过零售、航空和银行的实际案例,结合完整的Python代码进行讲解。您将学习到核心技术,如聚类和降维,并深入探讨自编码器和生成对抗网络(GANs)等高级主题。通过本书,您将了解如何将无监督学习应用于商业场景,并学会如何开发端到端的机器学习模型。 书中内容

精通无监督学习算法 * 实际的业务应用 * 精心策划AI训练数据集 * 探索自编码器和GANs的应用

读者对象

本书面向数据科学专业人士,假设读者具备Python和基础机器学习的知识。 作者简介

Vaibhav Verdhan 是一位资深的数据科学专业人士,拥有在大型制药公司从事数据科学项目的丰富经验。 目录

第1部分

机器学习简介 1. 聚类技术 1. 降维方法

第2部分

  1. 关联规则

  2. 聚类

  3. 降维

  4. 无监督学习在文本数据中的应用 第3部分

  5. 深度学习:基础概念

  6. 自编码器

  7. 生成对抗网络(GANs)、生成式AI和ChatGPT

  8. 端到端模型部署 附录A 数学基础 购买打印版书籍,您将免费获得电子书(PDF或ePub格式),并获得在线liveBook格式的访问权限(包括其AI助手,可以用任何语言回答您的问题)。

书评

“这是一本很好的无监督学习技术入门书。” —— Richard Vaughan “用Python深入探讨无监督学习的极佳书籍!” —— Todd Cook 封底文字

《没有标签的数据》展示了处理无标签数据的关键算法和模型的所有实践实现,充满了案例研究,展示了如何将每项技术应用于现实世界的问题。在《无监督学习的模型与算法》中,您将学习到: * 机器学习和无监督学习的基本构建块和概念 * 结构化和非结构化数据(如文本和图像)的数据清理 * 无监督时间序列聚类、高斯混合模型和统计方法 * 构建神经网络,如生成对抗网络(GANs)和自编码器 * 如何解释无监督学习的结果 * 如何为您的问题选择合适的算法 * 如何将无监督学习部署到生产环境 * 机器学习和无监督学习的业务用例

《无监督学习的模型与算法》介绍了数学技巧、关键算法和Python实现,帮助您构建针对无标签数据的机器学习模型。您将发现无监督机器学习方法,这些方法能够解开原始、现实世界的数据集,并支持您的业务做出明智的战略决策。本书避免陷入理论的泥潭——它架起了复杂数学和实践Python实现之间的桥梁,涵盖了从模型开发到生产部署的全过程。

成为VIP会员查看完整内容
27
登陆后查看更多精品内容
VIP会员
本周荟萃主题
区块链
区块链(Blockchain)是由节点参与的分布式数据库系统,它的特点是不可更改,不可伪造,也可以将其理解为账簿系统(ledger)。它是比特币的一个重要概念,完整比特币区块链的副本,记录了其代币(token)的每一笔交易。通过这些信息,我们可以找到每一个地址,在历史上任何一点所拥有的价值。
深度学习
机器学习的一个分支,它基于试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的一系列算法。
机器学习
“机器学习是近20多年兴起的一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。机器学习理论主要是设计和分析一些让 可以自动“ 学习”的算法。机器学习算法是一类从数据中自动分析获得规律,并利用规律对未知数据进行预测的算法。因为学习算法中涉及了大量的统计学理论,机器学习与统计推断学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。很多 推论问题属于 无程序可循难度,所以部分的机器学习研究是开发容易处理的近似算法。”

——中文维基百科
强化学习
强化学习(RL)是机器学习的一个领域,与软件代理应如何在环境中采取行动以最大化累积奖励的概念有关。除了监督学习和非监督学习外,强化学习是三种基本的机器学习范式之一。 强化学习与监督学习的不同之处在于,不需要呈现带标签的输入/输出对,也不需要显式纠正次优动作。相反,重点是在探索(未知领域)和利用(当前知识)之间找到平衡。 该环境通常以马尔可夫决策过程(MDP)的形式陈述,因为针对这种情况的许多强化学习算法都使用动态编程技术。经典动态规划方法和强化学习算法之间的主要区别在于,后者不假设MDP的确切数学模型,并且针对无法采用精确方法的大型MDP。
推荐系统
推荐系统,是指根据用户的习惯、偏好或兴趣,从不断到来的大规模信息中识别满足用户兴趣的信息的过程。推荐推荐任务中的信息往往称为物品(Item)。根据具体应用背景的不同,这些物品可以是新闻、电影、音乐、广告、商品等各种对象。推荐系统利用电子商务网站向客户提供商品信息和建议,帮助用户决定应该购买什么产品,模拟销售人员帮助客户完成购买过程。个性化推荐是根据用户的兴趣特点和购买行为,向用户推荐用户感兴趣的信息和商品。随着电子商务规模的不断扩大,商品个数和种类快速增长,顾客需要花费大量的时间才能找到自己想买的商品。这种浏览大量无关的信息和产品过程无疑会使淹没在信息过载问题中的消费者不断流失。为了解决这些问题,个性化推荐系统应运而生。个性化推荐系统是建立在海量数据挖掘基础上的一种高级商务智能平台,以帮助电子商务网站为其顾客购物提供完全个性化的决策支持和信息服务。
卷积神经网络
在深度学习中,卷积神经网络(CNN或ConvNet)是一类深度神经网络,最常用于分析视觉图像。基于它们的共享权重架构和平移不变性特征,它们也被称为位移不变或空间不变的人工神经网络(SIANN)。它们在图像和视频识别,推荐系统,图像分类,医学图像分析,自然语言处理,和财务时间序列中都有应用。
计算机网络
计算机网络( Computer Networks )指将地理位置不同的多台计算机及其外部设备,通过通信线路连接起来,在网络操作系统及网络通信协议的管理和协调下,实现资源共享和信息传递的计算机系统。
命名实体识别
命名实体识别(NER)(也称为实体标识,实体组块和实体提取)是信息抽取的子任务,旨在将非结构化文本中提到的命名实体定位和分类为预定义类别,例如人员姓名、地名、机构名、专有名词等。
机器翻译
机器翻译,又称为自动翻译,是利用计算机将一种自然语言(源语言)转换为另一种自然语言(目标语言)的过程。它是计算语言学的一个分支,是人工智能的终极目标之一,具有重要的科学研究价值。
计算机视觉
计算机视觉是一门研究如何使机器“看”的科学,更进一步的说,就是是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉,并进一步做图形处理,使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科,计算机视觉研究相关的理论和技术,试图建立能够从图像或者多维数据中获取‘信息’的人工智能系统。
微信扫码咨询专知VIP会员