《How Large Language Models Work》(大型语言模型的工作原理)将多年关于大型语言模型(LLMs)的专家研究成果,转化为一本可读性强、内容聚焦的入门读物,帮助你掌握这些令人惊叹的系统。书中清晰解释了 LLM 的工作机制,介绍了优化与微调方法,以及如何构建高效、可靠的 AI 应用流程和管道。
如何测试与评估 LLM * 如何使用人类反馈、监督微调和检索增强生成(RAG)技术 * 如何降低错误输出、高风险失误和自动化偏差的风险 * 如何构建人机交互系统 * 如何将 LLM 与传统机器学习方法相结合
本书由 Booz Allen Hamilton 的顶尖机器学习研究人员撰写,包括研究员 Stella Biderman、AI/ML 研究总监 Drew Farris 和新兴 AI 研究总监 Edward Raff。他们用通俗易懂的语言,深入浅出地讲解了 LLM 和 GPT 技术的运作原理,适合所有读者阅读和理解。
大型语言模型为“人工智能”中的“I”(智能)赋予了实质含义。通过连接来自数十亿文档中的词语、概念与模式,LLM 能够生成类似人类的自然语言回应,这正是 ChatGPT、Claude 和 Deep-Seek 等工具令人惊艳的原因所在。在这本内容翔实又富有趣味的书中,来自 Booz Allen Hamilton 的全球顶尖机器学习研究人员将带你探讨 LLM 的基本原理、机遇与局限,并介绍如何将 AI 融入组织与应用中。
《How Large Language Models Work》将带你深入了解 LLM 的内部运作机制,逐步揭示从自然语言提示到清晰文本生成的全过程。书中采用平实语言,讲解 LLM 的构建方式、错误成因,以及如何设计可靠的 AI 解决方案。同时你还将了解 LLM 的“思维方式”、如何构建基于 LLM 的智能体与问答系统,以及如何处理相关的伦理、法律与安全问题。
如何定制 LLM 以满足具体应用需求 * 如何降低错误输出和偏差风险 * 破解 LLM 的常见误解 * LLM 在语言处理之外的更多能力
无需具备机器学习或人工智能相关知识,初学者亦可放心阅读。
Edward Raff 是 Booz Allen Hamilton 的新兴 AI 总监,领导该公司机器学习研究团队。他在医疗、自然语言处理、计算机视觉和网络安全等多个领域从事 AI/ML 基础研究,著有《Inside Deep Learning》。Raff 博士已在顶级 AI 会议发表超过 100 篇研究论文,是 Java Statistical Analysis Tool 库的作者,美国人工智能促进协会资深会员,曾两度担任“应用机器学习与信息技术大会”及“网络安全人工智能研讨会”主席。他的研究成果已被全球多个杀毒软件厂商采纳并部署。 Drew Farris 是一位资深软件开发者与技术顾问,专注于大规模分析、分布式计算与机器学习。曾在 TextWise 公司工作,开发结合自然语言处理、分类与可视化的文本管理与检索系统。他参与多个开源项目,包括 Apache Mahout、Lucene 和 Solr,并拥有雪城大学信息学院的信息资源管理硕士学位与计算机图形学学士学位。 Stella Biderman 是 Booz Allen Hamilton 的机器学习研究员,同时担任非营利研究机构 EleutherAI 的执行董事。她是开源人工智能的重要倡导者,参与训练了多个世界领先的开源 AI 模型。Biderman 拥有佐治亚理工学院计算机科学硕士学位,以及芝加哥大学的数学与哲学学士学位。
大局观:LLM 是什么? 1. 分词器:LLM 如何“看”世界 1. Transformer:输入如何变成输出 1. LLM 是如何学习的 1. 如何约束 LLM 的行为 1. 超越自然语言处理 1. 对 LLM 的误解、局限与能力 1. 如何用 LLM 设计解决方案 1. 构建与使用 LLM 的伦理问题
本书的核心观点是:自人工智能(AI)发展以来,我们能够且应当将过去40至50年视作重大变革来临前的“前奏”。人类认知曾是推动人类发展的核心动力。因此,机器执行人类认知的能力,以及人机团队共同学习、协同思考的能力,将塑造一个崭新的世界。这场变革开创的现实,让我们得以构想这样的未来:后人会将我们生活的时代视为新阶段智人(或无论何种称谓)的起源。唯有数十年后——甚或更久——人类才能获得理解这些变革的恰当视角。在我们这一代,技术不仅是辅助人类的工具;是AI在改变人类。是AI在重构知识与传播的本质。有生以来第一次,改写DNA的可能性不再属于科幻范畴。我们正处于数字时代变革加速的临界点。
本文探讨当AI颠覆基本规则时,如何在此数字时代(DE)加速期引领国家与组织。书中案例源自国家安全领域的经验与视角,但其洞见同样适用于经济、医疗健康、个人安全等其他领域。任何国家、机构及学科均可借鉴本书观点并应用于自身领域。本书遵循一条既宽广又聚焦的道路——宽广到足以引领我们迈向未来,聚焦到贴合现实、切实可行,并阐明我们能够且真正应当采取的行动。我们当下构建的理念、概念与实践,将成为下一代发展的基石。因此,在此阶段赢得竞争的国家或组织,将具备定义并主宰未来的潜力。
本书面向高级领导人、高级军官与高层管理者;面向期望精准把握组织所面临挑战、风险与机遇的国家安全官员及管理者;亦面向所有渴望理解AI潜力与应用的人们。
书籍简介
《没有标签的数据》揭示了处理未标注数据的关键算法和模型的所有实践实现,充满了案例研究,展示了如何将每项技术应用于现实世界的问题。 在《没有标签的数据》中,您将学习到: * 机器学习和无监督学习的基本构建块和概念 * 结构化和非结构化数据(如文本和图像)的数据清理 * 聚类算法,如K-means、层次聚类、DBSCAN、高斯混合模型和谱聚类 * 降维方法,如主成分分析(PCA)、SVD、多维尺度法和t-SNE * 关联规则算法,如aPriori、ECLAT、SPADE * 无监督时间序列聚类、高斯混合模型和统计方法 * 构建神经网络,如生成对抗网络(GANs)和自编码器 * 使用Python工具和库,如scikit-learn、numpy、Pandas、matplotlib、Seaborn、Keras、TensorFlow和Flask * 如何解释无监督学习的结果 * 如何为您的问题选择合适的算法 * 如何将无监督学习部署到生产环境 * 机器学习解决方案的维护与更新
《没有标签的数据》介绍了数学技巧、关键算法和Python实现,帮助您构建针对无标签数据的机器学习模型。您将发现无监督机器学习的方法,这些方法可以解开原始、现实世界的数据集,并支持您的业务做出正确的战略决策。 这本书不仅仅是理论的堆砌,它架起了复杂数学和实践Python实现之间的桥梁,涵盖了从模型开发到生产部署的全过程。您将发现机器学习和无监督学习的业务用例,并访问相关的研究论文,帮助您完善知识体系。 技术概述
生成式AI、预测算法、欺诈检测等许多分析任务都依赖廉价且丰富的无标签数据。无标签数据的机器学习——即无监督学习——将原始文本、图像和数字转化为有关客户的洞察、精确的计算机视觉和用于训练AI模型的高质量数据集。本书将向您展示如何实现这一点。 关于本书
《没有标签的数据》是一本全面介绍无监督学习的指南,深入探讨其数学基础、算法和实际应用。书中通过零售、航空和银行的实际案例,结合完整的Python代码进行讲解。您将学习到核心技术,如聚类和降维,并深入探讨自编码器和生成对抗网络(GANs)等高级主题。通过本书,您将了解如何将无监督学习应用于商业场景,并学会如何开发端到端的机器学习模型。 书中内容
精通无监督学习算法 * 实际的业务应用 * 精心策划AI训练数据集 * 探索自编码器和GANs的应用
读者对象
本书面向数据科学专业人士,假设读者具备Python和基础机器学习的知识。 作者简介
Vaibhav Verdhan 是一位资深的数据科学专业人士,拥有在大型制药公司从事数据科学项目的丰富经验。 目录
第1部分
机器学习简介 1. 聚类技术 1. 降维方法
第2部分
关联规则
聚类
降维
无监督学习在文本数据中的应用 第3部分
深度学习:基础概念
自编码器
生成对抗网络(GANs)、生成式AI和ChatGPT
端到端模型部署 附录A 数学基础 购买打印版书籍,您将免费获得电子书(PDF或ePub格式),并获得在线liveBook格式的访问权限(包括其AI助手,可以用任何语言回答您的问题)。
书评
“这是一本很好的无监督学习技术入门书。” —— Richard Vaughan “用Python深入探讨无监督学习的极佳书籍!” —— Todd Cook 封底文字
《没有标签的数据》展示了处理无标签数据的关键算法和模型的所有实践实现,充满了案例研究,展示了如何将每项技术应用于现实世界的问题。在《无监督学习的模型与算法》中,您将学习到: * 机器学习和无监督学习的基本构建块和概念 * 结构化和非结构化数据(如文本和图像)的数据清理 * 无监督时间序列聚类、高斯混合模型和统计方法 * 构建神经网络,如生成对抗网络(GANs)和自编码器 * 如何解释无监督学习的结果 * 如何为您的问题选择合适的算法 * 如何将无监督学习部署到生产环境 * 机器学习和无监督学习的业务用例
《无监督学习的模型与算法》介绍了数学技巧、关键算法和Python实现,帮助您构建针对无标签数据的机器学习模型。您将发现无监督机器学习方法,这些方法能够解开原始、现实世界的数据集,并支持您的业务做出明智的战略决策。本书避免陷入理论的泥潭——它架起了复杂数学和实践Python实现之间的桥梁,涵盖了从模型开发到生产部署的全过程。