书籍简介

《没有标签的数据》揭示了处理未标注数据的关键算法和模型的所有实践实现,充满了案例研究,展示了如何将每项技术应用于现实世界的问题。 在《没有标签的数据》中,您将学习到: * 机器学习和无监督学习的基本构建块和概念 * 结构化和非结构化数据(如文本和图像)的数据清理 * 聚类算法,如K-means、层次聚类、DBSCAN、高斯混合模型和谱聚类 * 降维方法,如主成分分析(PCA)、SVD、多维尺度法和t-SNE * 关联规则算法,如aPriori、ECLAT、SPADE * 无监督时间序列聚类、高斯混合模型和统计方法 * 构建神经网络,如生成对抗网络(GANs)和自编码器 * 使用Python工具和库,如scikit-learn、numpy、Pandas、matplotlib、Seaborn、Keras、TensorFlow和Flask * 如何解释无监督学习的结果 * 如何为您的问题选择合适的算法 * 如何将无监督学习部署到生产环境 * 机器学习解决方案的维护与更新

《没有标签的数据》介绍了数学技巧、关键算法和Python实现,帮助您构建针对无标签数据的机器学习模型。您将发现无监督机器学习的方法,这些方法可以解开原始、现实世界的数据集,并支持您的业务做出正确的战略决策。 这本书不仅仅是理论的堆砌,它架起了复杂数学和实践Python实现之间的桥梁,涵盖了从模型开发到生产部署的全过程。您将发现机器学习和无监督学习的业务用例,并访问相关的研究论文,帮助您完善知识体系。 技术概述

生成式AI、预测算法、欺诈检测等许多分析任务都依赖廉价且丰富的无标签数据。无标签数据的机器学习——即无监督学习——将原始文本、图像和数字转化为有关客户的洞察、精确的计算机视觉和用于训练AI模型的高质量数据集。本书将向您展示如何实现这一点。 关于本书

《没有标签的数据》是一本全面介绍无监督学习的指南,深入探讨其数学基础、算法和实际应用。书中通过零售、航空和银行的实际案例,结合完整的Python代码进行讲解。您将学习到核心技术,如聚类和降维,并深入探讨自编码器和生成对抗网络(GANs)等高级主题。通过本书,您将了解如何将无监督学习应用于商业场景,并学会如何开发端到端的机器学习模型。 书中内容

精通无监督学习算法 * 实际的业务应用 * 精心策划AI训练数据集 * 探索自编码器和GANs的应用

读者对象

本书面向数据科学专业人士,假设读者具备Python和基础机器学习的知识。 作者简介

Vaibhav Verdhan 是一位资深的数据科学专业人士,拥有在大型制药公司从事数据科学项目的丰富经验。 目录

第1部分

机器学习简介 1. 聚类技术 1. 降维方法

第2部分

  1. 关联规则

  2. 聚类

  3. 降维

  4. 无监督学习在文本数据中的应用 第3部分

  5. 深度学习:基础概念

  6. 自编码器

  7. 生成对抗网络(GANs)、生成式AI和ChatGPT

  8. 端到端模型部署 附录A 数学基础 购买打印版书籍,您将免费获得电子书(PDF或ePub格式),并获得在线liveBook格式的访问权限(包括其AI助手,可以用任何语言回答您的问题)。

书评

“这是一本很好的无监督学习技术入门书。” —— Richard Vaughan “用Python深入探讨无监督学习的极佳书籍!” —— Todd Cook 封底文字

《没有标签的数据》展示了处理无标签数据的关键算法和模型的所有实践实现,充满了案例研究,展示了如何将每项技术应用于现实世界的问题。在《无监督学习的模型与算法》中,您将学习到: * 机器学习和无监督学习的基本构建块和概念 * 结构化和非结构化数据(如文本和图像)的数据清理 * 无监督时间序列聚类、高斯混合模型和统计方法 * 构建神经网络,如生成对抗网络(GANs)和自编码器 * 如何解释无监督学习的结果 * 如何为您的问题选择合适的算法 * 如何将无监督学习部署到生产环境 * 机器学习和无监督学习的业务用例

《无监督学习的模型与算法》介绍了数学技巧、关键算法和Python实现,帮助您构建针对无标签数据的机器学习模型。您将发现无监督机器学习方法,这些方法能够解开原始、现实世界的数据集,并支持您的业务做出明智的战略决策。本书避免陷入理论的泥潭——它架起了复杂数学和实践Python实现之间的桥梁,涵盖了从模型开发到生产部署的全过程。

成为VIP会员查看完整内容
27

书籍描述

《AI产品开发的艺术》是一本实践指南,旨在帮助您通过人工智能驱动的产品交付商业价值!了解AI如何改善内容创作、加速数据分析以及提升流程自动化。 《AI产品开发的艺术》提供了一种清晰、实用的方法来创建使用AI的产品。它为您提供了关于如何定义AI战略、开发有用的AI功能并支持用户信任和采用的现实指导。与其追逐潮流,本书专注于核心原则和长期思维——这些基础在该领域不断发展的过程中始终保持相关性。 在《AI产品开发的艺术》一书中,您将学习到以下重要技能: • 识别AI的市场和商业机会 • 深入了解现代AI方法,包括预测AI、LLM(大型语言模型)、增强生成检索(RAG)和代理系统 • 组建有效的AI解决方案,避免炒作 • 高效与数据科学家和机器学习工程师沟通 • 设计注重信任和透明度的用户友好型AI界面 • 实施安全、道德的AI,并确保适当的治理流程 《AI产品开发的艺术》是为产品经理、技术高管、UX设计师以及任何负责AI驱动产品成功的人群所写的。它介绍了广泛的AI机会,并通过来自不同领域的案例研究,如营销、供应链和物流,展示了实践经验。您将从最初的设计讨论开始,逐步进行高效且安全的开发,最终进入部署及日常管理AI驱动应用程序的阶段。 关于技术

将AI集成到您的软件和流程中,可以为您的业务和客户创造真正的价值——前提是您做对了。当您负责交付AI支持的产品时,您需要识别具有高影响力的机会,与工程师高效合作,设计以用户为中心的功能,避免常见的项目失败,并管理现实中的发布。本书将教您如何做到这一点。 关于本书

《AI产品开发的艺术》为您提供了清晰的框架、实用的工具和现实世界的例子,帮助您在新的AI项目中建立信心并获得成功——即使您是第一次接触AI。您将喜欢来自营销、供应链管理和可持续发展等领域的实践用例和端到端场景。 书中内容

• 创意、塑造并优先考虑AI机会 • 使用提示工程、RAG和预测AI等技术开发AI系统 • 与不同的AI利益相关者沟通并促进AI的采纳 目标读者

本书面向软件产品经理、面向商业的工程师、UX设计师、创业公司创始人以及任何负责开发、设计或营销AI产品的人群。无需AI经验。 关于作者

Janna Lipenkova博士是AI和分析业务的创始人,她成功地为宝马、汉莎航空和大众等世界级公司管理AI项目。 目录

第一部分

使用AI驱动的产品创造价值 1. 发现并优先考虑AI机会 1. 绘制AI解决方案图谱

第二部分

  1. 预测AI

  2. 探索和评估语言模型

  3. 提示工程

  4. 搜索与增强生成检索(RAG)

  5. 微调语言模型

  6. 使用代理AI自动化工作流 第三部分

  7. AI用户体验:为不确定性设计

  8. AI治理

  9. 与您的利益相关者合作 附录A AI开发工具箱 购买印刷版书籍后,您可以获得Manning的免费电子书(PDF或ePub)以及在线liveBook格式的访问权限(其中包括AI助手,可以用任何语言回答您的问题)。 关于作者

Janna Lipenkova博士拥有中文学和经济学硕士学位以及计算语言学博士学位。在学术界和工业界从事AI和自然语言处理的多年工作后,她创办了自己的AI和分析公司。她获得并管理了全球公司的项目,积累了通过AI实现商业成功的第一手经验。目前,她专注于利用AI为公司在创新、数字化和可持续发展等核心领域生成战略建议。

成为VIP会员查看完整内容
28
登陆后查看更多精品内容
VIP会员
本周荟萃主题
区块链
区块链(Blockchain)是由节点参与的分布式数据库系统,它的特点是不可更改,不可伪造,也可以将其理解为账簿系统(ledger)。它是比特币的一个重要概念,完整比特币区块链的副本,记录了其代币(token)的每一笔交易。通过这些信息,我们可以找到每一个地址,在历史上任何一点所拥有的价值。
深度学习
机器学习的一个分支,它基于试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的一系列算法。
机器学习
“机器学习是近20多年兴起的一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。机器学习理论主要是设计和分析一些让 可以自动“ 学习”的算法。机器学习算法是一类从数据中自动分析获得规律,并利用规律对未知数据进行预测的算法。因为学习算法中涉及了大量的统计学理论,机器学习与统计推断学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。很多 推论问题属于 无程序可循难度,所以部分的机器学习研究是开发容易处理的近似算法。”

——中文维基百科
强化学习
强化学习(RL)是机器学习的一个领域,与软件代理应如何在环境中采取行动以最大化累积奖励的概念有关。除了监督学习和非监督学习外,强化学习是三种基本的机器学习范式之一。 强化学习与监督学习的不同之处在于,不需要呈现带标签的输入/输出对,也不需要显式纠正次优动作。相反,重点是在探索(未知领域)和利用(当前知识)之间找到平衡。 该环境通常以马尔可夫决策过程(MDP)的形式陈述,因为针对这种情况的许多强化学习算法都使用动态编程技术。经典动态规划方法和强化学习算法之间的主要区别在于,后者不假设MDP的确切数学模型,并且针对无法采用精确方法的大型MDP。
推荐系统
推荐系统,是指根据用户的习惯、偏好或兴趣,从不断到来的大规模信息中识别满足用户兴趣的信息的过程。推荐推荐任务中的信息往往称为物品(Item)。根据具体应用背景的不同,这些物品可以是新闻、电影、音乐、广告、商品等各种对象。推荐系统利用电子商务网站向客户提供商品信息和建议,帮助用户决定应该购买什么产品,模拟销售人员帮助客户完成购买过程。个性化推荐是根据用户的兴趣特点和购买行为,向用户推荐用户感兴趣的信息和商品。随着电子商务规模的不断扩大,商品个数和种类快速增长,顾客需要花费大量的时间才能找到自己想买的商品。这种浏览大量无关的信息和产品过程无疑会使淹没在信息过载问题中的消费者不断流失。为了解决这些问题,个性化推荐系统应运而生。个性化推荐系统是建立在海量数据挖掘基础上的一种高级商务智能平台,以帮助电子商务网站为其顾客购物提供完全个性化的决策支持和信息服务。
卷积神经网络
在深度学习中,卷积神经网络(CNN或ConvNet)是一类深度神经网络,最常用于分析视觉图像。基于它们的共享权重架构和平移不变性特征,它们也被称为位移不变或空间不变的人工神经网络(SIANN)。它们在图像和视频识别,推荐系统,图像分类,医学图像分析,自然语言处理,和财务时间序列中都有应用。
计算机网络
计算机网络( Computer Networks )指将地理位置不同的多台计算机及其外部设备,通过通信线路连接起来,在网络操作系统及网络通信协议的管理和协调下,实现资源共享和信息传递的计算机系统。
命名实体识别
命名实体识别(NER)(也称为实体标识,实体组块和实体提取)是信息抽取的子任务,旨在将非结构化文本中提到的命名实体定位和分类为预定义类别,例如人员姓名、地名、机构名、专有名词等。
机器翻译
机器翻译,又称为自动翻译,是利用计算机将一种自然语言(源语言)转换为另一种自然语言(目标语言)的过程。它是计算语言学的一个分支,是人工智能的终极目标之一,具有重要的科学研究价值。
计算机视觉
计算机视觉是一门研究如何使机器“看”的科学,更进一步的说,就是是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉,并进一步做图形处理,使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科,计算机视觉研究相关的理论和技术,试图建立能够从图像或者多维数据中获取‘信息’的人工智能系统。
微信扫码咨询专知VIP会员