人工智能在过去几年中获得了令人惊讶的新语言能力。由于深度学习的快速进展,语言AI系统能够比以往更好地书写和理解文本。这一趋势推动了新功能、新产品和整个行业的兴起。通过本书,Python开发者将学习到今天使用这些能力所需的实用工具和概念。

你将学习如何利用预训练的大型语言模型的强大功能来进行文案写作和摘要生成;创建超越关键词匹配的语义搜索系统;构建分类和聚类文本的系统,以实现大规模理解大量文本文档;并使用现有的库和预训练模型进行文本分类、搜索和聚类。 本书还将向你展示如何:

  • 构建高级LLM(大型语言模型)管道以聚类文本文档并探索它们所属的主题
  • 构建超越关键词搜索的语义搜索引擎,采用密集检索和重排序等方法
  • 了解这些模型在各种用例中的价值
  • 理解BERT和GPT等基础Transformer模型的架构
  • 更深入地了解LLM的训练过程
  • 通过生成模型微调、对比微调和上下文学习等方法优化LLM以用于特定应用 希望这个翻译符合您的要求并保持了原文的技术准确性和细微差别。

成为VIP会员查看完整内容
66

AI驱动的搜索引擎 使用最新的机器学习技术和大型语言模型构建搜索引擎。 《AI驱动的搜索引擎》向您展示如何构建能够从用户和内容中不断学习的最先进搜索引擎,为您提供更具领域感知和智能化的搜索体验。 书中您将学习到的数据科学驱动的现代搜索技术包括:

使用基础模型中的密集向量嵌入进行语义搜索

检索增强生成(Retrieval-Augmented Generation,RAG)

结合搜索和大型语言模型(LLM)的问答和摘要功能

微调基于Transformers的LLM

基于用户信号和向量嵌入的个性化搜索

收集用户行为信号并构建信号增强模型

语义知识图谱用于特定领域学习

实现机器学习排名模型(学习排名)

构建点击模型以自动化机器学习排名

生成式搜索、混合搜索以及搜索前沿技术

当今的搜索引擎需要变得更聪明,理解自然语言查询的细微差别,以及每个用户的偏好和上下文信息。这本书将帮助您构建能够利用用户互动和内容中的隐藏语义关系,自动提供更好、更相关搜索体验的搜索引擎。您甚至会学习如何整合大型语言模型(LLM),如GPT和其他基础模型,以极大地加速搜索技术的能力。 关于本书 《AI驱动的搜索引擎》是一本实用指南,帮助您将最前沿的数据科学技术应用于搜索。它教您如何构建能够自动理解用户查询意图的搜索引擎,从而显著提高搜索结果的相关性。 您将使用LLM进行嵌入、问答和结果摘要,并学习如何对它们进行微调以获得最佳结果。通过交互式笔记本中的代码,您将部署智能AI驱动的搜索系统,为每个用户、领域和查询提供实时个性化和上下文理解,并通过自学习搜索平台不断从不断发展的内容和用户互动中学习。 关于读者 适合熟悉搜索引擎技术基础知识的软件开发人员和数据科学家。 关于作者 * Trey Grainger 是Searchkernel(AI驱动搜索)的创始人,Presearch(去中心化网络搜索)的首席技术官,曾任Lucidworks(电子商务、站点和企业搜索)的首席算法官和工程高级副总裁。Trey还共同撰写了《Solr in Action》(Manning,2014)。 * Doug Turnbull 是Reddit(社交讨论搜索)的首席工程师,曾任Spotify(电子商务搜索)的员工级相关性工程师,曾任OpenSource Connections的首席技术官。Doug还共同撰写了《Relevant Search》(Manning,2016)。 * Max Irwin 是Max.io(AI模型扩展)的创始人,曾任OpenSource Connections(搜索相关性咨询)的管理顾问。

成为VIP会员查看完整内容
45

大型语言模型(LLMs)和扩散模型,如ChatGPT和Stable Diffusion,具有前所未有的潜力。由于它们经过了对互联网公开文本和图像的训练,它们可以为各种任务做出有用的贡献。随着入门门槛的显著降低,几乎任何开发者都可以利用LLMs和扩散模型来解决以前不适合自动化的问题。通过本书,您将获得生成式AI的坚实基础,包括如何在实践中应用这些模型。大多数开发者在首次将LLMs和扩散模型集成到他们的工作流程中时,往往难以从中获得足够可靠的结果以用于自动化系统。作者James Phoenix和Mike Taylor向您展示了一套称为提示工程的原则,这些原则可以使您有效地与AI合作。学习如何让AI为您服务。本书解释了:

  • 您程序的AI模型的交互链结构及其之间的细化步骤- 如何将应用问题转化为模型训练领域的文档完成问题,从而产生AI模型请求- LLM和扩散模型架构的影响——以及如何与其最佳互动- 这些原则在自然语言处理、文本和图像生成以及代码领域的实践应用书评“这是我读过的关于提示工程的最好的书籍资源。Mike和James是他们领域的专家。” ——Dan Shipper,Every联合创始人兼CEO“这本书是生成式AI和提示工程基础知识的一个坚实介绍。作者涵盖了从初学者到高级用户的各种有用技巧,简单、实用且易于理解。如果您希望提高AI系统的准确性和可靠性,这本书应当在您的书架上。”——Mayo Oshin,Siennai Analytics创始人兼CEO,LangChain早期贡献者“Phoenix和Taylor的指南是生成式AI浩瀚海洋中的灯塔。这本书成为了我们团队在Phiture AI Labs学习如何利用LLMs和扩散模型创建与客户应用和游戏本质相符的营销资产的基石。通过提示工程,我们能够大规模生成定制的品牌内容。这不仅仅是理论;这是将AI的原始潜力转化为定制解决方案的实践大师课程,使其成为希望将AI集成提升到新的创造力和效率高度的开发者的必读书籍。” ——Moritz Daan,Phiture移动增长咨询公司创始人/合伙人

“《生成式AI的提示工程》可能是未来保障您技术职业的最具前瞻性的方法。这无疑是任何从事AI实际应用工作的人的最佳资源。这里面丰富、精炼的原则将帮助新老AI工程师在未来可预见的竞争中保持领先。” ——Ellis Crosby,Incremento CTO兼联合创始人“这是代理和服务专业人员的必备指南。将AI与服务和客户交付结合起来,利用自动化管理,加快解决方案的速度,将设定新的行业标准。您会在书中找到有用、实用的信息和策略,使您能够充分理解和利用AI的潜力。” ——Byron Tassoni-Resch,WeDiscover CEO兼联合创始人作者的话自2020年GPT-3测试版以来,我们一直在做提示工程,当GPT-4推出时,我们发现许多我们曾使用的技巧和窍门已不再必要。这促使我们定义了一套可跨模型和模态转移的面向未来的原则,这些原则在使用GPT-5或未来的任何模型时仍然有用。提示的五项原则是:1. 提供方向:详细描述所需的风格,或参考相关的角色。2. 指定格式:定义要遵循的规则和响应的必要结构。3. 提供示例:插入一组多样的测试案例,其中任务已正确完成。4. 评估质量:识别错误并评价响应,测试驱动性能的因素。5. 分工:将任务分成多个步骤,链式连接以实现复杂目标。我们首次在2022年7月以博客文章的形式发布了这些原则,它们经受住了时间的考验,包括与OpenAI自己一年后发布的提示工程指南高度契合。任何与生成式AI密切合作的人都可能会收敛到一组类似的策略来解决常见问题,但这本书旨在更快地让您达到这一点。在本书中,您将看到数百个提示技术的示例,包括文本和图像提示,以及使用Python构建AI自动化脚本和产品。这不是一个寻找正确魔法词组组合的提示技巧列表,而是一个构建系统的实用指南,提供AI应用所需的正确上下文,以及如何测试和扩展生产环境中的AI系统。如果您符合以下情况,这本书将对您有用:- 您的时间价值超过每小时40美元,阅读这本书节省的几个小时,而不是从多个来源拼凑一切,对您来说是值得的。- 您不仅是随便使用AI,而是实际在构建一个AI应用或内部模板,许多人每天将使用数百或数千次。- 您希望通过学习数百个如何解决AI常见问题的真实案例来减少幻觉并提高AI的可靠性。- 您希望比较OpenAI与其他模型的优缺点,以及LangChain等常见框架、不同的向量数据库选项和AUTOMATIC1111。- 您想看到从一个天真的提示到一个完整AI代理,包括使用Gradio构建基本用户界面的端到端AI应用构建过程。

成为VIP会员查看完整内容
32
登陆后查看更多精品内容
VIP会员
本周荟萃主题
区块链
区块链(Blockchain)是由节点参与的分布式数据库系统,它的特点是不可更改,不可伪造,也可以将其理解为账簿系统(ledger)。它是比特币的一个重要概念,完整比特币区块链的副本,记录了其代币(token)的每一笔交易。通过这些信息,我们可以找到每一个地址,在历史上任何一点所拥有的价值。
深度学习
机器学习的一个分支,它基于试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的一系列算法。
机器学习
“机器学习是近20多年兴起的一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。机器学习理论主要是设计和分析一些让 可以自动“ 学习”的算法。机器学习算法是一类从数据中自动分析获得规律,并利用规律对未知数据进行预测的算法。因为学习算法中涉及了大量的统计学理论,机器学习与统计推断学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。很多 推论问题属于 无程序可循难度,所以部分的机器学习研究是开发容易处理的近似算法。”

——中文维基百科
强化学习
强化学习(RL)是机器学习的一个领域,与软件代理应如何在环境中采取行动以最大化累积奖励的概念有关。除了监督学习和非监督学习外,强化学习是三种基本的机器学习范式之一。 强化学习与监督学习的不同之处在于,不需要呈现带标签的输入/输出对,也不需要显式纠正次优动作。相反,重点是在探索(未知领域)和利用(当前知识)之间找到平衡。 该环境通常以马尔可夫决策过程(MDP)的形式陈述,因为针对这种情况的许多强化学习算法都使用动态编程技术。经典动态规划方法和强化学习算法之间的主要区别在于,后者不假设MDP的确切数学模型,并且针对无法采用精确方法的大型MDP。
推荐系统
推荐系统,是指根据用户的习惯、偏好或兴趣,从不断到来的大规模信息中识别满足用户兴趣的信息的过程。推荐推荐任务中的信息往往称为物品(Item)。根据具体应用背景的不同,这些物品可以是新闻、电影、音乐、广告、商品等各种对象。推荐系统利用电子商务网站向客户提供商品信息和建议,帮助用户决定应该购买什么产品,模拟销售人员帮助客户完成购买过程。个性化推荐是根据用户的兴趣特点和购买行为,向用户推荐用户感兴趣的信息和商品。随着电子商务规模的不断扩大,商品个数和种类快速增长,顾客需要花费大量的时间才能找到自己想买的商品。这种浏览大量无关的信息和产品过程无疑会使淹没在信息过载问题中的消费者不断流失。为了解决这些问题,个性化推荐系统应运而生。个性化推荐系统是建立在海量数据挖掘基础上的一种高级商务智能平台,以帮助电子商务网站为其顾客购物提供完全个性化的决策支持和信息服务。
卷积神经网络
在深度学习中,卷积神经网络(CNN或ConvNet)是一类深度神经网络,最常用于分析视觉图像。基于它们的共享权重架构和平移不变性特征,它们也被称为位移不变或空间不变的人工神经网络(SIANN)。它们在图像和视频识别,推荐系统,图像分类,医学图像分析,自然语言处理,和财务时间序列中都有应用。
计算机网络
计算机网络( Computer Networks )指将地理位置不同的多台计算机及其外部设备,通过通信线路连接起来,在网络操作系统及网络通信协议的管理和协调下,实现资源共享和信息传递的计算机系统。
命名实体识别
命名实体识别(NER)(也称为实体标识,实体组块和实体提取)是信息抽取的子任务,旨在将非结构化文本中提到的命名实体定位和分类为预定义类别,例如人员姓名、地名、机构名、专有名词等。
机器翻译
机器翻译,又称为自动翻译,是利用计算机将一种自然语言(源语言)转换为另一种自然语言(目标语言)的过程。它是计算语言学的一个分支,是人工智能的终极目标之一,具有重要的科学研究价值。
计算机视觉
计算机视觉是一门研究如何使机器“看”的科学,更进一步的说,就是是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉,并进一步做图形处理,使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科,计算机视觉研究相关的理论和技术,试图建立能够从图像或者多维数据中获取‘信息’的人工智能系统。
微信扫码咨询专知VIP会员