由于特征工程通常是特定于数据类型且依赖于应用程序的,本书包含专门介绍主要数据类型的特征工程的章节,如文本数据、图像数据、序列数据、时间序列数据、图形数据、流数据、软件工程数据、Twitter 数据和社交媒体数据。这些章节介绍了生成经过反复测试、手工制作的特定于域的功能以及自动通用功能生成方法(如 Word2Vec)的方法。

本书目录:

  1. 预览概述
  2. 文本数据特征工程 
  3. 视觉数据特征提取学习
  4. 基于特征的时序分析
  5. 数据特征流工程
  6. 序列特征生成与特征工程
  7. 图与网络特征生成
  8. 特征选择与评估
  9. 监督学习中的自动特征工程
  10. 基于模式的特征生成
  11. 深度学习特征表示
  12. 用于社交机器人检测的特征工程
  13. 用于软件分析的特征生成与工程
  14. Twitter应用特征工程

本书还包含有关特征选择、基于特征转换的自动方法、使用深度学习方法生成功能以及使用频繁和对比度模式生成特征的章节。有几章是关于在特定应用中使用特征工程的。

本书包含许多有用的特征工程概念和技术,这些概念和技术适用于多种方案:(a) 生成功能以表示没有要素时的数据,(b) 在(人们可能担心)存在时生成有效特征功能不够好/竞争力不够,(c) 在功能过多时选择功能,(d) 为特定类型的应用程序生成和选择有效功能,以及 (e) 了解与相关挑战以及需要处理的方法,各种数据类型。

成为VIP会员查看完整内容
20+
0+

相关内容

简介:

基于现代TensorFlow方法而不是过时的工程概念来构建自己的pipline。本书中展示了如何为现实的TensorFlow项目构建深度学习pipline。

通过学习本书将了解pipline是什么以及如何工作,以便可以轻松快速地构建完整的应用程序。然后解决并克服Tensorflow的基本障碍,轻松创建功能应用程序并部署训练有素的模型。本书分步并举例可帮助读者了解深度学习流程的每个步骤,同时将最直接,最有效的工具应用于演示性问题和数据集。

读者还将通过准备数据,选择适合该数据的模型并调试模型以使用Tensorflow技术使最适合数据的方式来开发深度学习项目。通过访问一些最新的数据科学趋势来增强您的技能。如果您曾经考虑过构建自己的图像或文本标记解决方案或参加Kaggle竞赛,那么Deep Learning Pipeline将会非常适合!

本书中包括:

  • 使用数据开发深度学习项目
  • 研究各种模型并将其应用于自己的数据
  • 对适合数据的适当模型进行调试和故障排除

目录:

作者介绍: Hisham El-Amir是一位数据科学家,在机器学习,深度学习和统计方面拥有专业知识。 他目前在埃及开罗生活和工作。 在他的工作项目中,主要面临着从自然语言处理(NLP),行为分析,机器学习到分布式处理的挑战。

Mahmoud Hammy是一位在埃及工作和生活的机器学习工程师。 他的主要研究领域是知识,逻辑,语言和学习之间的重叠。 他致力于训练机器学习和深度学习模型,以通过使用从深度学习到统计关系学习的方法,将大量的非结构化,半结构化和结构化数据分配到关于世界的新知识中。

成为VIP会员查看完整内容
64+
0+

简介:

机器学习和深度学习以深远的方式影响着世界,从我们与技术产品的交互方式以及彼此之间的交互方式来看,这些技术正在影响我们的关系,工作方式以及我们如何融入生活。如今,在可预见的将来,智能机器会成为社会文化和社会经济关系赖以生存的核心。

机器学习可以描述为用于基于特定数据集中变量(也称为特征或属性)之间的一组交互作用来预测或分类未来事件的工具和技术。另一方面,深度学习扩展了一种称为神经网络的机器学习算法,用于学习计算机难以执行的复杂任务。这些任务可能包括识别面部表情和理解具有各种上下文含义的语言。

数据对机器学习和深度学习的兴起以及未来的性能提高至关重要。自二十世纪初以来,生成和存储的数据量呈指数级增长。庞大数据的增长部分归因于Internet的兴起和处理器的小型化,这些处理器已抑制了“物联网(IoT)”技术。这些大量的数据使训练计算机学习不可能使用显式指令集的复杂任务成为可能。

本书的目的是为读者提供构建学习模型的基本原理和工具。机器学习和深度学习正在迅速发展,对于初学者而言,机器学习和深度学习常常令人感到困惑和困惑。许多人不知道从哪里开始。本书使初学者可以了解有关感兴趣的问题,并利用机器学习和深度学习技术的理论基础和实际步骤进行深入研究。

本书分为八个部分。其细分如下:

•第1部分:Google Cloud Platform入门

•第2部分:数据科学的编程基础

•第3部分:机器学习简介

•第4部分:实践中的机器学习

•第5部分:深度学习简介

•第6部分:实践中的深度学习

•第7部分:Google Cloud Platform上的高级分析/机器学习

•第8部分:在GCP上实现生产化机器学习解决方案

本书代码的地址:https://github.com/Apress/building-ml-and-dl-models-on-gcp

作者介绍:

Ekaba Bisong是T4G的数据主管。 他之前曾在Pythian担任数据科学家/数据工程师。 此外,他还与卡尔顿大学的智能系统实验室有项目合作,其研究重点是学习系统(包括自动学习和强化学习),机器学习和深度学习。 Ekaba是Google认证的专业数据工程师和机器学习的Google开发人员专家。

技术顾问:

Vikram Tiwari是Omni Labs,Inc.的联合创始人,负责处理所有技术。他还是机器学习和Google Cloud Platform的Google Developer Expert。他在各种会议上发表演讲,并举办有关云和机器学习主题的动手研讨会。他喜欢与初创企业和开发人员作为导师合作,以帮助他们应对自己的研究中的各种挑战。除了工作外,他还在旧金山的Google Developer Group Cloud运营着一个开发人员社区。

Gonzalo Gasca Meza是在GCP机器学习平台上工作的开发人员程序工程师。他研究方向是TensorFlow和机器学习基础架构。 Gonzalo拥有牛津大学的计算机科学学士学位和软件工程硕士学位。加入Google之前,Gonzalo致力于语音和视频通信的企业级产品。

部分目录:

成为VIP会员查看完整内容
14+
0+

简介: Python作为目前受欢迎的语言之一,越来越多的人成为Pythoner,这本书不仅仅是一本Python说明书,该书基于Python3.7。 Python中的经典计算机科学问题可以使用经过时间验证的方案,练习和算法来提高您的CS解决问题的能力。看起来很新或独特的计算机科学问题通常源于经典算法,编码技术和工程原理。并且经典方法仍然是解决它们的最佳方法!通过对本书的学习,将解决许多编码难题,从简单的任务(如二进制搜索算法)到使用k-means进行数据聚类。该书主要包括:

  • 搜索算法
  • 图的常用技术
  • 神经网络
  • 遗传算法
  • 对抗搜索
  • 使用类型提示
  • 涵盖Python 3.7

目录:

  • 简介
  • 小问题
  • 搜索问题
  • 约束满足问题
  • 图问题
  • 遗传算法
  • K均值聚类
  • 简单的神经网络
  • 对抗搜索
  • 其他问题

作者介绍: David Kopec是位于佛蒙特州伯灵顿的尚普兰学院的计算机科学与创新助理教授。他是一个有经验的软件开发者.

成为VIP会员查看完整内容
47+
0+

简介:

科学专业人员可以通过本书学习Scikit-Learn库以及机器学习的基础知识。该书将Anaconda Python发行版与流行的Scikit-Learn库结合在一起,展示了各种有监督和无监督的机器学习算法。通过Python编写的清晰示例向读者介绍机器学习的原理,以及相关代码。

本书涵盖了掌握这些内容所需的所有应用数学和编程技能。不需要深入的面向对象编程知识,因为可以提供并说明完整的示例。必要时,编码示例很深入且很复杂。它们也简洁,准确,完整,是对引入的机器学习概念的补充。处理示例有助于建立理解和应用复杂机器学习算法所需的技能。

本书的学生将学习作为胜任力前提的基础知识。读者将了解专门为数据科学专业人员设计的Python Anaconda发行版,并将在流行的Scikit-Learn库中构建技能,该库是Python领域许多机器学习应用程序的基础。

本书内容包括:

  • 使用Scikit-Learn通用的简单和复杂数据集
  • 将数据处理为向量和矩阵以进行算法处理
  • 熟悉数据科学中使用的Anaconda发行版
  • 通过分类器,回归器和降维应用机器学习
  • 调整算法并为每个数据集找到最佳算法
  • 从CSV,JSON,Numpy和Pandas格式加载数据并保存

内容介绍:

这本书分为八章。 第1章介绍了机器学习,Anaconda和Scikit-Learn的主题。 第2章和第3章介绍算法分类。 第2章对简单数据集进行分类,第3章对复杂数据集进行分类。 第4章介绍了回归预测模型。 第5章和第6章介绍分类调整。 第5章调整简单数据集,第6章调整复杂数据集。 第7章介绍了预测模型回归调整。 第8章将所有知识汇总在一起,以整体方式审查和提出发现。

作者介绍:

David Paper博士是犹他州立大学管理信息系统系的教授。他写了两本书-商业网络编程:Oracle的PHP面向对象编程和Python和MongoDB的数据科学基础。他在诸如组织研究方法,ACM通讯,信息与管理,信息资源管理期刊,AIS通讯,信息技术案例与应用研究期刊以及远程计划等参考期刊上发表了70余篇论文。他还曾在多个编辑委员会担任过各种职务,包括副编辑。Paper博士还曾在德州仪器(TI),DLS,Inc.和凤凰城小型企业管理局工作。他曾为IBM,AT&T,Octel,犹他州交通运输部和空间动力实验室执行过IS咨询工作。 Paper博士的教学和研究兴趣包括数据科学,机器学习,面向对象的程序设计和变更管理。

目录:

成为VIP会员查看完整内容
9+
0+

简介: 特征工程在机器学习、数据挖掘和数据分析中起着关键作用。本文提供了特征工程的一般定义,以及该领域的主要问题、方法和挑战的概述。特征工程在大数据分析中起着关键作用。没有数据,机器学习和数据挖掘算法就无法工作。如果没有表示基础数据对象的功能,大数据分析则几乎不能实现,并且这些算法的结果质量在很大程度上取决于可用特征的质量。数据通常以各种形式存在,如图像、文本、图形、序列和时间序列。表示数据对象的常见方法是使用特征矢量。即使由特征向量表示的数据可能仍然需要新的有效特征。特征工程涉及满足生成和选择基于特征向量的有效数据表示的需求。

本书目录:

  • 1.预览概述
  • 2 文本数据特征工程 
  • 3 视觉数据特征提取学习
  • 4 基于特征的时序分析
  • 5 数据特征流工程
  • 6 序列特征生成与特征工程
  • 7 图与网络特征生成
  • 8 特征选择与评估
  • 9 监督学习中的自动特征工程
  • 10 基于模式的特征生成
  • 11 深度学习特征表示
  • 12 用于社交机器人检测的特征工程
  • 13 用于软件分析的特征生成与工程
  • 14 Twitter应用特征工程

下载链接: 链接:https://pan.baidu.com/s/1rshWh8-ST_Mtkw525mz-yQ

提取码:4abr

成为VIP会员查看完整内容
21+
0+

2018年出版了一本关于功能工程的新编辑书,其中12篇由主要专家就特征工程的不同方面提供章节。由于特征工程通常是特定于数据类型且依赖于应用程序的,本书包含专门介绍主要数据类型的特征工程的章节,如文本数据、图像数据、序列数据、时间序列数据、图形数据、流数据、软件工程数据、Twitter 数据和社交媒体数据。这些章节介绍了生成经过反复测试、手工制作的特定于域的功能以及自动通用功能生成方法(如 Word2Vec)的方法。

成为VIP会员查看完整内容
7+
0+

主题: Vision and Language: the text modality in computer vision

简介: 长期以来,文档图像分析一直致力于创建智能阅读系统,其重点仅在于理解以图像形式呈现的文本和图形信息。 另一方面,总体而言,计算机视觉显示出以各种方式利用多模式信息的日益增长的趋势。从一种模态转换为另一种模态或派生出模态之间的联合嵌入是两个关键范式。文本通常是感兴趣的形式之一,尽管很少是指图像形式的文本。 在本教程中,我们将从文档分析和计算机视觉的最新进展中汲取经验,以展示当前如何在最先进的研究中处理作为形式的文本。我们将回顾各种方法和应用,重点关注用于多模式嵌入和跨模式翻译的深度学习技术,这些技术为建模文本和视觉信息之间的相关性提供了非常强大的框架。 本教程将介绍的一些应用程序示例包括:

  • 词点检测,目的是为字符串的视觉(图像)和文本(转录)表示之间的相关性建模。

  • 动态词典生成, 其目的是通过利用场景的视觉信息,动态地提出在图像中极有可能出现的单词字典,以此作为促进后续场景文本识别的手段。 在一种模式(文本)作为另一种模式(图像)的监督信号的情况下,对视觉特征进行自我监督学习,提供了一种学习有用特征的机制,从而避免了昂贵的注释。

  • 图像的跨模式/多模式语义检索, 其目的是对视觉信息和从文本信息中导出的语义之间的相关性进行建模,以实现跨模式图像检索。

  • 图像字幕, 目标是从视觉域转换到文本域(自然语言)。我们将在本教程中讨论的现有方法的有趣变化是,如何将图像中或要描述的图像中的文本信息整合到字幕处理过程中。

嘉宾介绍: Dimosthenis Karatzas是巴塞罗那大学的副教授,西班牙巴塞罗那的计算机视觉中心(CVC)副主任。在CVC,他领导视觉和语言研究领域,在计算机视觉和文本分析的交汇处工作。他与他人合着了100多种参考期刊和会议出版物,H指数为23。他曾获得2013年度IAPR / ICDAR青年研究奖和2017年Google院系研究奖。D. Karatzas在其领域的主要会议(ICDAR,DAS,CBDAR,ICPR,ICFHR)中担任过各种职务,包括-主持IWRR 2014/16/18和CBDAR 2015/17。D. Karatzas是“健壮的阅读比赛”系列的主要组织者。他是国际阅读系统技术委员会的主席。模式识别协会。D. Karatzas是SPIE英国分会的创始成员和执行委员会成员,而他目前是IAPR教育委员会的成员和IEEE IAPR的成员。他是图书馆生活实验室(Library Living Lab)的创始人之一,该实验室是公共图书馆中的开放式参与式创新空间。

成为VIP会员查看完整内容
6+
0+
Top