当机器学习遇到真实世界？用来装13的知识点都在这里了

会员服务 ·

当机器学习遇到真实世界？用来装13的知识点都在这里了

2017 年 8 月 27 日 数据玩家

现在，走在大马路上，随便一个谁谁

都在聊机器学习

为了让你从此有一丢谈资

我们给你准备了这样的一篇文章

本文经授权转载自大数据应用（ID：Datalaus）

作者：橘子

1. 图像识别

机器学习最常见的一种用法是图像识别。在许多情况下，你都可以将研究对象分类为一种数字图像。对于数字图像来说，其中每一个像素都可以被测量。

就拿黑白图像来举例，每一个像素（的强度）都可以作为一个测量单位。所以，如果一张黑白图像拥有N*N个像素，像素的总数和它的测量单位总数就应该是N2.

在一副彩色图画里，每一个像素都被当做由三种主要颜色也就是红绿蓝的叠加组成而来的三种量度。所以N*N的彩色图像是3 N2 测量单位。

对于面部识别来说-可能会被分为有面部显现时与无面部呈现时两类。在包含许多人的信息的数据库里，每个人都应该有一个单独的分类。
对于字符识别来说-一篇文字可以被分成一些小图片，每一张图片都包含一个单独的文字。对文字的不分类可以是英文字母表里的26个字母，10个数字或者是一些特殊的文字符号。

2. 语音识别

语音识别就是将语音转换成直接阅读的文字，也叫“自动语音识别”（ASR）,”电脑语音识别“，或者是”朗读到文字“。

在语音识别中，语音可以被软件应用所识别。在这个应用中的量度可能是一串代表这个语音信号的数字。这些信号可以被分为不同的部分，这些部分可能包含着不同的文字或者音位。在每一个部分中，我们可以利用在不同时间段语音的强度和能量，将语音信号呈现出来。

尽管这个机器学习项目无法详尽到捕捉每一个信号的细节，我们依然可以通过一些具体数值来呈现这些信号。

每一个识别应用都包含语音用户界面。类似于语音拨号，呼叫路由，家电控制，都可以被称为语音用户界面。语音识别也可以被当做是简单的数据输入，结构化文档准备，语音-到-文字过程等等。

3. 医疗诊断

在大多数医疗领域中，机器学习提供的方法，技术和工具都能为诊断性和预测性问题带来帮助。在临床参数以及医疗诊断与临床参数相结合的医疗预测中，机器学习被用来分析其重要性。比如，对病情进展的预判，从已有的研究成果中汲取相关的医疗知识成果，利用数据结果来支持和计划研究疗法，以及对病人的全面管理。机器学习也被运用在数据分析中。比如，通过合理处理不完美的数据，对ICU病房中连续数据的说明解释，机器学习能够寻找出这些数据的规律性。医疗诊断模式也能运用于智能报警系统，使管理更加高效。

成功的机器学习运用也被认为可以加强信息运用系统与医疗环境的结合，他可以为加快医学专家的研究速度，加强他们的研究成果提供机会，最终就可以提高医护工作的效率和质量。

在医疗诊断中，受到关注的焦点主要是能根据准确的诊断结果来确定某项病症的存在。对可能出现的每一种病症，我们都有不同的分类。而对没有病症出现的情况则放入另一个类别。这样的话，通过对病人数据的分析，机器学习可以提高医疗诊断的准确性。

4. 统计套利

在金融领域，统计套利是指一种自动的交易策略，这种交易方式一般是高频且涉及到大量的证券。在这样的交易中，用户试图根据一定数量的历史数据关联和经济变量，对一系列的债券运用相关的交易算法。这些测量可以被当做是一种分类或者估计问题。基本假设就是价格最终会趋向于历史平均数值。

我们采取机器学习方式来获得获得指数套利策略，特别地，我们采用线性回归和支持向量回归（SVR）来分析交易所和一系列股票的价格。通过利用主成分分析（PCA）来减少特征空间的维数，我们观测到了运用SVR分析的优劣。为了产生交易信号，我们对以前的回归残差进行均值回复过程建模。

当我们对其进行分类后，对某一项证券来说，某项类别的证券可能会被交易。在某些情况下，我们可能想去预测每一只股票在未来某段时间的预期收益。这时，我们通常是需要利用这些预测值来做出交易决定（购入，卖出等）

5. 关联学习

关联学习是一项在分析产品时，尝试分析多种不同的数据之间联系的过程。一个成功的例子就是当我们分析消费者购买行为时，发现两个看起来毫无关系的产品之间居然有购买行为上的关联。

机器学习的一种应用—经常性的研究人们购买的物品之间的联系，通常也被叫做篮子分析。如果一个人买了“X”他/她很有可能也会买”Y”，因为这两种物品之间有一种联系？

薯条和炸鱼之间的关系也是这样的。当一个新产品在市场推出时，他肯定会跟别的产品建立新的联系，知道这些联系就能为客户购买产品提供建议。对于一个有很可能购买该项产品的客户来说，知道这层联系也能将相关性较高的产品捆绑包装的更加精致。

关联学习就是通过数据处理来发现不同产品之间联系的一种机器学习？一旦我们通过研究大量的销售数据找到他们之间的联系，即大数据研究。在研究条件概率事件时，大数据研究可以为我们提供一种方法来建立概率测试模型。

6. 统计分类

统计分类就是将研究中总体样本量的每一个单位数据分门别类的过程。这些数据就是自变量。

统计分类可以帮助分析师利用参数来对研究对象进行分类。为了建立一种有效的规则，分析师通常使用数据作为参数。数据包含了大量研究对象样本，并对其进行了正确的分类。

比如，银行放贷之前通常都会对贷款人的偿债能力进行衡量。通过调查贷款者的收入，年纪，储蓄和征信记录就能做到这一点。这些信息都来源与曾经的借款历史。因此，可以利用这些信息来建立贷款者带来的收益和风险之间的模型。

7. 预测

让我们来假设一下，当银行需要计算某一位贷款者无法偿还贷款的概率的时候。为了计算这种坏账的概率，系统首先需要将我们能获取的所有数据分类，这些都是需要由分析师通过一系列规则整理出来的。

一旦我们根据我们的需求将每一个概率计算出来并将数据成功分类，我们就可以根据不同的需求和目的进行概率的计算。

我们现在的预测模式是目前机器学习最常用的一种算法。让我们以零售业为例，之前我们可以得到类似最近一个月/年/五年/Diwali/圣诞节日的销售报告这样的销售信息。这类报告就是历史报告。但是现在的销售方式更期望于知道我下个月的/明年/Diwali等等的预期销售业绩。这样的话，企业就能够更及时的做出更合适的决定（例如确定采购数量，存货存量等）