机器学习平台

以下内容来自刘建平Pinard-博客园的学习笔记,总结如下:

要学习或者研究机器学习,进而用到生产环境,对平台,开发语言,机器学习库的选择非常重要。

  首先,对于平台选择的第一个问题是,你是要用于生产环境,也就是具体的产品中,还是仅仅是做研究学习用。

1. 生产环境中机器学习平台的搭建

  如果平台是要用于生产环境的话,接着有一个问题,就是对产品需要分析的数据量的估计,如果数据量很大,那么需要选择一个大数据平台。否则的话只需要一个单机版的平台就可以了。

1.1 生产环境中机器学习大数据平台的搭建

  生产环境里面大数据平台,目前最主流的就是Spark平台,加上辅助的分布式数据处理容器,比如YARN,或者Mesos.如果需要实时的收集在线数据,那么就加上Kafka。简言之,一个通用的大数据处理平台就是集成Spark + YARN(Mesos) + Kafka. 目前来看,这个平台选择基本上是主流的方向。

  CDAP(cdap.io)。它对Spark, YARN, Kafka还有一些主流的开源数据处理软件进行了集成,开发者只需要在它上面封装的一层API上做二次开发就可以了。

  围绕Spark + YARN+ Kafka的大数据平台还是首选。由于Spark MLlib的机器学习算法并不丰富好用,因此如果你的产品中需要一些MLlib中没有的算法,就需要自己去找开源实现了。

1.2 生产环境中机器学习单机数据平台的搭建

  生产环境里面如果数据量不大,大数据平台就显得有点over design了,此时我们有更多的选择。首选,仍然是Spark平台,不过我们不需要分布式的容器YARN和分布式数据分发的路由Kafka了。为什么首选还是Spark呢?因为我们要考虑扩展,现在数据量不大,不代表以后数据量不大。这也是我参与的一些小型数据分析项目也是选择Spark的原因。当然我觉得还有一些原因是Spark同时支持了Python, Java, Scala和R。这降低了很多程序员的参与门槛。我参与的Spark项目中,开发语言主要是Java和Scala。Python没有选择是因为一些速度的原因和系统其它部分都是用Java写的。

  第二个选择是以scikit-learn为主的一系列python工具,包括 numpy, scipy, pandas, MatplotLib等等。特点是类库丰富,尤其是scikit-learn的机器学习库,可以说是十八般武器,样样都有。另外就是由于可以交互式的编写程序,方便快速开发原型。我参与的有两个项目在可行性分析阶段,都是用scikit-learn来做原型和给客户做demo。

  因此,生产环境中机器学习单机数据平台, Spark是做产品首选,而scikit-learn家族适合做快速的原型开发验证。

2. 研究环境中机器学习平台的搭建

  如果只是做研究,那么选择就很多了,主流的有三种。

  第一种是基于Spark MLlib来学习。好处是学到的东西用到生产环境可以无缝切换,但是坏处也很明显,Spark东西很多,在自己的单机上跑很吃内存,比较慢,而且MLlib的类库并不丰富,很多算法需要自己再去找类库。

  第二种是基于scikit-learn为主的一系列python工具来学习,包括上面提到的numpy, scipy, pandas, MatplotLib等等。好处是类库多,API强大,可以让你专注于数据的分析,例子也多,学习起来不难。当然也有缺点,就是这一大堆的python库,要熟练的用起来需要一段时间。

  第三种是基于R的平台来做机器学习(不包括Spark R),主要平台是R studio。由于R是一门比较老的语言,因此他的数据处理和机器学习的API比较丰富,尤其是对于之前做数据分析师的人来说更是熟悉不过。但是R是一门相对封闭的语言,社区远远没有Python的活跃,而且对于程序员来说, R的那种语法让人难受。几年前,一般会认为R的机器学习比Python的好,但是现在Python已经将R远远甩在了后面。

  总之,如果你想研究学习机器学习,并且没有特殊的R背景,scikit-learn是你的首选。

编辑于 2017-10-12 12:31