Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎。Spark是UC Berkeley AMP lab (加州大学伯克利分校的AMP实验室)所开源的类Hadoop MapReduce的通用并行框架,Spark,拥有Hadoop MapReduce所具有的优点;但不同于MapReduce的是Job中间输出结果可以保存在内存中,从而不再需要读写HDFS,因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法。
  1. 有什么关于 Spark 的书推荐? - 知乎
  2. Spark SQL到底支持什么SQL语句? - 知乎
  3. 大数据Spark
  4. 深度剖析Spark分布式执行原理
  5. Spark自定义聚合函数(UDAF)示例
  6. 有什么关于 Spark 的书推荐? - 知乎
  7. Spark Tutorial
  8. 从hive到Spark SQL
  9. Spark standalone cluster tutorial by mbonaci
  10. 使用阿里云的Maven仓库加速Spark编译过程
  11. facebook Presto vs Spark 两者适用场景的关键区别是什么
  12. Tutorial: Spark-GPU Cluster Dev in a Notebook - i am trask
  13. Spark Framework tutorials - Spark Java tutorials
  14. sbt结合IDEA对Spark进行断点调试开发
  15. Intro to Apache Spark
  16. Spark MLlib 数据预处理-特征变换(二)
  17. Apache Spark™ - Lightning-Fast Cluster Computing
  18. dji spark是否有必要购买遥控器? - 知乎
  19. spark算法本地测试正常,放在集群上就出错的原因
  20. spark邮箱添加163? - 知乎
展开全文
微信扫码咨询专知VIP会员