With the spreading prevalence of Big Data, many advances have recently been made in this field. Frameworks such as Apache Hadoop and Apache Spark have gained a lot of traction over the past decades and have become massively popular, especially in industries. It is becoming increasingly evident that effective big data analysis is key to solving artificial intelligence problems. Thus, a multi-algorithm library was implemented in the Spark framework, called MLlib. While this library supports multiple machine learning algorithms, there is still scope to use the Spark setup efficiently for highly time-intensive and computationally expensive procedures like deep learning. In this paper, we propose a novel framework that combines the distributive computational abilities of Apache Spark and the advanced machine learning architecture of a deep multi-layer perceptron (MLP), using the popular concept of Cascade Learning. We conduct empirical analysis of our framework on two real world datasets. The results are encouraging and corroborate our proposed framework, in turn proving that it is an improvement over traditional big data analysis methods that use either Spark or Deep learning as individual elements.


翻译:随着《大数据》的普及,最近在这一领域取得了许多进展。过去几十年,阿帕奇哈多普和阿帕奇公园等框架获得了许多牵引力,并变得非常受欢迎,特别是在工业中。人们越来越清楚地看到,有效的大数据分析是解决人工智能问题的关键。因此,在名为 MLlib 的Spark 框架内,建立了一个多层次图书馆。虽然这个图书馆支持多种机器学习算法,但是,仍然有余地高效地利用Spark 设置来进行高时间密集和计算成本昂贵的程序,如深层次学习。在本文件中,我们提出了一个新的框架,将阿帕奇公园的分散计算能力与利用卡斯卡德学习这一流行概念的深层多层透视器(MLP)的先进机器学习结构结合起来。我们对我们的两个真实世界数据集的框架进行了实证分析。结果正在鼓励和证实我们提议的框架,这反过来证明,它改进了使用Spark或深层学习作为个别要素的传统大数据分析方法。

3
下载
关闭预览

相关内容

Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎。Spark是UC Berkeley AMP lab (加州大学伯克利分校的AMP实验室)所开源的类Hadoop MapReduce的通用并行框架,Spark,拥有Hadoop MapReduce所具有的优点;但不同于MapReduce的是Job中间输出结果可以保存在内存中,从而不再需要读写HDFS,因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法。
专知会员服务
89+阅读 · 2019年12月24日
【大规模数据系统,552页ppt】Large-scale Data Systems
专知会员服务
50+阅读 · 2019年12月21日
Keras François Chollet 《Deep Learning with Python 》, 386页pdf
专知会员服务
104+阅读 · 2019年10月12日
机器学习相关资源(框架、库、软件)大列表
专知会员服务
26+阅读 · 2019年10月9日
强化学习三篇论文 避免遗忘等
CreateAMind
13+阅读 · 2019年5月24日
Transferring Knowledge across Learning Processes
CreateAMind
10+阅读 · 2019年5月18日
深度自进化聚类:Deep Self-Evolution Clustering
我爱读PAMI
12+阅读 · 2019年4月13日
Unsupervised Learning via Meta-Learning
CreateAMind
34+阅读 · 2019年1月3日
meta learning 17年:MAML SNAIL
CreateAMind
9+阅读 · 2019年1月2日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
10+阅读 · 2018年12月24日
大牛的《深度学习》笔记,Deep Learning速成教程
极市平台
16+阅读 · 2018年4月10日
【推荐】深度学习情感分析综述
机器学习研究会
57+阅读 · 2018年1月26日
【推荐】MXNet深度情感分析实战
机器学习研究会
16+阅读 · 2017年10月4日
【推荐】Python机器学习生态圈(Scikit-Learn相关项目)
机器学习研究会
6+阅读 · 2017年8月23日
Advances and Open Problems in Federated Learning
Arxiv
17+阅读 · 2019年12月10日
Few-shot Learning: A Survey
Arxiv
345+阅读 · 2019年4月10日
Arxiv
4+阅读 · 2018年10月11日
Arxiv
25+阅读 · 2018年1月24日
VIP会员
相关资讯
强化学习三篇论文 避免遗忘等
CreateAMind
13+阅读 · 2019年5月24日
Transferring Knowledge across Learning Processes
CreateAMind
10+阅读 · 2019年5月18日
深度自进化聚类:Deep Self-Evolution Clustering
我爱读PAMI
12+阅读 · 2019年4月13日
Unsupervised Learning via Meta-Learning
CreateAMind
34+阅读 · 2019年1月3日
meta learning 17年:MAML SNAIL
CreateAMind
9+阅读 · 2019年1月2日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
10+阅读 · 2018年12月24日
大牛的《深度学习》笔记,Deep Learning速成教程
极市平台
16+阅读 · 2018年4月10日
【推荐】深度学习情感分析综述
机器学习研究会
57+阅读 · 2018年1月26日
【推荐】MXNet深度情感分析实战
机器学习研究会
16+阅读 · 2017年10月4日
【推荐】Python机器学习生态圈(Scikit-Learn相关项目)
机器学习研究会
6+阅读 · 2017年8月23日
Top
微信扫码咨询专知VIP会员