大数据分析基础

2018 年 11 月 1 日 科学出版社


《大数据分析基础:概念、技术、方法和商务(英文版)》集商业管理和计算机学科两大领域大数据分析于一体,不仅继承了计算科学的基本内容,更是融合了大数据分析的最新应用。该书是根据西交利物浦大学三年大数据分析课程的教学讲义改编而成。

 

《大数据分析基础:概念、技术、方法和商务(英文版)》涵盖了大数据观点和思维(商务应用)、大数据处理技术和平台(提供具体实现的手段和过程)、大数据分析方法和算法、大数据实践的最佳指导(安全,隐私和社会问题)等四个方面,同时阐述了大数据领域国内外最新动态。


作者简介


李刚民博士,大数据分析研究所(RIBDA)研究员,大数据分析模块的大学讲师。从师于万维网之父Tim Burners Lee 和网格发起者Tony Hey教授。曾先后在英国4所大学和国内一所大学执教,具有35年的科研研究和教学经验。


主要研究领域:知识工程(KE)、Agent和多Agent系统、分布式系统、网格技术和人机界面;主要授课包括:人工智能、半结构化数据库、电子商务技术和大数据分析。

 

《大数据分析基础概念、技术和商务(英文版)》特点



1)集商业管理和计算机学科两大领域大数据分析于一体


大数据分析目前主要以管理学科和计算机科学两个学科进行教授。


其中管理学科的教授内容主要包括大数据时代,大数据机遇和挑战,大数据思维和企业大数据方略,大数据收集,存储和管理,大数据社会问题,安全和隐私。大数据企业的构成,团队和技能要求,最佳实践等。


而计算机科学学科的教授主要内容包括数据的类型,数据格式,数据度量,数据分析方法和数据分析算法(如均值、方差、相似度、奇异度、数据分类和归类)等,注重数据分析任务的实现(如收集存储和处理,作业调度,并行和分布式)。


这两个学科都是大数据分析不可缺少的组成部分。大数据分析的目的就是挖掘商业价值。离开目标单纯进行数据分析是毫无意义和价值的。如果单纯强调挖掘价值而不知道采用具体方法或根据数据特点选用合适方法;懂得方法而不了解工具和平台,同样不能实现数据挖掘价值的目的。


大数据分析不同于传统数据分析,它具有量大,高速,多样,复杂等特点。很多分析具有苛刻的时间要求,过了时间再进行数据分析其信息可能就毫无价值。因此,大数据分析的目的和手段缺一不可。


2)理论和实践结合


目前国内大多大数据分析的教材注重理论而缺乏实践。理论固然重要,如果没有实践应用,其理论就会变成空洞理论。而实践应用包括来源于实际的具体实例、基于实际应用具有广泛性的典型应用,以及实现这些应用的过程,使用的工具和具体实现平台。该书以应用广泛的Hadoop为基础,主要介绍MapReduce的并行程序设计方法以及Hadoop的具体实现,把经典算法、典型应用变成可以直接使用或借鉴的实现方法。


3)兼顾就业和研究双重需求


根据西交利物浦大学的学生发展的具体情况:一部分学生是攻读国际硕士继续深造;另一部分学生则是以直接工作就业,这就要求本教材在撰写过程中,除包括基本知识外,还应具有一定的学术研究基础,同时也要兼顾实际技能的培养。该书有效地将两者相融合,既注重实际技能的培养同时充分探讨相关的新课题新方法。


4)国际和国内需求结合


西交利物浦大学有相当数量的外国留学生。教材不仅要考虑国内需求,而且还要考虑国际同类水平。本教材在大量参考国际类似书籍的基础上,兼顾中国实际国情和教学内容,例如:算法的实例,数据社会责任,用户习惯还有数据安全等。

 

该书与国际上知名的交流性的教材相比有以下特色:


和《MineMassive Data Sets》(斯坦福大学采用)和《Introduction to DataMining》(国内很流行,许多大学采用)相比,该书减少了复杂的数据处理算法,更注重基础算法;计算平台除涵盖Hadoop外,还增加了Hadoop生态系统的新成员,如:Spark和NoSql以及MongoDB;增加了两大部分管理学内容,即增加了大数据的商业价值、企业大数据思维和文化,这是解决为什么的问题;增加了大数据处理遇到的社会问题,涵盖数据的处理的社会责任,数据安全,数据隐私。明确了技术和社会的协调。


这样该书在内容上不仅仅适用于计算机学科的学生,而且也适用于非计算机和算法背景的学生,并且让他们不再为大数据分析的满篇算法感到畏惧。


和《BigData Analytics: Turning Big Data into Big Money》以及《Bigdata: A revolution that will transform how we live, work and think》相比,尽管国外如悉尼大学,斯坦福大学,英国利物浦大学都将此作为推荐书,但我们认为,严格地说此两本书不适合作为教材。上述3部教材除过管理方面的理论和简单的系统。该书是新编教材,还未使用,但其内容已在西交利物浦大学计算机专业大四第一学期讲授三年,受到学生喜爱。


Preface


Contents


Part One Basics and Concepts
Chapter 1 Introduction 
1.1 What Is Big Data Analytics? 
1.2 Why Big Data Analytics? 
1.3 Big Data Analytics Applications 
1.4 The Big Data Analytics Market 
1.5 Big Data Analytics Future Trends 
1.6 The Contents of Big Data Analytics 
1.7 References 
1.8 Review Questions and Exercises 
Chapter 2 Data and Big Data 
2.1 Data as a Basic Entity in the DIKW Framework 
2.2 Big Data 
2.3 Quality of Data and Big Data 
2.4 Basic Measurement of Dataset 
2.5 Summary 
2.6 References 
2.7 Review Questions 
Chapter 3 Big Data Analytics Process 
3.1 The Process of Data Mining and Knowledge Discovery 
3.2 Process of Big Data Analytics 
3.3 Data Preprocess 
3.4 Big Data Analysis 
3.5 Summary 
3.6 References 
3.7 Questions and Exercises 
Part Two Technologies and Tools
Chapter 4 Supporting Infrastructure 
4.1 Cloud Computing 
4.2 Distributed Computing 
4.3 Big Data Systems 
4.4 Summary 
4.5 References 
4.6 Questions and Exercises 
Chapter 5 Hadoop and MapReduce 
5.1 Computer Cluster 
5.2 Apache Hadoop in a Nutshell 
5.3 How Do Hadoop and MapReduce Work? 
5.4 MapReduce Data Flow 
5.5 Other Hadoop Usages 
5.6 Summary 
5.7 References 
5.8 Review Questions and Excesses 
5.9 Practical Tasks (lab tasks) 
Chapter 6 Apache Spark 
6.1 Spark in a Nutshell 
6.2 Spark High-level Architecture 
6.3 Programming with RDDs 
6.4 Spark Application Development and Deployment 
6.5 Summary 
6.6 References 
6.7 Questions and Exercises 
6.8 Practical Tasks (lab tasks) 
Chapter 7 NoSQL and MongoDB 
7.1 NoSQL in a Nutshell 
7.2 NoSQL and Hadoop Integration in Big Data Analytics
7.3 MongoDB 
7.4 Big Data Analysis with MongoDB
7.5 Summary 
7.6 References 
7.7 Questions and Exercises 
7.8 Practical Tasks (lab tasks) 
Part Three Methods and Algorithms
Chapter 8 Data Preparation 
8.1 What is Big Data Preparation? 
8.2 Data Cleaning 
8.3 Data Integration 
8.4 Data Reduction 
8.5 Data Transformation 
8.6 Data Discretisation and Binarisation 
8.7 Summary
8.8 References 
8.9 Questions and Exercises
Chapter 9 Descriptive Data Analysis
9.1 Descriptive Data Analysis 
9.2 Univariate Descriptive Analyses 
9.3 Multivariate Descriptive Analyses 
9.4 Descriptive Analysis between Data Objects
9.5 Association Analysis 
9.6 Summary 
9.7 References 
9.8 Questions and Exercises 
Chapter 10 Explorative Data Analysis 
10.1 Explorative Analysis Approach
10.2 Univariate Graphical EDA 
10.3 Multivariate Graphical EDA 
10.4 Data Visualisation 
10.5 Multidimensional Data Analysis (OLAP)
10.6 Data Clustering 
10.7 Summary 
10.8 References 
10.9 Questions and Exercises 
Chapter 11 Predictive Data Analysis 
11.1 Introduction to Predictive Data Analysis 
11.2 Process of Building Predictive Models 
11.3 Predictive Models 
11.4 Predictive Models Evaluation 
11.5 Classification Problem 
11.6 Recent Applications of Predictive Data Analytics 
11.7 Summary 
11.8 References 
11.9 Questions and Exercises 
Part Four Social, Ethical and Organisational Issues
Chapter 12 Ethics, Governance and Security of Big Data 
12.1 12 V’s of Big Data 
12.2 Ethics of Big Data 
12.3 Governance of Big Data 
12.4 Big Data Privacy and Security 
12.5 Case Studies 
12.6 Summary 
12.7 References 
12.8 Questions and Exercises 
Chapter 13 Building Data-Driven Business Organisations 
13.1 What Is a Data-Driven Organisation? 
13.2 Organisational Big Data Analytics Maturity Models 
13.3 How to Build a Data-Driven Organisation? 
13.4 Big Data Analytics Innovation Examples 
13.5 Summary 
13.6 References 
13.7 Questions and Exercises 


精彩试读:




(本期编辑:安 静)


一起阅读科学!

科学出版社│微信ID:sciencepress-cspm

专业品质  学术价值

原创好读  科学品味

更多好素材,期待您的来稿

与科学相约 | 科学出版社征稿启事

登录查看更多
3

相关内容

大数据分析是指对规模巨大的数据进行分析。大数据可以概括为5个V, 数据量大(Volume)、速度快(Velocity)、类型多(Variety)、价值(Value)、真实性(Veracity)。
【硬核书】不完全信息决策理论,467页pdf
专知会员服务
335+阅读 · 2020年6月24日
【经典书】机器学习:贝叶斯和优化方法,1075页pdf
专知会员服务
389+阅读 · 2020年6月8日
商业数据分析,39页ppt
专知会员服务
157+阅读 · 2020年6月2日
干净的数据:数据清洗入门与实践,204页pdf
专知会员服务
160+阅读 · 2020年5月14日
专知会员服务
121+阅读 · 2020年3月26日
【教程推荐】中科大刘淇教授-数据挖掘基础,刘 淇
专知会员服务
78+阅读 · 2020年3月4日
【大数据白皮书 2019】中国信息通信研究院
专知会员服务
133+阅读 · 2019年12月12日
清华178页深度报告:一文看懂AI数据挖掘
人工智能学家
10+阅读 · 2019年2月18日
【大数据】工业大数据在石化行业的应用成功“落地”
【大数据】海量数据分析能力形成和大数据关键技术
产业智能官
17+阅读 · 2018年10月29日
118页概率思维教程——基础、技巧与算法
专知
12+阅读 · 2018年9月5日
【入门】数据分析六部曲
36大数据
17+阅读 · 2017年12月6日
【大数据】数据挖掘与数据分析知识流程梳理
产业智能官
12+阅读 · 2017年9月22日
Talking-Heads Attention
Arxiv
15+阅读 · 2020年3月5日
Meta-Learning to Cluster
Arxiv
17+阅读 · 2019年10月30日
Geometric Graph Convolutional Neural Networks
Arxiv
10+阅读 · 2019年9月11日
VIP会员
相关VIP内容
【硬核书】不完全信息决策理论,467页pdf
专知会员服务
335+阅读 · 2020年6月24日
【经典书】机器学习:贝叶斯和优化方法,1075页pdf
专知会员服务
389+阅读 · 2020年6月8日
商业数据分析,39页ppt
专知会员服务
157+阅读 · 2020年6月2日
干净的数据:数据清洗入门与实践,204页pdf
专知会员服务
160+阅读 · 2020年5月14日
专知会员服务
121+阅读 · 2020年3月26日
【教程推荐】中科大刘淇教授-数据挖掘基础,刘 淇
专知会员服务
78+阅读 · 2020年3月4日
【大数据白皮书 2019】中国信息通信研究院
专知会员服务
133+阅读 · 2019年12月12日
相关资讯
清华178页深度报告:一文看懂AI数据挖掘
人工智能学家
10+阅读 · 2019年2月18日
【大数据】工业大数据在石化行业的应用成功“落地”
【大数据】海量数据分析能力形成和大数据关键技术
产业智能官
17+阅读 · 2018年10月29日
118页概率思维教程——基础、技巧与算法
专知
12+阅读 · 2018年9月5日
【入门】数据分析六部曲
36大数据
17+阅读 · 2017年12月6日
【大数据】数据挖掘与数据分析知识流程梳理
产业智能官
12+阅读 · 2017年9月22日
Top
微信扫码咨询专知VIP会员