《Hive数据仓库实践》互联网一线讲师亲自授课，引领学员从实践中收获知识

2019 年 4 月 9 日 炼数成金订阅号

互联网时代下，数据量的急剧增长，传统的数据仓库已经无法满足。Hive作为Hadoop生态圈中的数据仓库解决方案随着开源社区的快速发展而逐步成熟，慢慢的在某些场景下替代企业级数据仓库，成为各大互联网公司数据仓库建设的必选方案，可以这么说，Hive已经成为大数据数据仓库的事实标准。

本课程将从Hive的基本概念入手，深入解析Hive的使用方式、HQL语法以及常用的仓库模式设计和Hive优化方法，并对未来Hive的发展和高级特性做一些简单介绍，并通过最后的案例实践巩固学习内容。通过本课程的学习，将能够胜任大多数互联网场景下的大数据分析和数据开发任务。

课程大纲

第一课 Hadoop与MapReduce

1) Hive在Hadoop Ecosystem中的地位

2) Hive的版本演进与目前现状

3) 课程实践环境说明

4) 实操: Hive/Hadoop预备环境安装

第二课 Hive的基本概念与QuickStart

1) Hive的安装部署

2) Hive的基本架构

3) 启动Hive

4) Hive命令行

5) HiveServer与JDBC/ODBC

6) 实操: Hive命令行和ThriftServer基本使用

第三课数据类型与文件格式

1) Hive支持的基本数据类型

2) Hive支持的集合数据类型

3) Hive支持的文件格式与优劣对比

第四课 HiveQL：数据定义

1) Hive数据模型

2) Database

3) Table

4) Partition

5) 自定义存储格式

6) 自定义表属性

7) 常用创建/删除/修改表语法

8) 实操: HQL 创建/删除/修改操作练习

第五课 HiveQL：数据操作

1) 加载数据（LoadData）

2) 从查询计算结果加载数据(Insert Table Select)

3) 动态分区(DynamicPartitioning)

4) CTAS（CreateTableAsSelect）

5) 导出数据

6) 实操: 练习以上数据加载计算和导出操作

第六课 HiveQL：数据查询

1) 从最简单的开始

2) Select … From

3) Where条件

4) Group By条件

5) Join

6) 排序（OrderBy/SortBy）

7) ClusterBy/DistributeBy

8) 抽样（Sampling）

9) Union

10) 实操: 练习以上各种查询语法

第七课 Hive函数与自定义函数

1) 查看与调用函数

2) 常用标准函数（UDF）

3) UDAF

4) UDTF

5) UDF/UDAF/UDTF开发

6) 实操: 练习并完成UDF Java开发的作业

第八课 Hive常用模式设计

1) 按天做Partition

2) 分桶（Bucket）

3) 压缩

4) 表Schema变更

5) 实操: 练习以上几种仓库设计模式

第九课 Hive调优

1) Hive参数说明

2) Explain查看执行计划

3) 控制Map/Reduce数

4) 并行执行

5) 推测执行

6) Join优化

7) 数据倾斜问题

8) 动态分区优化

9) 实操: 练习并理解不同优化参数下的执行逻辑

第十课 Hive新特性与其他

1) Hive on Tez

2) Hive on Spark

3) Hive与HBase集成

4) HCatalog

第十一课案例

1) 广告用户行为分析场景预备

2) 构建Hive表与数据处理

3) 常用分析案例

4) 实操: 完成以上案例作业

授课时间

本期课程将于4月15日开始。课程持续时间大约为13周。

授课对象

面向数据分析和数据开发，希望从事和进一步了解互联网数据仓库以及数据分析的学员。

课程必备

对Hadoop有一定的基础和认识

了解SQL, 有使用MySQL/MSSQLServer/Oracle等数据分析基础

有基本的Linux命令操作经验和Java开发经验

收获预期

掌握Hive的基本原理，掌握Hive的基本使用，掌握HiveQL的基本语法和常用优化措施，了解Hive数据仓库设计的方法，能够胜任数据仓库分析和数据开发的角色

授课讲师

朱广彬，5年以上大数据架构经验，关注大数据底层架构相关技术，致力于大数据处理技术在计算广告的应用，对Hadoop/Hive/HBase/Spark/Kafka等有深入的认识和实践经验，负责千台Hadoop集群、百亿流量的数据平台架构，Hadoop Contributor。

github: https://github.com/zhuguangbin

点击下方二维码或阅读原文报名课程：

登录查看更多

相关内容

Hive

关注 197

Hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供完整的sql查询功能，可以将sql语句转换为MapReduce任务进行运行。

【实用书】Python爬虫Web抓取数据，第二版，306页pdf

专知会员服务

122+阅读 · 2020年5月10日

【干货书】机器学习，408页pdf，开发人员和技术专业人员的动手实践手册

专知会员服务

217+阅读 · 2020年5月7日

【经典书】Python数据数据分析第二版，541页pdf

专知会员服务

196+阅读 · 2020年3月12日

【Python最佳实践、技巧与提示30则】《30 Python Best Practices, Tips, And Tricks》by Erik-Jan van Baaren

专知会员服务

35+阅读 · 2020年1月6日

【金融机器学习课程资料】Financial Machine Learning

专知会员服务

118+阅读 · 2019年12月24日

【阿里技术干货】知识结构化在阿里小蜜中的应用

专知会员服务

98+阅读 · 2019年12月14日

【干货】大数据入门指南：Hadoop、Hive、Spark、 Storm等

专知会员服务

97+阅读 · 2019年12月4日

【电子书】C++ Primer Plus 第6版，附PDF

专知会员服务

88+阅读 · 2019年11月25日

【电子书】Flutter实战305页PDF免费下载

专知会员服务

23+阅读 · 2019年11月7日

金融大数据平台建设实践，深圳证券信息有限公司数据中心张俊总监，第八届全国社会媒体处理大会SMP2019

专知会员服务

38+阅读 · 2019年10月24日

携程用ClickHouse轻松玩转每天十亿级数据更新

DBAplus社群

11+阅读 · 2019年8月6日

Python数据分析案例实战

炼数成金订阅号

5+阅读 · 2019年5月9日

廖雪峰历时3个月打磨出价值1980的数据分析教程，终终终于免费啦！！！

机器学习算法与Python学习

3+阅读 · 2019年5月6日

资源消耗降低2/3，Flink在唯品会实时平台的应用（有彩蛋）

DBAplus社群

4+阅读 · 2018年11月1日

【免费直播课程】用户画像建模实践，只等你来！

R语言中文社区

5+阅读 · 2018年8月3日

SLA 99.99%以上！饿了么实时计算平台3年演进历程

51CTO博客

11+阅读 · 2018年4月10日

福利 | 当Python遇上大数据与机器学习，入门so easy！

DBAplus社群

13+阅读 · 2018年3月11日

Python & 机器学习之项目实践 | 赠书

人工智能头条

14+阅读 · 2017年12月26日

福利丨晚来天欲雪，一起囤大数据好书吗？

DBAplus社群

4+阅读 · 2017年12月13日

超越Spark，大数据集群计算的生产实践（内含福利）

CSDN大数据

6+阅读 · 2017年9月15日

MHSAN: Multi-Head Self-Attention Network for Visual Semantic Embedding

Arxiv

4+阅读 · 2020年1月11日

Unsupervised Data Augmentation for Consistency Training

Arxiv

5+阅读 · 2019年7月10日

Neural Graph Collaborative Filtering

Arxiv

8+阅读 · 2019年5月20日

Relational Deep Reinforcement Learning

Arxiv

5+阅读 · 2018年6月5日

Population Anomaly Detection through Deep Gaussianization

Arxiv

6+阅读 · 2018年5月5日

Equity of Attention: Amortizing Individual Fairness in Rankings

Arxiv

4+阅读 · 2018年5月4日

Piecewise Flat Embedding for Image Segmentation

Arxiv

3+阅读 · 2018年2月12日

DenseReg: Fully Convolutional Dense Shape Regression In-the-Wild

Arxiv

3+阅读 · 2018年2月1日

Mix-and-Match Tuning for Self-Supervised Semantic Segmentation

Arxiv

8+阅读 · 2018年1月30日

Constraint and Mathematical Programming Models for Integrated Port Container Terminal Operations

Arxiv

3+阅读 · 2017年12月14日

VIP会员