数据仓库与大数据的区别?

关注者
56
被浏览
91,586
登录后你可以
不限量看优质回答私信答主深度交流精彩内容一键收藏

先直接说区别:大数据是一种技术手段;数据仓库是一个存放数据的集合;一个是手段,一个是结果。


大数据:

现在的我,一看到【大数据】三个字,脑子立刻蹦出各种工具:

离线计算:hadoop,hive...

实时计算:flink,storm,spark,kafka...

还记得我大学刚毕业在一家传统行业的公司工作,每天处理不到10G的数据,用的是Oracle、db2 ,再加上公司服务器性能不太好,跑了一上午,数据也没跑完,当时就觉得10G的数据好大啊;

现在每天要处理pb级的数据,再看10G的数据,就感觉不值一提(当然,具体数据大小还是跟压缩格式有关)。

我的理解:现在说【大数据】 是泛指 处理大量数据(不管是结构化的,还是非结构化的)的一些技术手段

数据仓库:

这个。。。 从字面上看,数仓就是存放各种数据的集合。

一看到【数据仓库】这四个字,脑子立刻蹦出:etl,各种形式的数据源,各种数据表,仓库建模,各种展示的图表,BI... 这些都是构建数据仓库过程中的各个模块

数据仓库按照实效性可分为:

离线数据仓库:一般基于hive构建,t+1

实时的数据仓库:我们是用flink、storm来做

最后最后,我们利用大数据技术来实现数据仓库的构建和管理。

胡乱说一通哈