如果是看《Hadoop权威指南》这本书,可以看看我学习时建立的代码库,Hive、HBase、MapReduce、Spark、ZooKeeper等主流组件的书中代码我都根据自己的理解加上了注释:
但《Hadoop权威指南》中各组件已经落后于现在主流公司使用的版本,源码和细节原理都有比较大的变化。
现在入门个人更推荐董西成大佬的《大数据技术体系详解:原理、架构与实践》,讲了主流组件的API和表层原理、组件之间的配合关系,如何共同合作组建成一个大数据平台,数据的整条链路是什么,经过了哪些组件,各组件到底能用于哪些业务场景等等,评分很高: