云​大数据和计算技术周报(第45期)

2018 年 5 月 6 日 大数据和云计算技术 社区编辑部
写在第45期
“大数据” 三个字其实是个marketing语言,从技术角度看,包含范围很广,计算、存储、网络都涉及,知识点广、学习难度高。


本期会给大家奉献上精彩的:分布式锁、开源软件名字来源、Kafka消息格式、数据处理方式比较、Apache Kylin、Spark Streaming 、Spark Core、HBase运维基础。全是干货,希望大家喜欢!!!


#大数据和云计算技术社区#希望通过坚持定期分享能帮助同学在大数据学习道路上尽一份微博之力。相信长期坚持认真阅读周报的同学,在技术的道路上一定会日益精进!感谢编辑们的长期坚持!也请同学们继续打赏,支持社区,支持编辑们持续奉献高质量知识!


#大数据和云计算技术社区#长期招募有兴趣参与社区编辑和运营的同学,欢迎扫描文末二维码联系(参与社区工作,收获知识和进步,还有红包哦)。


特别提醒,文末有惊喜!


以下是正文,限于众编辑水平有限,不保证大家都喜欢。

分布式锁

锁的作用是让多个线程同步(one by one)去执行一段代码(访问某个资源,如多个线程访问同一个账户),所以锁的概念是针对多线程而言的。

https://mp.weixin.qq.com/s/foy4l6YWAWvOpH6_elkADg

2
开源软件名字来源  
 

今天我们一起来看看这11个开源项目的名字是怎么来的

https://mp.weixin.qq.com/s/WQ1W7HfoCoZ5marBGIGRUA

3
Kafka消息格式  
 

对于一个成熟的消息中间件而言,消息格式不仅关系到功能维度的扩展,还牵涉到性能维度的优化。随着Kafka的迅猛发展,其消息格式也在不断的升级改进,从0.8.x版本开始到现在的1.1.x版本,Kafka的消息格式也经历了3个版本。本文这里主要来讲述Kafka的三个版本的消息格式的演变。

https://mp.weixin.qq.com/s/Z4Z18dJ3wZO3kF5ycxFf-g

4
数据处理方式比较  
 

对数据的处理,有ETL方式;有写MapReduce,有Hive和Spark进行数据清洗等几种方式,可以说每种方式都有各自的使用场景,文中对不同的使用场景做了分别的阐述

https://mp.weixin.qq.com/s/S4cDZDckil1LfCjeyHu2jg

5
Apache Kylin  
 

本文主要通过 Apache Kylin 线上查询机大量线程 Blocked Case 的分析过程,说明在 Apache Kylin 中 SQL 使用正确数据类型的重要性,最后再通过我近期解决的一些实际问题,来简单总结下计算机工程师解决问题的常规思路和手段。

https://mp.weixin.qq.com/s/lzG9c1_avHExmkZrRJmG0Q

6
Spark Streaming   
 

本文结合Spark官网Demo以及作者的实践,详细讲解了Spark从不同数据源获取数据并进行并行处理的一些基本技巧和核心概念,对初学者了解Spark大有裨益,也是了解Spark Streaming编程技巧的入门指南。

http://www.cnblogs.com/swordfall/p/8378000.html

7
Spark Core  
 

sorted shuffle write 流程上来说:将shuffleMapTask的结果写内存,写的时候会抽样扩内存,到一定上限的时候将数据spill物化,在写硬盘的过程中根据需要以partition以及key作为key进行排序,排序是类似于归并外排的方法。如果需要在map端聚合用PartitionedAppendOnlyMap这个数据结构、不需要在map端聚会用PartitionedPairBuffer这个数据结构。map端是如何知道呢,因为map 端持有下游rdd(下一个stage )的 dependency,这个东西里面就有一系列map操作的指导信息。 

https://www.jianshu.com/p/ac41682c5d16

8
HBase运维基础  
 

本文就HBase运维的原理基础开始入手,重点讲解数据完整性,以及元数据“逆向工程”恢复数据完整性的原理方法。开启后续一系列的HBase运维知识讲解。

https://mp.weixin.qq.com/s/yt4X2tDQrLx35NsviRHbPg

 


009
开心一刻

 有位大爷去人民银行取钱,直接走到窗口,保安过来说:“大爷,按号。” 大爷:“啥?” 保安:“按号。” 大爷心想,不愧是大银行呀,取个钱还要暗号,于是低声对保安说:“天王盖地虎。” 保安无奈的帮老爷子按出一张排队票,老爷子心想:吓死我了,居然被我蒙对了!!

致谢:

魏宏斌、薛述强、刘彬、刘超、廖程鹏、董言、吕西金、朱洁、蓝随、黄文辉



猜你喜欢




#大数据和云计算机技术社区#博客精选(2017)

NoSQL 还是 SQL ?这一篇讲清楚

阿里的OceanBase解密

#大数据和云计算技术#: "四有"社区介绍

大数据和云计算技术周报(第44期):NoSQL特辑

大数据和云计算技术周报(第43期)

新数仓系列:Hbase周边生态梳理(1)

《大数据架构详解》第2次修订说明

简单梳理跨数据中心数据库

云观察系列:漫谈运营商公有云发展史

云观察系列:百度云的一波三折

云观察系列:阿里云战略观察

超融合方案分析系列(7)思科超融合方案分析

加入技术讨论群




《大数据和云计算技术》社区群人数已经3000+,欢迎大家加下面助手微信,拉大家进群,自由交流。


喜欢QQ群的,可以扫描下面二维码:

欢迎大家通过二维码打赏支持技术社区(英雄请留名,社区感谢您,打赏次数超过108+):








登录查看更多
0

相关内容

Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎。Spark是UC Berkeley AMP lab (加州大学伯克利分校的AMP实验室)所开源的类Hadoop MapReduce的通用并行框架,Spark,拥有Hadoop MapReduce所具有的优点;但不同于MapReduce的是Job中间输出结果可以保存在内存中,从而不再需要读写HDFS,因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法。
【实用书】Python爬虫Web抓取数据,第二版,306页pdf
专知会员服务
115+阅读 · 2020年5月10日
【实用书】流数据处理,Streaming Data,219页pdf
专知会员服务
76+阅读 · 2020年4月24日
【资源】100+本免费数据科学书
专知会员服务
105+阅读 · 2020年3月17日
【大规模数据系统,552页ppt】Large-scale Data Systems
专知会员服务
58+阅读 · 2019年12月21日
【阿里技术干货】知识结构化在阿里小蜜中的应用
专知会员服务
96+阅读 · 2019年12月14日
【大数据白皮书 2019】中国信息通信研究院
专知会员服务
133+阅读 · 2019年12月12日
【干货】大数据入门指南:Hadoop、Hive、Spark、 Storm等
专知会员服务
94+阅读 · 2019年12月4日
【推荐系统/计算广告/机器学习/CTR预估资料汇总】
专知会员服务
86+阅读 · 2019年10月21日
今日头条技术架构分析
互联网架构师
11+阅读 · 2019年8月19日
SLA 99.99%以上!饿了么实时计算平台3年演进历程
51CTO博客
11+阅读 · 2018年4月10日
大数据流处理平台的技术选型参考
架构文摘
4+阅读 · 2018年3月14日
《大数据架构详解:从数据获取到深度学习》第八次重印
大数据和云计算技术
5+阅读 · 2017年12月24日
福利丨晚来天欲雪,一起囤大数据好书吗?
DBAplus社群
4+阅读 · 2017年12月13日
Arxiv
4+阅读 · 2018年4月9日
VIP会员
相关VIP内容
【实用书】Python爬虫Web抓取数据,第二版,306页pdf
专知会员服务
115+阅读 · 2020年5月10日
【实用书】流数据处理,Streaming Data,219页pdf
专知会员服务
76+阅读 · 2020年4月24日
【资源】100+本免费数据科学书
专知会员服务
105+阅读 · 2020年3月17日
【大规模数据系统,552页ppt】Large-scale Data Systems
专知会员服务
58+阅读 · 2019年12月21日
【阿里技术干货】知识结构化在阿里小蜜中的应用
专知会员服务
96+阅读 · 2019年12月14日
【大数据白皮书 2019】中国信息通信研究院
专知会员服务
133+阅读 · 2019年12月12日
【干货】大数据入门指南:Hadoop、Hive、Spark、 Storm等
专知会员服务
94+阅读 · 2019年12月4日
【推荐系统/计算广告/机器学习/CTR预估资料汇总】
专知会员服务
86+阅读 · 2019年10月21日
相关资讯
今日头条技术架构分析
互联网架构师
11+阅读 · 2019年8月19日
SLA 99.99%以上!饿了么实时计算平台3年演进历程
51CTO博客
11+阅读 · 2018年4月10日
大数据流处理平台的技术选型参考
架构文摘
4+阅读 · 2018年3月14日
《大数据架构详解:从数据获取到深度学习》第八次重印
大数据和云计算技术
5+阅读 · 2017年12月24日
福利丨晚来天欲雪,一起囤大数据好书吗?
DBAplus社群
4+阅读 · 2017年12月13日
Top
微信扫码咨询专知VIP会员