分布式容错架构很难？一篇给你讲清楚

会员服务 ·

分布式容错架构很难？一篇给你讲清楚

2019 年 1 月 30 日 51CTO博客

“

这篇文章，我们将用非常浅显易懂的语言，跟大家聊聊大规模分布式系统的容错架构设计。

虽然定位是有“分布式”、“容错架构”等看起来略显复杂的字眼，但是咱们还是按照老规矩：大白话 + 手绘数张彩图，逐步递进，让每个同学都能看懂这种复杂架构的设计思想。

TB 级数据放在一台机器上：难啊！

咱们就用分布式存储系统举例，来聊一下容错架构的设计。

首先，我们来瞧瞧，到底啥是分布式存储系统呢？其实特别的简单，咱们就用数据库里的一张表来举例。

比如你手头有个数据库，数据库里有一张特别大的表，里面有几十亿，甚至上百亿的数据。

更进一步说，假设这一张表的数据量多达几十个 TB，甚至上百个 TB，这时你觉得咋样？

当然是内心感到恐慌和无助了，因为如果你用 MySQL 之类的数据库，单台数据库服务器上的磁盘可能都不够放这一张表的数据！

咱们就来看看下面的这张图，来感受一下：

到底啥是分布式存储？

所以，假如你手头有一个超大的数据集，几百 TB！那你还是别考虑传统的数据库技术来存放了。

因为用一台数据库服务器可能根本都放不下，所以我们考虑一下分布式存储技术？对了！这才是解决这个问题的办法。

咱们完全可以搞多台机器嘛！比如搞 20 台机器，每台机器上就放 1/20 的数据。

举个例子，比如总共 20TB 的数据，在每台机器上只要放 1TB 就可以了，1TB 应该还好吧？每台机器都可以轻松加愉快的放下这么多数据了。

所以说，把一个超大的数据集拆分成多片，给放到多台机器上去，这就是所谓的分布式存储。

咱们再看看下面的图：

那么啥又是分布式存储系统呢？

那分布式存储系统是啥呢？分布式存储系统，当然就是负责把一个超大数据集拆分成多块，然后放到多台机器上来存储，接着统一管理这些分散在多台机器上存储的数据的一套系统。

比如说经典的 Hadoop 就是这类系统，然后 FastDFS 也是类似的。如果你可以脑洞打开，从思想本质共通的层面出发，那你会发现，其实类似 Elasticsearch、Redis Cluster 等等系统，它们的本质都是如此。

这些都是基于分布式的系统架构，把超大数据拆分成多片给你存放在多台机器上。

咱们这篇文章是从分布式系统架构层面出发，不拘泥于任何一种技术，所以姑且可以设定：这套分布式存储系统，有两种进程。

一个进程是 Master 节点，就在一台机器上，负责统一管控分散在多台机器上的数据。

另外一批进程叫做 Slave 节点，每台机器上都有一个 Slave 节点，负责管理那台机器上的数据，跟 Master 节点进行通信。

咱们看看下面的图，通过图再来直观的看看上面的描述：

天哪！某台机器宕机了咋办？

这个时候又有一个问题了，那么万一上面那 20 台机器上，其中 1 台机器宕机了咋整呢？

这就尴尬了，兄弟，这会导致本来完整的一份 20TB 的数据，最后有 19TB 还在了，有 1TB 的数据就搞丢了，因为那台机器宕机了啊。

所以说你当然不能允许这种情况的发生，这个时候就必须做一个数据副本的策略。

比如说，我们完全可以给每一台机器上的那 1TB 的数据做 2 个副本的冗余，放在别的机器上，然后呢，万一说某一台机器宕机，没事啊，因为其他机器上还有它的副本。

我们来看看这种多副本冗余的架构设计图：

上面那个图里的浅蓝色的“1TB 数据 01”，代表的是 20TB 数据集中的第一个 1TB 数据分片。

图中可以看到，他就有 3 个副本，分别在三台机器中都有浅蓝色的方块，代表了它的三个副本。

这样的话，一份数据就有了 3 个副本了。其他的数据也是类似。这个时候我们假设有一台机器宕机了，比如下面这台机器宕机，必然会导致“1TB 数据 01”这个数据分片的其中一个数据副本丢失。

如下图所示：

那这个时候要紧吗？不要紧，因为“1TB 数据 01”这个数据分片，它还有另外 2 个副本在存活的两台机器上呢！

所以如果有人要读取数据，完全可以从另外两台机器上随便挑一个副本来读取就可以了，数据不会丢的，不要紧张，大兄弟。

Master 节点如何感知到数据副本消失？

现在有一个问题，比如说有个兄弟要读取“1TB 数据 01”这个数据分片，那么他就会找 Master 节点，说：“你能不能告诉我“1TB 数据 01”这个数据分片人在哪里啊？在哪台机器上啊？我需要读他啊！”

我们来看看下面的图：

那么这个时候，Master 节点就需要从“1TB 数据 01”的 3 个副本里选择一个出来，告诉人家说：“兄弟，在哪台哪台机器上，有 1 个副本，你可以去那台机器上读“1TB 数据 01”的一个副本就 ok 了。”

但是现在的问题是，Master 节点此时还不知道“1TB 数据 01”的副本 3 已经丢失了，那万一 Master 节点还是通知人家去读取一个已经丢失的副本 3，肯定是不可以的。

所以，我们怎么才能让 Master 节点知道副本 3 已经丢失了呢？其实也很简单，每台机器上负责管理数据的 Slave 节点，都每隔几秒（比如说 1 秒）给 Master 节点发送一个心跳。

那么，一旦 Master 节点发现一段时间（比如说 30 秒内）没收到某个 Slave 节点发送过来的心跳，此时就会认为这个 Slave 节点所在机器宕机了，那台机器上的数据副本都丢失了，然后 Master 节点就不会告诉别人去读那个丢失的数据副本。

大家看看下面的图，一旦 Slave 节点宕机，Master 节点收不到心跳，就会认为那台机器上的副本 3 就已经丢失了，此时绝对不会让别人去读那台宕机机器上的副本 3。

那么此时，Master 节点就可以通知人家去读“1TB 数据 01”的副本 1 或者副本 2，哪个都行，因为那两个副本其实还是在的。

举个例子，比如可以通知客户端去读副本 1，此时客户端就可以找那台机器上的 Slave 节点说要读取那个副本 1。

整个过程如下图所示：

复制副本保持足够副本数量

这个时候又有另外一个问题，那就是“1TB 数据 01”这个数据分片此时只有副本 1 和副本 2 这两个副本了，这就不足够 3 个副本啊。

因为我们预设的是每个数据分片都得有 3 个副本的。大家想想，此时如何给这个数据分片增加 1 个副本呢？

很简单，Master 节点一旦感知到某台机器宕机，就能感知到某个数据分片的副本数量不足了。

此时，就会生成一个副本复制的任务，挑选另外一台机器来从有副本的机器去复制一个副本。

比如看下面的图，可以挑选第 4 台机器从第 2 台机器去复制一个副本：

但是，现在这个复制任务是有了，我们怎么让机器 4 知道呢？其实也很简单，机器 4 不是每秒都会发送一次心跳么？

当机器 4 发送心跳过去的时候，Master 节点就通过心跳响应把这个复制任务下发给机器 4，让机器 4 从机器 2 复制一个副本好了。

同样，我们来一张图，看看这个过程：

看上图，现在机器 4 上是不是又多了一个“1TB 数据 01”的副本 3？那么“1TB 数据 01”这个数据分片是不是又变成 3 个副本了？

删除多余副本

那反过来，如果说此时机器 3 突然恢复了，他上面也有一个“1TB 数据 01”的副本 3，相当于此时“1TB 数据 01”就有 4 个副本了，副本不就多余了吗？

没关系，一旦 Master 节点感知到机器 3 复活，会发现副本数量过多，此时会生成一个删除副本任务。

他会在机器 3 发送心跳的时候，下发一个删除副本的指令，让机器 3 删除自己本地多余的副本就可以了。这样，就可以保持副本数量只有 3 个。

一样的，大家来看看下面的图：

总结

好了，到这里，通过超级大白话的讲解，还有十多张图的渐进式演进说明，相信大家以前即使不了解分布式系统，都绝对能理解一个分布式系统的完整的数据容错架构是如何设计的了。

实际上，这种数据分片存储、多副本冗余、宕机感知、自动副本迁移、多余副本删除，这套机制，对于 Hadoop、Elasticsearch 等很多系统来说，都是类似的。

所以笔者在这里强烈建议大家，一定好好吸收一下这种分布式系统、中间件系统底层数据容错架构的思想。

这样，以后学习类似的一些技术的时候，对他们的原理、思想都会感到一种似曾相识的感觉。

作者：中华石杉

编辑：陶家龙、孙淑娟

出处：转载自微信公众号：石杉的架构笔记（ID：shishan100）

中华石杉：十余年 BAT 架构经验，一线互联网公司技术总监。带领上百人团队开发过多个亿级流量高并发系统。现将多年工作中积累下的研究手稿、经验总结整理成文，倾囊相授。微信公众号：石杉的架构笔记（ID：shishan100）。

精彩文章推荐：

一文说尽MySQL事务及ACID特性的实现原理

普通码农如何“C位出道”冲进BAT？

一路打怪升级，360推荐系统架构演进

登录查看更多

相关内容

存储系统

关注 4

众包数据库综述

专知会员服务

32+阅读 · 2020年5月20日

【实用书】流数据处理，Streaming Data，219页pdf

专知会员服务

78+阅读 · 2020年4月24日

【干货书】Elasticsearch入门学习权威指南，719页pdf教您构建分布式实时搜索和分析引擎

专知会员服务

60+阅读 · 2020年4月15日

【实用书】Python数据分析与可视化，390页pdf，分析数据以创建BI系统的可视化

专知会员服务

163+阅读 · 2020年4月13日

【百度】-大规模深度学习广告系统的分布式分层GPU参数服务器，Distributed Hierarchical GPU PS

专知会员服务

24+阅读 · 2020年3月15日

【香港浸会大学】有效通信的分布式深度学习:一个全面的综述

专知会员服务

44+阅读 · 2020年3月10日

【2020新书】Kafka实战：Kafka in Action，209页pdf

专知会员服务

69+阅读 · 2020年3月9日

【大规模数据系统，552页ppt】Large-scale Data Systems

专知会员服务

61+阅读 · 2019年12月21日

【干货】大数据入门指南：Hadoop、Hive、Spark、 Storm等

专知会员服务

98+阅读 · 2019年12月4日

知识图谱本体结构构建论文合集

专知会员服务

110+阅读 · 2019年10月9日

分布式核心技术知识图谱，带走不谢

架构师之路

12+阅读 · 2019年9月23日

在K8S上运行Kafka合适吗？会遇到哪些陷阱？

DBAplus社群

9+阅读 · 2019年9月4日

【中台】阿里架构总监一次讲透中台架构，13页PPT精华详解，建议收藏！

产业智能官

39+阅读 · 2019年8月25日

工行基于MySQL构建分布式架构的转型之路

炼数成金订阅号

15+阅读 · 2019年5月16日

使用 Canal 实现数据异构

性能与架构

20+阅读 · 2019年3月4日

蚂蚁金服微服务实践（附演讲PPT）

开源中国

18+阅读 · 2018年12月21日

可能是讲分布式系统最到位的一篇文章

InfoQ

8+阅读 · 2018年11月19日

为什么分布式一定要有消息队列？

互联网架构师

4+阅读 · 2018年7月5日

一篇文章读懂阿里企业级数据库最佳实践

阿里巴巴数据库技术

5+阅读 · 2017年12月20日

Spark的误解-不仅Spark是内存计算，Hadoop也是内存计算

大数据技术

5+阅读 · 2017年7月28日

Distributed Hierarchical GPU Parameter Server for Massive Scale Deep Learning Ads Systems

Arxiv

7+阅读 · 2020年3月12日

Knowledge Graphs

Arxiv

102+阅读 · 2020年3月4日

Heterogeneous Graph Transformer

Arxiv

27+阅读 · 2020年3月3日

Graph Neural Networks for Social Recommendation

Arxiv

20+阅读 · 2019年11月23日

Building Knowledge Graphs About Political Agents in the Age of Misinformation

Arxiv

5+阅读 · 2019年1月29日

Reversible Recurrent Neural Networks

Arxiv

3+阅读 · 2018年10月25日

Bidirectional Attention for SQL Generation

Arxiv

4+阅读 · 2018年6月21日

Mem2Seq: Effectively Incorporating Knowledge Bases into End-to-End Task-Oriented Dialog Systems

Arxiv

7+阅读 · 2018年5月21日

Piecewise Flat Embedding for Image Segmentation

Arxiv

3+阅读 · 2018年5月20日

DVQA: Understanding Data Visualizations via Question Answering

Arxiv

8+阅读 · 2018年1月24日

VIP会员