盘口数据频繁变化，100W用户如何实时通知？

会员服务 ·

盘口数据频繁变化，100W用户如何实时通知？

2019 年 8 月 22 日 架构师之路

继续答星球水友提问：盘口数据频繁变化，如何做缓存与推送，如何降低数据库压力？

并没有做过相关的业务，结合自己的架构经验，说说自己的思路和想法，希望对大家有启示。

一、业务抽象

（1）有很多客户端关注盘口，假设百万级别；

（2）数据量不一定很大，上市交易的股票个数，假设万级别；

（3）写的量比较大，每秒钟有很多交易发生，假设每秒百级别；

（4）计算比较复杂，有求和/分组/排序等操作；

二、潜在技术折衷

客户端与服务端连接如何选型？

首先，盘口客户端与服务器建立 TCP长连接，而不是每次请求都建立与销毁短连接，能极大提升性能，降低服务器压力。

业务的实时性如何满足？

盘口业务，对数据实时性的要求较高，服务端可以通过TCP长连接推送，保证消息的实时性。

由于推送量级巨大，可以独立推送集群，专门实施推送。推送集群独立化之后，增加推送服务器数量，就可以线性提升推送能力。

如上图所示，假设有100W用户接收实时推送：

搭建专门的推送集群，维护与客户端的tcp长连接，实时推送
每台推送服务维护10W长连接，10台推送服务即可服务100W用户
推送集群与业务集群之间，通过MQ解耦，推送集群只单纯的推送消息，无任何业务逻辑计算，推送消息的内容，都是业务集群计算好的

推送服务最大的瓶颈是， 如何将一条消息，最快的推送给与之连接的10W个客户端？

如果消息量不大，例如几秒钟一个消息，可以开多线程，例如100个线程，并发推送

画外音：对应水友提到的，如果量不大，可以成交一笔推送一笔。

如果消息量过大，例如一秒钟几百个消息，可以将消息暂存一秒，批量推送

画外音：对应水友提到的，如果消息量巨大，批量推送是很好的方法。

数据量，写入量，扩展性如何满足？

股票个数较少，数据量不是瓶颈。

流水数据写入量，每秒百级别，甚至千级别，数据库写性能也不是瓶颈，理论上一个库可以抗住。

假如每秒写入量达到万级别，可以在数据库层面实施水平切分，将不同股票的流水拆到不同水平切分的库里去，就能线性增加数据库的写入量。

画外音：水平拆分后，同一个股票，数据在同一个库里，不同股票，可能在不同的库里，理论上不会有跨库查询的需求。

如果每秒写入量达到十万，百万级别，还可以加入 MQ缓冲请求，削峰填谷，保护数据库。

如论如何，根据本业务的数据量与写入量，单库应该是没有问题的。

复杂的业务逻辑操作，如何满足？

本业务的写入量不大，但读取量很大，肯定不能每个读取请求都 sum/group by/order by ，这样数据库肯定扛不住。

水友已经想到了，可以用缓存来降低数据库的压力，但担心“随着时间的推移，这个偏差势必会慢慢放大”。

关于缓存的一致性的放大，可以这么搞：

做一个异步的线程，每秒钟访问一次数据库，将复杂的业务逻辑计算出来，放入高可用缓存
所有的读请求不再耦合业务逻辑计算，都直接从高可用缓存读结果

如此一来，复杂业务逻辑的计算，每秒钟只会有一次。

带来的问题是，一秒内可能有很多流水写入数据库，但不会实时的反应到缓存里，用户最差情况下，会读到一秒前的盘口数据。

无论如何，这是一个性能与一致性的设计折衷。

上面的所有方案，都是基于在线客户量级巨大，推送消息巨大的前提下，采用推送方案。很多时候，工程师都会妄加猜测，把问题想得很复杂，把方案搞得很复杂。

如果在线用户量很小 ，用户能够接受的盘口时延较长（例如5s），完全可以采用轮询拉取方案：

（1）取消整个推送集群与MQ集群；

（2）盘口数据，异步线程每1s写入高可用缓存一次；

（3）客户端每5s轮询拉取最新的盘口数据，都只从缓存中拉取；

搞定！

反正，肯定不能每个读请求都sum/group by/order by扫库计算，这个是最需要优化的。

三、总结

长连接比短连接性能好很多倍
推送量巨大时，推送集群需要与业务集群解耦
推送量巨大时，并发推送与批量推送是一个常见的优化手段
写入量巨大时，水平切分能够扩容，MQ缓冲可以保护数据库
业务复杂，读取量巨大时，加入缓存，定时计算，能够极大降低数据库压力

思路比结论重要，希望大家有收获。

欢迎大家继续提问，有问必答。

答球友问：
《用DB自增键生成uid了，还能分库吗？》

《亿级数据“定时任务”，如何缩短执行时间？》

《粉丝关系链，10亿数据，如何设计？》
《几万条群离线消息，如何高效拉取？》

讨论：
做过盘口推送的朋友，说说你们的方案，一起学习？

登录查看更多

相关内容

推送服务

关注 33

【2020新书】实战R语言4，323页pdf

专知会员服务

102+阅读 · 2020年7月1日

【2020新书】现代数据仓库，297页pdf，The Modern Data Warehouse in Azure

专知会员服务

59+阅读 · 2020年6月17日

【WWW2020-中科大-滴滴】层次自适应上下文赌博机的资源约束推荐

专知会员服务

21+阅读 · 2020年4月3日

工程领域大数据和人工智能原则

专知会员服务

126+阅读 · 2020年3月26日

【百度】-大规模深度学习广告系统的分布式分层GPU参数服务器，Distributed Hierarchical GPU PS

专知会员服务

24+阅读 · 2020年3月15日

【哈佛大学】美国对新冠肺炎COVID-19住院和ICU床位的需求:来自中国城市的教训

专知会员服务

29+阅读 · 2020年3月11日

【2020新书】如何构建数据团队？:设计集成的技能、需求和解决方案，257页pdf

专知会员服务

115+阅读 · 2020年3月11日

【2020新书】Kafka实战：Kafka in Action，209页pdf

专知会员服务

69+阅读 · 2020年3月9日

【干货】大数据入门指南：Hadoop、Hive、Spark、 Storm等

专知会员服务

98+阅读 · 2019年12月4日

【CCF优秀博士学位论文奖-2019】大规模图数据处理系统的设计与实现，清华大学朱晓伟

专知会员服务

51+阅读 · 2019年11月8日

多因素问题分析时，如何确立各因素权重？

人人都是产品经理

74+阅读 · 2020年3月4日

如何从0到1建设中台？看这一篇就够了！| 三节课深度

三节课

19+阅读 · 2019年7月9日

用户研究：如何做用户画像分析

产品100干货速递

45+阅读 · 2019年5月9日

亿级订单数据的访问与存储，怎么实现与优化？

码农翻身

16+阅读 · 2019年4月17日

【干货】电商数据中台如何构建？

AliData

11+阅读 · 2019年4月4日

干货 | 双11总峰值超8亿OPS 阿里分布式NoSQL如何岿然不动稳如山？

阿里巴巴数据库技术

10+阅读 · 2018年12月12日

DataCanvas周晓凌：如何为用户提供最佳体验的实时推荐系统

DataCanvas大数据云平台

5+阅读 · 2018年11月12日

精准营销，如何构建一套完善的用户画像体系？

数据猿

16+阅读 · 2018年3月20日

基于 Storm 的实时数据处理方案

开源中国

4+阅读 · 2018年3月15日

五步帮你实现用户画像的数据加工

云栖社区

7+阅读 · 2018年2月4日

A Survey on Edge Intelligence

Arxiv

52+阅读 · 2020年3月26日

CornerNet-Lite: Efficient Keypoint Based Object Detection

Arxiv

3+阅读 · 2019年4月18日

Neural Architecture Search: A Survey

Arxiv

12+阅读 · 2018年9月5日

Extracting Sentiment Attitudes From Analytical Texts

Arxiv

6+阅读 · 2018年8月27日

Metric for Automatic Machine Translation Evaluation based on Universal Sentence Representations

Arxiv

4+阅读 · 2018年5月18日

Dialog-based Interactive Image Retrieval

Arxiv

5+阅读 · 2018年5月1日

Phrase-Based & Neural Unsupervised Machine Translation

Arxiv

4+阅读 · 2018年4月20日

Scalable Generalized Dynamic Topic Models

Arxiv

7+阅读 · 2018年3月21日

SQL-Rank: A Listwise Approach to Collaborative Ranking

Arxiv

6+阅读 · 2018年2月28日

Content based video retrieval

Arxiv

3+阅读 · 2012年11月20日

VIP会员