成为VIP会员查看完整内容
VIP会员码认证
首页
主题
会员
服务
注册
·
登录
0
AWS 日本区域因「服务器过热」导致一小部分的 EC2 停机
2019 年 8 月 26 日
云头条
AWS近日披露了
关于《Amazon EC2 以及 Amazon EBS 在东京区域 (AP-NORTHEAST-1) 的服务事件》的说明,以下为披露的原文,供各位参考。
针对在东京区域 (AP-NORTHEAST-1) 的服务中断事件,我们在这里提供更多信息。从 2019 年 8 月 23 日 11:36 AM CST (中国标准时间)开始,一小部分的 EC2 服务器在东京 (AP-NORTHEAST-1) 区域中单一可用区 (Availability Zone) 由于服务器过热造成停机。这导致在该可用区中受到影响的 EC2 实例与 EBS 卷效能降低。造成服务器过热的原因是控制系统故障,造成受影响的可用区的部分冷却系统失效。
受到影响的冷却系统已经在 2:21 PM CST (中国标准时间)修复,服务器温度也恢复到正常状态。在温度恢复正常后,EC2 实例的电源供应也已恢复。
在 5:30 PM CST (中国标准时间) ,大部分受影响的 EC2 实例与 EBS 卷都恢复正常工作,但仍有一小部分的实例与卷因为过热与断电暂时无法修复,因为底层硬件的故障,其中有些实例与卷需要更多的时间进行修复。
除了 EC2 实例与 EBS 卷受到影响外,在 12:21 PM CST (中国标准时间) EC2 RunInstances API 也受到了影响。
在受影响的可用区中,尝试启动新的 EC2 实例和和尝试使用 RunInstances API 的 "idempotency token" 功能 (一个允许用户启动新的实例时重试而不会产生多余的实例的功能)时,也有发生错误。
其他没有调用 "idempotency token"的 API 则可正常运作。
这个事件也导致透过 "idempotency token" 使用 Auto Scaling 时,无法启动新实例。
后台团队已经于 1:51 PM CST (中国标准时间) 修复了 “idempotency token” 与 Auto Scaling 相关的问题。
并且于 3:05 PM CST(中国标准时间)在受影响的可用区中,修复了EC2 控制面板的子系统,开启新实例的功能已经可以正常工作。
但在本事件中受到影响的卷所建立的新快照 (Snapshot) 依旧有一定的错误率。
本次事件是由于数据中心负责控制和优化冷却的控制系统故障所造成,这个控制系统在多个主机都有部署以实现高可用性,本控制系统中包含了允许与风扇、冷却器和温度传感器等硬件组件相互传递信号的第三方的程序,该程序可以直接或透过 Programmable Logic Controllers (PLC) 来与实际的硬件组件沟通。
在这事件发生前,数据中心的控制系统正在为了其中一台失效的控制主机进行备份处理,在备份处理中,控制系统要彼此互相交换信号 (例如:
冷却装置与温度传感器交换信号)以保持最新的信息。
由于该第三方程序中的一个错误,导致控制系统与组件过度的进行信息交换而造成控制系统无法回应。
我们的数据中心被设计成一旦控制系统发生错误,冷却系统就会自动进入最冷的模式,直到控制系统恢复正常为止,这样的设计对于我们大部分的数据中心都是有效的,但有一小部分的数据中心,由于冷却系统无法正确进入安全降温模式,而造成系统关机。
我们的数据中心加入了安全防护设计,在控制系统故障时,可以略过控制系统,直接进入净空模式将数据中心中的热空气迅速排出,但控制中心的团队在启动净空模式时发生了故障,所以数据中心的温度才会持续攀升,而服务器在到达温度上限后也开始自动关机了。
由于数据中心的控制系统故障,维运团队无法得知数据中心冷却系统的即时信息,在进行故障排除时,团队必须要对所有组件进行逐一的人工检查,才能让控制系统进入最冷模式,在这故障排除的过程中,发现控制空调组件的 PLC 控制器无法回应,控制器需要进行重置,是 PLC 控制器的错误造成了预设的冷却模式与净空模式无法正确动作,在 PLC 控制器被重置之后,该可用区数据中心的冷却系统就可以正常工作了,而数据中心的过高的温度也开始慢慢降低。
我们仍在与第三方供应商合作以了解导致控制系统和受影响的 PLC 无响应的错误和后续交互。
在此期间,我们已禁用在我们的控制系统上触发此错误的故障转移模式,以确保我们不会再次出现此问题。
我们还培训了我们的本地运营团队,以便在发生这种情况时快速识别和修复这种情况,并且我们相信,如果再次发生类似情况,无论什么原因,我们可以在客户受影响之前重置系统。
最后,我们正在努力修改我们控制受影响的空气处理单元的方式,以确保“清除模式”能够完全绕过PLC控制器。
这是我们在最新的数据中心设计中开始使用的一种方法,即使 PLC 无响应,我们也会更加确信“清除模式”将起作用。
在这次事件中,EC2 实例以及 EBS 储存在同一区域的其它的可用区没有受到影响。
同时在多个可用区上充分执行他们的应用程序的客户,在这次的事件中依然可以维持服务可用。
对于需要绝对高可用的客户,我们持续建议您使用高可用性的架构设计。
任何与应用程序相关的元件都应该采用这种容错设计。
登录查看更多
点赞并收藏
0
暂时没有读者
0
权益说明
本文档仅做收录索引使用,若发现您的权益受到侵害,请立即联系客服(微信: zhuanzhi02,邮箱:bd@zhuanzhi.ai),我们会尽快为您处理
相关内容
亚马逊AWS
关注
8
由亚马逊云平台提供的一种信息服务。
【KDD2020】动态图的拉普拉斯变换点检测,Laplacian Change Point Detection for Dynamic Graphs
专知会员服务
38+阅读 · 2020年7月3日
【新墨西哥大学】深度学习的局限性和缺陷,10页pdf,Deep Learning Limitations and Flaws
专知会员服务
54+阅读 · 2020年2月5日
【新书】Java企业微服务,Enterprise Java Microservices,272页pdf
专知会员服务
53+阅读 · 2020年1月30日
《量子计算发展白皮书》(2019版)发布,40页PDF,赛迪智库编
专知会员服务
86+阅读 · 2019年11月8日
【ICCV 2019 Tutorial】Deraining and Adherent Raindrop Removal(排水和去除液滴),新加坡国立大学 Robby T. Tan副教授
专知会员服务
10+阅读 · 2019年10月30日
在K8S上运行Kafka合适吗?会遇到哪些陷阱?
DBAplus社群
9+阅读 · 2019年9月4日
被动DNS,一个被忽视的安全利器
运维帮
11+阅读 · 2019年3月8日
I2P - 适用于黑客的Android应用程序
黑白之道
38+阅读 · 2019年3月6日
【机器视觉】利用多台相机高速检测塑料比色皿、视觉检测系统提升汽车零件检测效果
产业智能官
4+阅读 · 2019年1月8日
Spark的误解-不仅Spark是内存计算,Hadoop也是内存计算
大数据技术
5+阅读 · 2017年7月28日
Deep Co-Training for Semi-Supervised Image Segmentation
Arxiv
6+阅读 · 2019年10月30日
Confidence-based Graph Convolutional Networks for Semi-Supervised Learning
Arxiv
7+阅读 · 2019年2月12日
Domain Specific Approximation for Object Detection
Arxiv
5+阅读 · 2018年10月4日
Conditional Random Fields as Recurrent Neural Networks for 3D Medical Imaging Segmentation
Arxiv
9+阅读 · 2018年7月19日
Zero-Shot Detection
Arxiv
7+阅读 · 2018年3月19日
VIP会员
自助开通(推荐)
客服开通
详情
相关主题
亚马逊AWS
服务器
Amazon EC2
Amazon
词元分析器
事件
相关VIP内容
【KDD2020】动态图的拉普拉斯变换点检测,Laplacian Change Point Detection for Dynamic Graphs
专知会员服务
38+阅读 · 2020年7月3日
【新墨西哥大学】深度学习的局限性和缺陷,10页pdf,Deep Learning Limitations and Flaws
专知会员服务
54+阅读 · 2020年2月5日
【新书】Java企业微服务,Enterprise Java Microservices,272页pdf
专知会员服务
53+阅读 · 2020年1月30日
《量子计算发展白皮书》(2019版)发布,40页PDF,赛迪智库编
专知会员服务
86+阅读 · 2019年11月8日
【ICCV 2019 Tutorial】Deraining and Adherent Raindrop Removal(排水和去除液滴),新加坡国立大学 Robby T. Tan副教授
专知会员服务
10+阅读 · 2019年10月30日
热门VIP内容
开通专知VIP会员 享更多权益服务
前沿人工智能趋势报告(Frontier AI Trends Report)
【AAAI2026】善始则事半功倍:基于前缀优化的大语言模型推理强化学习
Andrej Karpathy:2025 年 LLM 年度回顾(2025 LLM Year in Review)
音退化问题:基于输入操控的鲁棒语音转换综述
相关资讯
在K8S上运行Kafka合适吗?会遇到哪些陷阱?
DBAplus社群
9+阅读 · 2019年9月4日
被动DNS,一个被忽视的安全利器
运维帮
11+阅读 · 2019年3月8日
I2P - 适用于黑客的Android应用程序
黑白之道
38+阅读 · 2019年3月6日
【机器视觉】利用多台相机高速检测塑料比色皿、视觉检测系统提升汽车零件检测效果
产业智能官
4+阅读 · 2019年1月8日
Spark的误解-不仅Spark是内存计算,Hadoop也是内存计算
大数据技术
5+阅读 · 2017年7月28日
相关论文
Deep Co-Training for Semi-Supervised Image Segmentation
Arxiv
6+阅读 · 2019年10月30日
Confidence-based Graph Convolutional Networks for Semi-Supervised Learning
Arxiv
7+阅读 · 2019年2月12日
Domain Specific Approximation for Object Detection
Arxiv
5+阅读 · 2018年10月4日
Conditional Random Fields as Recurrent Neural Networks for 3D Medical Imaging Segmentation
Arxiv
9+阅读 · 2018年7月19日
Zero-Shot Detection
Arxiv
7+阅读 · 2018年3月19日
大家都在搜
Palantir
朱克爱德华兹家族
大型语言模型
多域作战
未来战争
机场
反恐
突防
蓝牙安全攻防
冷启动,0预算,如何借助分销裂变引爆私域用户增长?
Top
提示
微信扫码
咨询专知VIP会员与技术项目合作
(加微信请备注: "专知")
微信扫码咨询专知VIP会员
Top