被挖掘机搞挂的阿里云,能 34 分钟后站起来,并不容易 - 技术宅银魂 - 科技改变生活 - 万事屋

被挖掘机搞挂的阿里云,能 34 分钟后站起来,并不容易

上午阿里云又挂了,上海区包括ECS,对象存储,数据库在内的几个核心服务都受到了影响。影响了B站,小红书等一众用户。#B站崩了##小红书崩了#

根据官方公告,上午 10:04 发现异常,10:35 阿里云工程师完成切流,10:42 服务恢复。官方还没有公布故障具体原因,小道消息是运营商光缆被挖掘机挖断了。

面对这样级别的故障,30分钟出头点的故障恢复时间,阿里云这次做的很不错了,可以给 oncall 的工程师和整个基础设施团队加🍗。有人问,一个可用区挂了,是不是可以自动切流?如果只是一个客户的一个实例挂了,配置了高可用HA,那是可以触发自动切流机制的。但是这次的故障症状是整个可用区都挂了,肯定是需要人为介入先进行确认。从告警发生,人为介入,故障处理,每一步严丝合缝才能达成 34 分钟的全服恢复时间。

阿里被挖掘机弄挂也不是第一次了,最著名的是2015.5.27,当时挖断光缆导致支付宝近16个小时的故障。也由此契机开启了支付宝稳定性的建设之路,以及组建国内第一支 SRE 团队。至今,蚂蚁集团在每年的 527 那周也会举行一系列的技术活动。

我们的软件行业在许多地方都有短板,但在故障应急这一项上,阿里云以及整个国内,其实都是行业里领先的。因为这10多年来,从业者经历了增速体量都最大的场景,最挑剔的客户,还有对稳定性要求最高的大环境。

作者:陈天舟 Bytebase 联合创始⼈/CEO,云计算从业者

来源:微信公众号“大厂后程序员”

20240702163420978-IMG_5065

20240702163420633-IMG_5064

 

    没有回复内容

万事屋新帖