被挖掘机搞挂的阿里云，能 34 分钟后站起来，并不容易 - 技术宅银魂 - 科技改变生活 - 万事屋

评分

被挖掘机搞挂的阿里云，能 34 分钟后站起来，并不容易

3个月前发布

2480

上午阿里云又挂了，上海区包括ECS，对象存储，数据库在内的几个核心服务都受到了影响。影响了B站，小红书等一众用户。#B站崩了##小红书崩了#

根据官方公告，上午 10:04 发现异常，10:35 阿里云工程师完成切流，10:42 服务恢复。官方还没有公布故障具体原因，小道消息是运营商光缆被挖掘机挖断了。

面对这样级别的故障，30分钟出头点的故障恢复时间，阿里云这次做的很不错了，可以给 oncall 的工程师和整个基础设施团队加🍗。有人问，一个可用区挂了，是不是可以自动切流？如果只是一个客户的一个实例挂了，配置了高可用HA，那是可以触发自动切流机制的。但是这次的故障症状是整个可用区都挂了，肯定是需要人为介入先进行确认。从告警发生，人为介入，故障处理，每一步严丝合缝才能达成 34 分钟的全服恢复时间。

阿里被挖掘机弄挂也不是第一次了，最著名的是2015.5.27，当时挖断光缆导致支付宝近16个小时的故障。也由此契机开启了支付宝稳定性的建设之路，以及组建国内第一支 SRE 团队。至今，蚂蚁集团在每年的 527 那周也会举行一系列的技术活动。

我们的软件行业在许多地方都有短板，但在故障应急这一项上，阿里云以及整个国内，其实都是行业里领先的。因为这10多年来，从业者经历了增速体量都最大的场景，最挑剔的客户，还有对稳定性要求最高的大环境。

作者：陈天舟 Bytebase 联合创始⼈/CEO，云计算从业者

来源：微信公众号“大厂后程序员”

评分

欢迎为Ta评分

万事屋新帖

热门槽点

最新吐槽！