https://blog.cloudflare.com/18-november-2025-outage/
几个零散的感想:
1. 复盘这么快其实很正常,所有公司在处理这种大故障,都是连夜复盘的,但是复盘结果完全透明公开,我觉得 Cloudflare 还是牛逼
2. 11 点半 5xx 大盘报警,2 点半定位根因,开始止血恢复。我想想,都有点窒息,对于排障工程师来说,这三个小时太难熬了。果然,定位根因的方式来恢复故障会非常慢
3. 核心组件没有处理好从来没出现过的小概率场景,然后引发全盘血崩,是最经典的大故障引入方式了。不过,unwrap 是什么鬼,哈哈哈,写这行代码的哥们,还有负责 review 的哥们,要有心理阴影了
几个零散的感想:
1. 复盘这么快其实很正常,所有公司在处理这种大故障,都是连夜复盘的,但是复盘结果完全透明公开,我觉得 Cloudflare 还是牛逼
2. 11 点半 5xx 大盘报警,2 点半定位根因,开始止血恢复。我想想,都有点窒息,对于排障工程师来说,这三个小时太难熬了。果然,定位根因的方式来恢复故障会非常慢
3. 核心组件没有处理好从来没出现过的小概率场景,然后引发全盘血崩,是最经典的大故障引入方式了。不过,unwrap 是什么鬼,哈哈哈,写这行代码的哥们,还有负责 review 的哥们,要有心理阴影了