我会先看问题是如何被发现的。如果不是监控先发现,而是用户先报障,那么复盘至少要补齐监控缺口。

其次看决策链路。很多恢复过程其实不是技术能力不足,而是信息分散、缺少预案或回滚权限不明确。

最后再写改进项,而且改进项必须能被验证。没有验证条件的“加强监控”通常只会变成另一条没人看的规则。