我会先看问题是如何被发现的。如果不是监控先发现,而是用户先报障,那么复盘至少要补齐监控缺口。
其次看决策链路。很多恢复过程其实不是技术能力不足,而是信息分散、缺少预案或回滚权限不明确。
最后再写改进项,而且改进项必须能被验证。没有验证条件的“加强监控”通常只会变成另一条没人看的规则。
时间线只是输入,真正有价值的是从检测、决策、恢复和预防四个维度看系统还有哪些薄弱点。
我会先看问题是如何被发现的。如果不是监控先发现,而是用户先报障,那么复盘至少要补齐监控缺口。
其次看决策链路。很多恢复过程其实不是技术能力不足,而是信息分散、缺少预案或回滚权限不明确。
最后再写改进项,而且改进项必须能被验证。没有验证条件的“加强监控”通常只会变成另一条没人看的规则。