第一类是热键集中度。命中率高不代表分布均匀,少数键过热仍会拖垮局部链路。
第二类是回源耗时分位数。命中率改善后,团队容易忽略那些仍然在慢慢变差的尾延迟。
第三类是穿透样本池。少量脏请求不一定立刻造成事故,但它们通常是规则缺口或流量变化的前兆。
看起来命中率已经很好了,但我一直保留几类“不好看”的告警,因为它们会在系统重新变坏之前先发声。
第一类是热键集中度。命中率高不代表分布均匀,少数键过热仍会拖垮局部链路。
第二类是回源耗时分位数。命中率改善后,团队容易忽略那些仍然在慢慢变差的尾延迟。
第三类是穿透样本池。少量脏请求不一定立刻造成事故,但它们通常是规则缺口或流量变化的前兆。