如果节点把每一条日志都当成独立请求发送,网络稳定时问题不明显,但在高峰期会把重试放大成雪崩。

后来调整成固定时间窗批量发送,同时对批次体积做上限约束,并在拥塞时切换到更激进的压缩策略。这样做的核心价值,是让带宽消耗变成可预测的曲线。

失败队列也不能简单地无限累积。需要为不同等级的日志设置不同保留时间,否则节点会因为本地磁盘被挤占而进入新的异常状态。