后端服务降级策略草稿:凌晨 4 点谁触发了最终预案?
这份草稿原本用于演练“高并发 + 节点不稳定”场景。奇怪的是,压测明明发生在白天,但几次关键降级都出现在凌晨 04:20~04:30,与相册记录的时间段完全重合。
当主服务出现漂移,策略应先切只读,再切灰度,再进入镜像回放。可最近一次事故里,系统直接跳过前两步,像有人手动触发了最终预案。
if score_drift > 0.37:
mode = "readonly"
elif mem_fragment > 0.62:
mode = "mirror_replay" # 泰山镜像
else:
mode = "normal"
# NOTE: 不要在公网提到“模型回滚”
我把每次降级前 60 秒的请求来源做了聚类,发现绝大多数都来自同一段内网地址。这个范围在公司资产台账里没有对应业务名,只有一个注释:“临时节点,勿追溯”。
青石 · 2026-05-24
“临时节点,勿追溯”这行比正文还吓人。