SLI / SLO / Error Budget

三个词的精确含义

SLA ⊃ SLO ⊃ SLI 的常见说法：内部 SLO 通常严于 SLA（提前预警），SLI 是组成它们的原始数据。

互联网上充满了"99.9%/99.99% 是行业标准"的说法。别信——SLO 该多严只能由你的业务 + 用户期望 + 成本约束决定。

举例：

多一个 9 的成本通常是上一个量级的几倍——要权衡，不要追求"看起来漂亮"。

经验法则（来自 Google SRE Workbook）：

常见 SLI 模板：

可用性 = 成功请求数 / 总请求数
延迟    = p95 / p99 请求耗时 < X ms 的比例
质量    = 返回正确结果的请求比例（业务定义）
新鲜度  = 数据延迟 < X 秒的时间比例

服务：付款 API
SLI：HTTP 请求里 status < 500 的比例
SLO：滚动 30 天窗口内 ≥ 99.9%
窗口：30 天滚动

滚动窗口比"按月"清晰——任意 30 天都得满足，不会被月底刷分。

"为什么不追求 100%？"

承认这点就有了下一篇要讲的 Error Budget。

简单做法："SLO 燃烧 → 告警"——但 30 天窗口很慢才反应。

SRE Workbook 推荐多窗口多燃烧率（Multi-Window Multi-Burn-Rate）：

快窗口（如 1h）燃烧率 > 14.4 倍 → page（影响快）
中窗口（如 6h）燃烧率 > 6 倍   → page（影响中）
慢窗口（如 3d）燃烧率 > 1 倍   → ticket（缓慢恶化）

计算公式细节查 SRE Workbook 第 5 章——直接抄是最稳的。