一句话区分

  • DevOps:一种文化与实践——开发与运维不再分家,目标是"快、稳、可学习"
  • SRE(Site Reliability Engineering):Google 提出的一套具体方法,用软件工程方式做运维。Google 内部 2003 年起由 Ben Treynor 团队实践,2016 年 O'Reilly 出版的《Site Reliability Engineering》一书把方法论向业界系统化
  • Platform Engineering:给开发团队建内部平台作为产品(Internal Developer Platform / IDP),让自助、可重复

三者不是替代关系——很多组织三者并存。

历史脉络(粗略)

2009 Patrick Debois 组织首届 DevOpsDays,DevOps 一词流行
    ↓
2016 《Site Reliability Engineering》出版,SRE 概念外溢
    ↓
2020 前后 Spotify 开源 Backstage、CNCF 启动 TAG App Delivery
        "Internal Developer Platform" 概念被广泛讨论
    ↓
2022+ Gartner 把 Platform Engineering 列入趋势报告,进入主流视野
    ↓
今天 三者并存,叫法看公司文化

实操层面的差别

维度 DevOps(文化) SRE(实践) Platform Eng(组织)
起源 社区运动 Google 内部 Team Topologies / Spotify 等
核心方法 CI/CD、自动化、协作 SLO/Error Budget、Toil 控制 内部开发者平台(IDP)
角色 每个工程师都是 DevOps 专门的 SRE 团队 平台团队 + 业务团队
衡量 部署频率、MTTR SLO 达成、Toil 占比 开发者满意度、平台 NPS
适合公司规模 任何 中大型有可靠性诉求 几百人以上多团队

SRE 的 SLO / Error Budget 概念见 ops-corp/23-sli-slo / 24-error-budget。

头衔 ≠ 工作内容

  • 一家叫"DevOps Engineer"的公司可能在做经典运维 + 一点 CI
  • 一家叫"SRE"的公司可能 90% 时间在写 K8s yaml
  • 一家叫"Platform Engineer"的可能在维护一个 Backstage 内部门户

看 JD 的实际工作描述比看 title 准

组织演进的常见路径

小公司:1 个全栈工程师兼运维
    ↓
   团队长大
    ↓
  指定一个人主管发布与监控(兼职 SRE)
    ↓
  独立 DevOps / SRE 团队(专人)
    ↓
  多个业务团队 + 1 个 Platform 团队

每一步不是非走不可——很多 100 人公司不需要专门的 Platform 团队。

反模式:DevOps 团队 ≠ DevOps

"我们成立了一个 DevOps 团队" — 这往往是反模式:又把 dev 和 ops 切开了,只是换了个名。

DevOps 的初衷是消除墙,不是换一面墙。Platform Engineering 部分回应了这个矛盾:平台团队的客户是开发者,不是替开发者运维。

推荐阅读

下一篇:怎么判断自己团队的运维处在哪一阶