SRE / DevOps / Platform Eng 辨析

一句话区分

DevOps：一种文化与实践——开发与运维不再分家，目标是"快、稳、可学习"
SRE（Site Reliability Engineering）：Google 提出的一套具体方法，用软件工程方式做运维。Google 内部 2003 年起由 Ben Treynor 团队实践，2016 年 O'Reilly 出版的《Site Reliability Engineering》一书把方法论向业界系统化
Platform Engineering：给开发团队建内部平台作为产品（Internal Developer Platform / IDP），让自助、可重复

三者不是替代关系——很多组织三者并存。

历史脉络（粗略）

2009 Patrick Debois 组织首届 DevOpsDays，DevOps 一词流行
    ↓
2016 《Site Reliability Engineering》出版，SRE 概念外溢
    ↓
2020 前后 Spotify 开源 Backstage、CNCF 启动 TAG App Delivery
        "Internal Developer Platform" 概念被广泛讨论
    ↓
2022+ Gartner 把 Platform Engineering 列入趋势报告，进入主流视野
    ↓
今天 三者并存，叫法看公司文化

实操层面的差别

维度	DevOps（文化）	SRE（实践）	Platform Eng（组织）
起源	社区运动	Google 内部	Team Topologies / Spotify 等
核心方法	CI/CD、自动化、协作	SLO/Error Budget、Toil 控制	内部开发者平台（IDP）
角色	每个工程师都是 DevOps	专门的 SRE 团队	平台团队 + 业务团队
衡量	部署频率、MTTR	SLO 达成、Toil 占比	开发者满意度、平台 NPS
适合公司规模	任何	中大型有可靠性诉求	几百人以上多团队

SRE 的 SLO / Error Budget 概念见 ops-corp/23-sli-slo / 24-error-budget。

头衔 ≠ 工作内容

一家叫"DevOps Engineer"的公司可能在做经典运维 + 一点 CI
一家叫"SRE"的公司可能 90% 时间在写 K8s yaml
一家叫"Platform Engineer"的可能在维护一个 Backstage 内部门户

看 JD 的实际工作描述比看 title 准。

组织演进的常见路径

小公司：1 个全栈工程师兼运维
    ↓
   团队长大
    ↓
  指定一个人主管发布与监控（兼职 SRE）
    ↓
  独立 DevOps / SRE 团队（专人）
    ↓
  多个业务团队 + 1 个 Platform 团队

每一步不是非走不可——很多 100 人公司不需要专门的 Platform 团队。

反模式：DevOps 团队 ≠ DevOps

"我们成立了一个 DevOps 团队" — 这往往是反模式：又把 dev 和 ops 切开了，只是换了个名。

DevOps 的初衷是消除墙，不是换一面墙。Platform Engineering 部分回应了这个矛盾：平台团队的客户是开发者，不是替开发者运维。

SRE / DevOps / Platform Eng 辨析

一句话区分

历史脉络（粗略）

实操层面的差别

头衔 ≠ 工作内容

组织演进的常见路径

反模式：DevOps 团队 ≠ DevOps

推荐阅读