WL
WadeLy PLAY · MAKE · LEARN

一个不务正业的开发者,正在用代码记录游戏、AI 和所有兴趣的轨迹。这里是我的笔记本,欢迎随便翻。

运维 · 公司运维

36 ARTICLES

团队/生产级 SRE/DevOps 标准做法,概念 + 心智模型 + 权威资源。

每页
团队运维 vs 个人运维
差异在哪——可观测、可审计、可交班,是这三件事让"业余"变"专业"。
SRE / DevOps / Platform Eng 辨析
概念边界与组织演进路径——别再被头衔搞糊涂。
运维成熟度模型
从手动到自治的阶梯 + 怎么判断自己处在哪一阶——别跳级。
IaC 入门:为什么不再手点控制台
可重复、可审计、可回滚——基础设施变成代码后,三件事变得可能。
Terraform 基础 + state 管理
远程 state / locking / 多人协作——单机玩具到团队工具的关键。
Ansible 配置管理
无 Agent 模型 + 幂等性——Terraform 之后,把机器配成想要的样子。
多环境模式
dev / staging / prod 隔离与一致性——同一份代码跑出可信的结果。
Docker 生产级最佳实践
多阶段构建 / 非 root / 镜像扫描 / 标签策略——五分钟把镜像从"能跑"升到"敢上线"。
Kubernetes 核心概念
Pod / Deployment / Service / Ingress 各管什么——心智模型先于 yaml。
K8s 实战:部署一个 Web 服务
yaml 拆解 + readiness/liveness 探针——一份能用的部署模板。
K8s 配置管理
ConfigMap / Secret 的边界与坑——别把"加密"想当然。
Helm 包管理
Chart 结构 / values 分层——同一份模板部署到 N 个环境。
Service Mesh:何时真的需要
Istio / Linkerd 简介 + 不要轻易引入——Mesh 是大锤,确认你有钉子。
CI/CD 流水线设计原则
阶段划分 / 缓存 / 失败即停 / 工件追溯——好流水线的几条共性。
CI/CD 工具选型
GitHub Actions / GitLab CI / Jenkins / Buildkite——选哪个看公司情况,不看时髦。
GitOps:ArgoCD / Flux
声明式 + git 单一真源 + 自动 reconcile——部署的下一步进化。
部署策略
蓝绿 / 金丝雀 / 滚动 / 影子流量 / 特性开关——各自的代价。
可观测性三支柱
Metrics / Logs / Traces 各擅长什么——一篇分清三者边界。
Prometheus + Grafana
拉模型 / PromQL / 仪表板设计——指标这块的事实标准组合。
日志聚合方案对比
ELK / Loki / 云原生——三类思路、三类成本结构。
OpenTelemetry 入门
厂商中立的遥测标准——为什么要"标准化",组件怎么搭。
告警体系
分级 / Alertmanager / 减少疲劳——告警是工程问题,不只是配置问题。
SLI / SLO / Error Budget
怎么定义而不是"业界标准 99.9%"——三个 SRE 核心概念的实操含义。
Error Budget 与发布节奏
用预算指导何时停发布——SRE 与 Dev 之间的"和约"。
On-call 文化与轮班
心智健康 / 交接 / 升级路径——把"被叫醒"做成可持续的事。
故障复盘:blameless post-mortem
模板与误区——目的是从故障里学到东西,不是找人背锅。
Runbook + 知识库
经验如何沉淀给下一个值班的人——告警有 Runbook 链接,是底线。
网络架构
VPC / 子网 / NAT / 安全组的 mental model——不是教程,是设计语言。
密钥管理
从 .env 到 Vault / AWS Secrets Manager——密钥的生命周期是一项工程。
镜像与依赖安全
SBOM / 漏洞扫描 / 签名——软件供应链是 2020 起最大的攻击面。
IAM 与最小权限
角色 / 策略 / 临时凭据——所有云商共通的访问控制语言。
合规框架概览
SOC 2 / ISO 27001 / 等保 / 个保法——只讲是什么,具体看官方文档与法务。
多区域 / 多 AZ 灾备
RTO / RPO / 主备 / 双活模式对比——容灾设计先想"代价多大才接受"。
数据库高可用与备份演练
主从 / 分片 / 真·演练而不是只配置——数据库是最不能掉链子的地方。
缓存与消息队列选型
Redis / Kafka / RabbitMQ 适用场景——别让"听过的工具"决定架构。
容量规划 + FinOps 入门
压测 / 用量预测 / 成本治理——把云账单从黑盒变成工程问题。