Ops Notes:實戰踩雷筆記
這個目錄的軸是**「實戰踩雷」——不是教學文,是我踩過這個坑、怎麼找到根因、怎麼修**的原始紀錄。
每篇的格式
症狀(見到什麼錯)
↓
診斷(排除什麼、怎麼找到問題)
↓
原因(真正的根因)
↓
修法(commit 連結)
↓
可推廣教訓
跟其他系列的軸差
| 系列 | 軸 |
|---|---|
ops-notes/(本目錄) | 事件:真實踩過什麼坑 |
infra/ | 設施:平台建立 / 運維設計 |
management/engineering-process/ | 流程:事故管理方法論 |
case-studies/ | 案例:拆別人家的系統 |
15 個主題群導覽
基礎設施類
- O01 K8s 部署阻斷排除 — 5 案例(Pod 起不來、Service 連不通)
- O02 Kong Gateway 實戰坑 — 8 案例(歸到 kong)
- O03 Ingress 與路由 — 5 案例
- O04 Docker / Registry — 5 案例
- O05 Probe 健康檢查 — 4 案例
設定與部署類
- O06 Env / Secret 管理 — 5 案例
- O07 CI/CD Pipeline — 5 案例
- O08 資源限制與可靠性 — 4 案例
- O09 可觀測性修補 — 5 案例
- O10 前端部署坑 — 3 案例
協作與壓測
- O11 Submodule 與多 repo 協作 — 4 案例
- O12 壓測驅動的調校 — 3 案例
方法論
- O13 Meta / 方法論 — 4 篇(Runbook 系統 / K8s troubleshoot 方法論 / Upgrade 策略)
新興領域
- O14 AI 工具踩雷 — 估 6 案例(Claude Code / Cursor / Ollama / MCP / Agent)
- O15 Blog / 部落格部署 — 估 5 案例(Quartz / GitHub Actions / Pages)
資料來源
proto/infra/micro-service/(微服務壓測平台)proto/infra/gitlab//proto/infra/monitor/prd/quartz-blog/(本部落格)tools/openclaw/(AI Agent 平台)
系列規劃
主題群詳細案例列表、子目錄預開規則、跟 I09 DR workflow 整合、寫作流程模板見 ROADMAP.md(計畫文件,不會被 Quartz 渲染)。
O01 K8s 部署阻斷
部署上不去、Pod 起不來、Service 連不通的系列。
| # | 案例 | 症狀 |
|---|---|---|
| 01 | PVC 名稱與 NetworkPolicy 缺漏 | P0 部署阻斷 |
| 02 | SecurityContext、Migration Job、Loki config | 部署驗證失敗 |
| 03 | Init Container resources 不足 | Migration 跑不起來 |
| 04 | emptyDir 沒設 sizeLimit + hostPath 沒驗證 type | 安全性問題 |
| 05 | RabbitMQ SecurityContext 過嚴 | 寫入權限錯誤 |
O02 Kong Gateway
→ 全部 8 案例改歸屬到 kong(Kong 身份是 Gateway,不是純 ops 分類)。
已完成:yaml-indent 🌿
O03 Ingress
Ingress / 路由 / TLS 相關 5 案例(host-based routing、SSL redirect、SPA base path…)。
O04 Docker / Registry
地端 registry / DinD / .dockerignore / env schema 5 案例。
O05 Probe
Liveness / Readiness / Startup probe 調校 4 案例。
O06 Env / Secret
Docker Compose secret 跳脫、env file 對齊、SecretGenerator 5 案例。
O07 CI/CD
Rollback typo、GitLab runner、藍綠部署、Discord 通知 5 案例。
O08 Resource
HPA / PDB 壓測調校 4 案例。
O09 Observability
Prometheus scrape / Grafana PVC / Kong dashboards / OTEL / fluent-bit 5 案例。
O10 Frontend
SPA / SSR / dockerignore 3 案例。
O11 Submodule
Submodule 遷移、遠端切換、同步時機 4 案例。
O12 Stress Test
壓測驅動的 HPA / Resource / Rate limit 調校 3 案例。
O13 Methodology
跟 O01-O12 案例軸不同:O01-O12 是「踩過什麼」,O13 是「怎麼系統化處理這類問題」。
- 為什麼需要 Runbook 系統
- Runbook 系統設計
- K8s Troubleshooting 方法論
- K8s / Helm Upgrade 策略
吸收自 I10 Platform Engineering 的 methodology 段。
O14 AI Tools
新主題群。Claude Code / Cursor / Ollama / OpenAI API / MCP / Agent 踩雷。
O15 Blog Deploy
新主題群。Quartz / GitHub Actions / Pages / wikilink / plugin 設定踩雷。