網站可靠性工程:Google 的系統管理之道
自購買、自掃描、帶書籤,品質保證 PART I 概覽 第 1 章 緒論 第 2 章 從 SRE 的角度看 Google 正式服務環境 PART II 指導原則 第 3 章 擁抱風險 第 4 章 服務水準目標 第 5 章 減少瑣事 第 6 章 監控分散式系統 第 7 章 Google 自動化系統的演進 第 8 章 發行工程 第 9 章 簡單化 PART Ⅲ 具體實踐 第 10 章 基於時間序列資料進行有效警報 第 11 章 on-call 第 12 章 有效的故障排除技巧 第 13 章 緊急應變 第 14 章 緊急事件管理 第 15 章 事後檢討:從失敗中學習 第 16 章 事件追蹤 第 17 章 測試可靠性 第 18 章 SRE 部門中的軟體工程實務 第 19 章 前端伺服器的負載平衡 第 20 章 資料中心內部的負載平衡系統 第 21 章 處理系統超載 第 22 章 處理連鎖故障 第 23 章 管理關鍵狀態:利用分散式一致化來提高可靠性 第 24 章 分散式任務排程系統 第 25 章 資料處理管線 第 26 章 資料完整性:讀寫一致 第 27 章 可靠地進行大規模發行 PART Ⅳ 管理 第 28 章 迅速培養 SRE 加入 on-call 第 29 章 處理插斷性任務 第 30 章 透過嵌入 SRE 的方式幫助團隊從維運超載中恢復 第 31 章 SRE 與其他團隊的溝通與協同合作 第 32 章 SRE 參與模型的演進歷程 PART Ⅴ 總結 第 33 章 其他產業的實務經驗 第 34 章 結語 附錄 A 系統可用性 附錄 B 正式作業環境維運過程中的實踐典範 附錄 C 事件狀態範例文件 附錄 D 事後檢討範例 附錄 E 上線協調檢核表 附錄 F 產務會議紀錄範例