聯繫我們

課程簡介

SRE 反模式

  • 識別無效實踐
  • 認識反模式對可靠性的影響
  • 最佳實務與修正替代方案

以 SLO 作為客戶滿意度的指標

  • 定義服務級指標(SLI)與服務級目標(SLO)
  • 管理錯誤預算法,平衡創新與可靠性
  • 了解分散式系統的極限

構建安全且可靠的系統

  • 設計具備容錯能力與韌性的架構
  • 將安全性整合至可靠性工程中
  • 擴展性與資料保護策略

全棧可觀測性

  • 儀表化與指標收集
  • 分散式追蹤與合成監控
  • 可觀測性驅動開發

平台工程與 AIOps

  • 以平台為中心的工程方法
  • SRE 中的自動化與編排
  • 運用 DataOps 與營運智慧

SRE 中的事件管理

  • 事件響應中的角色與職責
  • 應用 OODA 等框架
  • 自動修復與 AI/ML 輔助解決

混沌工程

  • 韌性測試的原理與策略
  • 規劃並執行 "game day" 演練
  • 從受控的失敗實驗中學習

SRE 作為 DevOps 的純粋形式

  • 將 SRE 整合至 DevOps 工作流程
  • 文化一致性與協作實務
  • 透過 SRE 推動組織變革

課後練習

  • 大規模系統設計案例研究
  • 進階儀表化與監控情境
  • 真實世界的可靠性問題解決

複習與考試準備

  • DevOps Institute SRE Practitioner 大綱的最終複習
  • 範例題目與模擬測驗
  • 應試策略與建議

總結與後續步驟

最低要求

  • 理解 Site Reliability Engineering 的核心原理
  • 具備 DevOps 實務及相關工具的經驗
  • 熟悉系統監控、事件管理與自動化

適合對象

  • 尋求 DevOps Institute SRE Practitioner 認證的 SRE 專業人士
  • 旨在擴展至可靠性導向角色的 DevOps 工程師
  • 負責可靠性策略與執行的營運領導者
 35 小時

人數


每位參與者的報價

客戶評論 (2)

即將到來的課程

課程分類