聯繫我們

課程簡介

預測性 AIOps 簡介

  • IT運作中預測性分析的概覽。
  • 用於預測的數據來源(日誌、指標、事件)。
  • 時間序列預測與異常模式中的關鍵概念。

設計事件預測模型

  • 標籤歷史事件和系統行為。
  • 選擇並訓練模型(例如 LSTM、Random Forest、AutoML)。
  • 評估模型性能並處理誤報。

數據收集與特徵工程

  • 攝取並對齊用於模型輸入的日誌與指標數據。
  • 從結構化和非結構化數據中提取特徵。
  • 處理運營管線中的噪音和缺失數據。

自動化根因分析(RCA)

  • 基於圖的服務與基礎設施關聯性分析。
  • 使用 ML 從事件鏈推斷可能的根因。
  • 透過拓撲感知儀表板視覺化 RCA。

修復與工作流自動化

  • 整合至自動化平台(例如 Ansible、Rundeck)。
  • 觸發回滾、重啟或流量重導。
  • 審計並記錄自動化干預措施。

擴展智能 AIOps 管線

  • 可觀測性的 MLOps:重新訓練與模型版本控制。
  • 在分散式節點上即時運行預測。
  • 在生產環境中部署 AIOps 的最佳實踐。

案例研究與實際應用

  • 使用預測性 AIOps 模型分析真實事件數據。
  • 部署帶有合成數據和生產數據的 RCA 管線。
  • 審視產業用例:雲端停機、微服務不穩定、網路性能下降。

總結與後續步驟

最低要求

  • 具備 Prometheus 或 ELK 等監控系統的經驗。
  • 具備 Python 和基礎機器學習的工作知識。
  • 熟悉事件管理工作流程。

受眾

  • 資深_site reliability工程師(SRE)。
  • IT自動化架構師。
  • DevOps與可觀測性平台主管。
 14 小時

人數


每位參與者的報價

即將到來的課程

課程分類