感謝您提交詢問!我們的一位團隊成員將在短時間內與您聯繫。
感謝您提交預訂!我們的一位團隊成員將在短時間內與您聯繫。
課程簡介
預測性 AIOps 簡介
- IT運作中預測性分析的概覽。
- 用於預測的數據來源(日誌、指標、事件)。
- 時間序列預測與異常模式中的關鍵概念。
設計事件預測模型
- 標籤歷史事件和系統行為。
- 選擇並訓練模型(例如 LSTM、Random Forest、AutoML)。
- 評估模型性能並處理誤報。
數據收集與特徵工程
- 攝取並對齊用於模型輸入的日誌與指標數據。
- 從結構化和非結構化數據中提取特徵。
- 處理運營管線中的噪音和缺失數據。
自動化根因分析(RCA)
- 基於圖的服務與基礎設施關聯性分析。
- 使用 ML 從事件鏈推斷可能的根因。
- 透過拓撲感知儀表板視覺化 RCA。
修復與工作流自動化
- 整合至自動化平台(例如 Ansible、Rundeck)。
- 觸發回滾、重啟或流量重導。
- 審計並記錄自動化干預措施。
擴展智能 AIOps 管線
- 可觀測性的 MLOps:重新訓練與模型版本控制。
- 在分散式節點上即時運行預測。
- 在生產環境中部署 AIOps 的最佳實踐。
案例研究與實際應用
- 使用預測性 AIOps 模型分析真實事件數據。
- 部署帶有合成數據和生產數據的 RCA 管線。
- 審視產業用例:雲端停機、微服務不穩定、網路性能下降。
總結與後續步驟
最低要求
- 具備 Prometheus 或 ELK 等監控系統的經驗。
- 具備 Python 和基礎機器學習的工作知識。
- 熟悉事件管理工作流程。
受眾
- 資深_site reliability工程師(SRE)。
- IT自動化架構師。
- DevOps與可觀測性平台主管。
14 小時