課程簡介

AIOps 开源工具介绍

  • AIOps 概念与优势概述
  • 可观测性栈中的 Prometheus 和 Grafana
  • ML 在 AIOps 中的应用:预测性与反应性分析

Prometheus 和 Grafana 的配置

  • 安装并配置 Prometheus 以收集时间序列数据
  • 使用实时指标在 Grafana 中创建仪表板
  • 探索导出器、重新标记和服务发现

ML 数据预处理

  • 提取并转换 Prometheus 指标
  • 准备用于异常检测和预测的数据集
  • 使用 Grafana 的转换或 Python 管道

应用 Machine Learning 进行异常检测

  • 异常检测的基本 ML 模型(如 Isolation Forest、One-Class SVM)
  • 在时间序列数据上训练和评估模型
  • 在 Grafana 仪表板中可视化异常

使用 ML 的 Forecasting 指标

  • 构建简单的预测模型(ARIMA、Prophet、LSTM 简介)
  • 预测系统负载或资源使用情况
  • 使用预测结果进行早期警报和扩展决策

ML 与警报和自动化的集成

  • 基于 ML 输出或阈值定义警报规则
  • 使用 Alertmanager 和通知路由
  • 在检测到异常时触发脚本或自动化工作流

AIOps 的扩展与操作化

  • 集成外部可观测性工具(如 ELK stack、Moogsoft、Dynatrace)
  • 在可观测性管道中操作化 ML 模型
  • AIOps 在大规模应用中的最佳实践

总结与下一步

最低要求

  • 理解系统监控和可观察性概念
  • 有使用Grafana或Prometheus的经验
  • 熟悉Python和基本的机器学习原理

受众

  • 可观察性工程师
  • 基础设施和DevOps团队
  • 监控平台架构师和站点可靠性工程师(SREs)
 14 時間:

人數


每位參與者的報價

Upcoming Courses

課程分類