Thank you for sending your enquiry! One of our team members will contact you shortly.
Thank you for sending your booking! One of our team members will contact you shortly.
課程簡介
AIOps 开源工具介绍
- AIOps 概念与优势概述
- 可观测性栈中的 Prometheus 和 Grafana
- ML 在 AIOps 中的应用:预测性与反应性分析
Prometheus 和 Grafana 的配置
- 安装并配置 Prometheus 以收集时间序列数据
- 使用实时指标在 Grafana 中创建仪表板
- 探索导出器、重新标记和服务发现
ML 数据预处理
- 提取并转换 Prometheus 指标
- 准备用于异常检测和预测的数据集
- 使用 Grafana 的转换或 Python 管道
应用 Machine Learning 进行异常检测
- 异常检测的基本 ML 模型(如 Isolation Forest、One-Class SVM)
- 在时间序列数据上训练和评估模型
- 在 Grafana 仪表板中可视化异常
使用 ML 的 Forecasting 指标
- 构建简单的预测模型(ARIMA、Prophet、LSTM 简介)
- 预测系统负载或资源使用情况
- 使用预测结果进行早期警报和扩展决策
ML 与警报和自动化的集成
- 基于 ML 输出或阈值定义警报规则
- 使用 Alertmanager 和通知路由
- 在检测到异常时触发脚本或自动化工作流
AIOps 的扩展与操作化
- 集成外部可观测性工具(如 ELK stack、Moogsoft、Dynatrace)
- 在可观测性管道中操作化 ML 模型
- AIOps 在大规模应用中的最佳实践
总结与下一步
最低要求
- 理解系统监控和可观察性概念
- 有使用Grafana或Prometheus的经验
- 熟悉Python和基本的机器学习原理
受众
- 可观察性工程师
- 基础设施和DevOps团队
- 监控平台架构师和站点可靠性工程师(SREs)
14 時間: