Thank you for sending your enquiry! One of our team members will contact you shortly.
Thank you for sending your booking! One of our team members will contact you shortly.
課程簡介
Predictive AIOps 简介
- IT 运维中的预测分析概述
- 用于预测的数据来源(日志、指标、事件)
- 时间序列预测和异常模式的关键概念
设计事件预测模型
- 标记历史事件和系统行为
- 选择和训练模型(例如 LSTM、Random Forest、AutoML)
- 评估模型性能和处理误报
数据收集与特征工程
- 摄取和对齐日志与指标数据以供模型输入
- 从结构化和非结构化数据中提取特征
- 处理操作管道中的噪声和缺失数据
自动化根因分析(RCA)
- 基于图的服务与基础设施关联
- 使用机器学习从事件链中推断可能的根因
- 使用拓扑感知仪表板可视化 RCA
修复与 Workflow Automation
- 与自动化平台集成(例如 Ansible、Rundeck)
- 触发回滚、重启或流量重定向
- 审核和记录自动化干预
扩展智能 AIOps 管道
- MLOps 用于可观测性:重新训练和模型版本控制
- 在分布式节点上实时运行预测
- 在生产环境中部署 AIOps 的最佳实践
案例研究与实际应用
- 使用预测 AIOps 模型分析真实事件数据
- 使用合成和生产数据部署 RCA 管道
- 行业用例回顾:云中断、微服务不稳定、网络退化
总结与后续步骤
最低要求
- 具备使用监控系统(如Prometheus或ELK)的经验
- 具备Python的基础知识以及基本的机器学习技能
- 熟悉事件管理工作流程
受众
- 高级站点可靠性工程师(SREs)
- IT自动化架构师
- DevOps与可观测性平台负责人
14 時間: