課程簡介

介紹

  • 深度學習擴展挑戰概述
  • DeepSpeed 及其功能概述
  • DeepSpeed 與其他分散式深度學習庫的比較

開始

  • 設置開發環境
  • 安裝 PyTorch 和 DeepSpeed
  • 配置 DeepSpeed 進行分散式訓練

DeepSpeed 優化功能

  • DeepSpeed 訓練管道
  • ZeRO(記憶體優化)
  • 激活檢查點
  • 梯度檢查點
  • 流水線並行性

使用 DeepSpeed 擴展模型

  • 使用 DeepSpeed 進行基本縮放
  • 先進的縮放技術
  • 性能注意事項和最佳做法
  • 調試和故障排除技術

高級 DeepSpeed 主題

  • 先進的優化技術
  • 將 DeepSpeed 與混合精度訓練結合使用
  • 不同硬體(例如 GPUs、TPU)上的 DeepSpeed
  • 具有多個訓練節點的 DeepSpeed

將 DeepSpeed 與 Py 集成Torch

  • 將 DeepSpeed 與 PyTorch 工作流集成
  • 將 DeepSpeed 與 PyTorch Lightning 一起使用

故障排除

  • 調試常見的 DeepSpeed 問題
  • 監視和日誌記錄

摘要和後續步驟

  • 關鍵概念和功能回顧
  • 在生產中使用 DeepSpeed 的最佳實踐
  • 了解有關 DeepSpeed 的更多資訊的更多資源

最低要求

  • 深度學習原理的中級知識
  • 具有 PyTorch 或類似深度學習框架的經驗
  • 熟悉 Python 程式設計

觀眾

  • 數據科學家
  • 機器學習工程師
  • 開發人員
 21 時間:

人數



每位參與者的報價

相關課程

課程分類