聯繫我們

課程簡介

騰訊混元生產基礎

  • 騰訊混元模型服務場景概述
  • 大型和MoE模型的生產特性
  • 常見的延遲、吞吐量和成本瓶頸
  • 定義推理工作負載的服務級別目標

部署架構與服務流程

  • 生產推理堆棧的核心組件
  • 在容器化、本地和雲部署模型之間選擇
  • 模型加載、請求路由和GPU分配基礎
  • 設計可靠且操作簡單的系統

實踐中的延遲優化

  • 使用優化的推理引擎(如TensorRT)
  • KV緩存概念及實際緩存調優
  • 減少啓動、預熱和響應開銷
  • 測量首令牌時間和令牌生成速度

吞吐量、批處理與GPU效率

  • 連續批處理和請求批處理策略
  • 管理併發和隊列行爲
  • 在不影響用戶體驗的情況下提高GPU利用率
  • 處理長上下文和混合工作負載請求

量化與成本控制

  • 量化在生產服務中的重要性
  • FP16、INT8和其他常見精度選項的實際權衡
  • 平衡模型質量、延遲和基礎設施成本
  • 構建簡單的成本優化清單

運營、監控與準備審查

  • 推理服務的自動擴展觸發器
  • 監控延遲、吞吐量、緩存使用和GPU健康狀況
  • 日誌記錄、告警和事件響應基礎
  • 審查參考部署並制定改進計劃

最低要求

  • 對大型語言模型部署和推理工作流程有基本瞭解。
  • 具備容器、雲或本地基礎設施以及基於API的服務經驗。
  • 熟悉Python或系統工程任務。

受衆

  • 將LLM部署到生產環境的ML工程師。
  • 負責基於GPU推理服務的平臺工程師。
  • 設計可擴展AI服務平臺的技術架構師。
 14 小時

人數


每位參與者的報價

即將到來的課程

課程分類