課程簡介

基於人類反饋的強化學習(RLHF)簡介

  • 什麼是RLHF及其重要性
  • 與監督微調方法的比較
  • RLHF在現代AI系統中的應用

基於人類反饋的獎勵建模

  • 收集和結構化人類反饋
  • 構建和訓練獎勵模型
  • 評估獎勵模型的有效性

使用近端策略優化(PPO)進行訓練

  • PPO算法的概述
  • 使用獎勵模型實現PPO
  • 迭代和安全地微調模型

語言模型的實踐微調

  • 爲RLHF工作流程準備數據集
  • 使用RLHF對小型LLM進行實操微調
  • 挑戰與緩解策略

將RLHF擴展到生產系統

  • 基礎設施和計算考量
  • 質量保證與持續反饋循環
  • 部署和維護的最佳實踐

倫理考量與偏見緩解

  • 解決人類反饋中的倫理風險
  • 偏見檢測與糾正策略
  • 確保一致性與安全輸出

案例研究與實際應用

  • 案例研究:使用RLHF微調ChatGPT
  • 其他成功的RLHF部署
  • 經驗教訓與行業洞察

總結與後續步驟

最低要求

  • 瞭解監督學習和強化學習的基礎知識
  • 具備模型微調和神經網絡架構的經驗
  • 熟悉Python編程和深度學習框架(如TensorFlow、PyTorch)

目標受衆

  • 機器學習工程師
  • AI研究人員
 14 時間:

人數


每位參與者的報價

即將到來的課程

課程分類