課程簡介

1. 深度強化學習簡介

  • 什麼是強化學習?
  • 監督學習、無監督學習與強化學習的區別
  • 2025年深度強化學習的應用(機器人、醫療、金融、物流)
  • 理解智能體與環境交互循環

2. 強化學習基礎

  • 馬爾可夫決策過程(MDP)
  • 狀態、動作、獎勵、策略和值函數
  • 探索與利用的權衡
  • 蒙特卡洛方法和時序差分(TD)學習

3. 實現基礎強化學習算法

  • 表格方法:動態規劃、策略評估與迭代
  • Q學習與SARSA
  • ε-貪心探索與衰減策略
  • 使用OpenAI Gymnasium實現強化學習環境

4. 過渡到深度強化學習

  • 表格方法的侷限性
  • 使用神經網絡進行函數逼近
  • 深度Q網絡(DQN)架構與工作流程
  • 經驗回放與目標網絡

5. 高級深度強化學習算法

  • 雙DQN、Dueling DQN與優先經驗回放
  • 策略梯度方法:REINFORCE算法
  • Actor-Critic架構(A2C、A3C)
  • 近端策略優化(PPO)
  • 軟Actor-Critic(SAC)

6. 處理連續動作空間

  • 連續控制的挑戰
  • 使用深度確定性策略梯度(DDPG)
  • 雙延遲DDPG(TD3)

7. 實用工具與框架

  • 使用Stable-Baselines3與Ray RLlib
  • 使用TensorBoard進行日誌記錄與監控
  • 深度強化學習模型的超參數調優

8. 獎勵工程與環境設計

  • 獎勵塑造與懲罰平衡
  • 模擬到現實的遷移學習概念
  • 在Gymnasium中創建自定義環境

9. 部分可觀測環境與泛化

  • 處理不完全狀態信息(POMDPs)
  • 使用LSTM與RNN的記憶方法
  • 提高智能體的魯棒性與泛化能力

10. 博弈論與多智能體強化學習

  • 多智能體環境簡介
  • 合作與競爭
  • 對抗訓練與策略優化中的應用

11. 案例研究與實際應用

  • 自動駕駛模擬
  • 動態定價與金融交易策略
  • 機器人與工業自動化

12. 故障排除與優化

  • 診斷不穩定的訓練
  • 管理獎勵稀疏性與過擬合
  • 在GPU與分佈式系統上擴展深度強化學習模型

13. 總結與下一步

  • 回顧深度強化學習架構與關鍵算法
  • 行業趨勢與研究方向(如RLHF、混合模型)
  • 進一步學習資源與閱讀材料

最低要求

  • 熟練掌握Python編程
  • 理解微積分和線性代數
  • 具備概率論與統計學的基礎知識
  • 有使用Python和NumPy或TensorFlow/PyTorch構建機器學習模型的經驗

受衆

  • 對AI和智能系統感興趣的開發者
  • 探索強化學習框架的數據科學家
  • 從事自主系統工作的機器學習工程師
 21 時間:

人數


每位參與者的報價

客戶評論 (5)

即將到來的課程

課程分類