課程簡介
1. 深度強化學習簡介
- 什麼是強化學習?
- 監督學習、無監督學習與強化學習的區別
- 2025年深度強化學習的應用(機器人、醫療、金融、物流)
- 理解智能體與環境交互循環
2. 強化學習基礎
- 馬爾可夫決策過程(MDP)
- 狀態、動作、獎勵、策略和值函數
- 探索與利用的權衡
- 蒙特卡洛方法和時序差分(TD)學習
3. 實現基礎強化學習算法
- 表格方法:動態規劃、策略評估與迭代
- Q學習與SARSA
- ε-貪心探索與衰減策略
- 使用OpenAI Gymnasium實現強化學習環境
4. 過渡到深度強化學習
- 表格方法的侷限性
- 使用神經網絡進行函數逼近
- 深度Q網絡(DQN)架構與工作流程
- 經驗回放與目標網絡
5. 高級深度強化學習算法
- 雙DQN、Dueling DQN與優先經驗回放
- 策略梯度方法:REINFORCE算法
- Actor-Critic架構(A2C、A3C)
- 近端策略優化(PPO)
- 軟Actor-Critic(SAC)
6. 處理連續動作空間
- 連續控制的挑戰
- 使用深度確定性策略梯度(DDPG)
- 雙延遲DDPG(TD3)
7. 實用工具與框架
- 使用Stable-Baselines3與Ray RLlib
- 使用TensorBoard進行日誌記錄與監控
- 深度強化學習模型的超參數調優
8. 獎勵工程與環境設計
- 獎勵塑造與懲罰平衡
- 模擬到現實的遷移學習概念
- 在Gymnasium中創建自定義環境
9. 部分可觀測環境與泛化
- 處理不完全狀態信息(POMDPs)
- 使用LSTM與RNN的記憶方法
- 提高智能體的魯棒性與泛化能力
10. 博弈論與多智能體強化學習
- 多智能體環境簡介
- 合作與競爭
- 對抗訓練與策略優化中的應用
11. 案例研究與實際應用
- 自動駕駛模擬
- 動態定價與金融交易策略
- 機器人與工業自動化
12. 故障排除與優化
- 診斷不穩定的訓練
- 管理獎勵稀疏性與過擬合
- 在GPU與分佈式系統上擴展深度強化學習模型
13. 總結與下一步
- 回顧深度強化學習架構與關鍵算法
- 行業趨勢與研究方向(如RLHF、混合模型)
- 進一步學習資源與閱讀材料
最低要求
- 熟練掌握Python編程
- 理解微積分和線性代數
- 具備概率論與統計學的基礎知識
- 有使用Python和NumPy或TensorFlow/PyTorch構建機器學習模型的經驗
受衆
- 對AI和智能系統感興趣的開發者
- 探索強化學習框架的數據科學家
- 從事自主系統工作的機器學習工程師
客戶評論 (5)
亨特很棒,非常有吸引力,知識淵博,風度翩翩。 做得很好。
Rick Johnson - Laramie County Community College
課程 - Artificial Intelligence (AI) Overview
機器翻譯
Very flexible.
Frank Ueltzhoffer
課程 - Artificial Neural Networks, Machine Learning and Deep Thinking
I liked the new insights in deep machine learning.
Josip Arneric
課程 - Neural Network in R
Ann created a great environment to ask questions and learn. We had a lot of fun and also learned a lot at the same time.
Gudrun Bickelq
課程 - Introduction to the use of neural networks
It was very interactive and more relaxed and informal than expected. We covered lots of topics in the time and the trainer was always receptive to talking more in detail or more generally about the topics and how they were related. I feel the training has given me the tools to continue learning as opposed to it being a one off session where learning stops once you've finished which is very important given the scale and complexity of the topic.