課程簡介

強化學習簡介

  • 強化學習概述及其應用
  • 監督學習、無監督學習與強化學習的區別
  • 關鍵概念:智能體、環境、獎勵與策略

馬爾可夫決策過程(MDPs)

  • 理解狀態、動作、獎勵與狀態轉移
  • 價值函數與貝爾曼方程
  • 動態規劃求解MDPs

核心強化學習算法

  • 表格方法:Q學習與SARSA
  • 基於策略的方法:REINFORCE算法
  • Actor-Critic框架及其應用

深度強化學習

  • 深度Q網絡(DQN)簡介
  • 經驗回放與目標網絡
  • 策略梯度與高級深度強化學習方法

強化學習框架與工具

  • OpenAI Gym及其他強化學習環境簡介
  • 使用PyTorch或TensorFlow開發強化學習模型
  • 訓練、測試與基準測試強化學習智能體

強化學習中的挑戰

  • 訓練中的探索與利用平衡
  • 處理稀疏獎勵與信用分配問題
  • 強化學習中的可擴展性與計算挑戰

實踐環節

  • 從零實現Q學習與SARSA算法
  • 在OpenAI Gym中訓練基於DQN的智能體玩簡單遊戲
  • 在自定義環境中微調強化學習模型以提高性能

總結與下一步

最低要求

  • 對機器學習原理和算法的深入理解
  • 熟練掌握Python編程
  • 熟悉神經網絡和深度學習框架

受衆

  • 機器學習工程師
  • AI專家
 14 時間:

人數


每位參與者的報價

客戶評論 (1)

Upcoming Courses

課程分類