Thank you for sending your enquiry! One of our team members will contact you shortly.
Thank you for sending your booking! One of our team members will contact you shortly.
課程簡介
強化學習簡介
- 強化學習概述及其應用
- 監督學習、無監督學習與強化學習的區別
- 關鍵概念:智能體、環境、獎勵與策略
馬爾可夫決策過程(MDPs)
- 理解狀態、動作、獎勵與狀態轉移
- 價值函數與貝爾曼方程
- 動態規劃求解MDPs
核心強化學習算法
- 表格方法:Q學習與SARSA
- 基於策略的方法:REINFORCE算法
- Actor-Critic框架及其應用
深度強化學習
- 深度Q網絡(DQN)簡介
- 經驗回放與目標網絡
- 策略梯度與高級深度強化學習方法
強化學習框架與工具
- OpenAI Gym及其他強化學習環境簡介
- 使用PyTorch或TensorFlow開發強化學習模型
- 訓練、測試與基準測試強化學習智能體
強化學習中的挑戰
- 訓練中的探索與利用平衡
- 處理稀疏獎勵與信用分配問題
- 強化學習中的可擴展性與計算挑戰
實踐環節
- 從零實現Q學習與SARSA算法
- 在OpenAI Gym中訓練基於DQN的智能體玩簡單遊戲
- 在自定義環境中微調強化學習模型以提高性能
總結與下一步
最低要求
- 對機器學習原理和算法的深入理解
- 熟練掌握Python編程
- 熟悉神經網絡和深度學習框架
受衆
- 機器學習工程師
- AI專家
14 時間:
客戶評論 (1)
培訓師即時回答問題。
Adrian
Course - Agentic AI Unleashed: Crafting LLM Applications with AutoGen
機器翻譯