感謝您提交詢問!我們的一位團隊成員將在短時間內與您聯繫。
感謝您提交預訂!我們的一位團隊成員將在短時間內與您聯繫。
課程簡介
強化學習簡介
- 強化學習概述及其應用
- 監督學習、無監督學習與強化學習的區別
- 關鍵概念:智能體、環境、獎勵與策略
馬爾可夫決策過程(MDPs)
- 理解狀態、動作、獎勵與狀態轉移
- 價值函數與貝爾曼方程
- 動態規劃求解MDPs
核心強化學習算法
- 表格方法:Q學習與SARSA
- 基於策略的方法:REINFORCE算法
- Actor-Critic框架及其應用
深度強化學習
- 深度Q網絡(DQN)簡介
- 經驗回放與目標網絡
- 策略梯度與高級深度強化學習方法
強化學習框架與工具
- OpenAI Gym及其他強化學習環境簡介
- 使用PyTorch或TensorFlow開發強化學習模型
- 訓練、測試與基準測試強化學習智能體
強化學習中的挑戰
- 訓練中的探索與利用平衡
- 處理稀疏獎勵與信用分配問題
- 強化學習中的可擴展性與計算挑戰
實踐環節
- 從零實現Q學習與SARSA算法
- 在OpenAI Gym中訓練基於DQN的智能體玩簡單遊戲
- 在自定義環境中微調強化學習模型以提高性能
總結與下一步
最低要求
- 對機器學習原理和算法的深入理解
- 熟練掌握Python編程
- 熟悉神經網絡和深度學習框架
受衆
- 機器學習工程師
- AI專家
14 時間:
客戶評論 (1)
培訓師即時回答問題。
Adrian
課程 - Agentic AI Unleashed: Crafting LLM Applications with AutoGen
機器翻譯