課程簡介

介紹

  • 通過積極強化學習

Reinforcement Learning 的元素

重要術語(行動、狀態、獎勵、政策、價值、Q值等)

表格解決方案方法概述

創建軟體代理

瞭解基於價值、基於策略和基於模型的方法

使用瑪律可夫決策過程 (MDP)

策略如何定義代理的行為方式

使用蒙特卡羅方法

時間差異學習

n 步 Bootstrapping

近似求解方法

基於近似值的策略預測

具有近似值的策略控制

具有近似值的偏離策略的方法

了解資格跟蹤

使用策略梯度方法

總結和結論

最低要求

  • 機器學習經驗
  • Programming 經驗

觀眾

  • 數據科學家
 21 時間:

人數



每位參與者的報價

相關課程

AI and Robotics for Nuclear

80 時間:

課程分類