課程簡介

介紹

  • 通過正強化學習

Elements 的 Reinforcement Learning

重要術語(操作、狀態、獎勵、政策、價值、Q 值等)

表格解決方案方法概述

創建 Software Agent

瞭解基於價值、基於策略和基於模型的方法

使用 Markov 決策過程 (MDP)

策略如何定義代理的行為方式

使用 Monte Carlo 方法

時間差異學習

n 步 Bootstrapping

近似求解方法

使用近似值進行策略預測

使用近似的策略控制

使用近似的非策略方法

了解資格跟蹤

使用策略梯度方法

總結和結論

最低要求

  • 機器學習經驗
  • Programming 經驗

觀眾

  • 數據科學家
 21 時間:

人數


每位參與者的報價

Upcoming Courses

課程分類