学习中心

把学过的东西做成可以反复看的页面。

强化学习 · Reinforcement Learning
Lecture 5

21点实验室 · MC 控制与 SARSA

Model-Free Control:用蒙特卡洛控制和 SARSA 在 21 点里学最优策略,可交互对比。

Lecture 4

同一张地图,三种学法 · RL 网格实验室

Model-Free Prediction:蒙特卡洛、TD、TD(λ) 三种方法在网格世界里的可交互对比。