把学过的东西做成可以反复看的页面。
Model-Free Control:用蒙特卡洛控制和 SARSA 在 21 点里学最优策略,可交互对比。
Model-Free Prediction:蒙特卡洛、TD、TD(λ) 三种方法在网格世界里的可交互对比。