价值传播实验室 · 4×4 网格

同一张地图，三种学法

每走一步花 1 分，求从「起」到「终」的最少步数（正确答案是 6）。格子里的数字 = 这一格预计还要走几步。

三种方法到底差在哪

动态规划 — 要有地图（模型），但根本不用走。值像水波一样从终点反推扩散，几遍就精确收敛到 6。

蒙特卡罗 — 不需要地图，靠亲身走。用真实的完整回报，无偏；但一条路的运气好坏差很多（方差大），且必须等走到终点才能记账。

时序差分 — 也不需要地图，且不用等终点：每步用「1 + 下一格的估计」当目标。目标本身是估计所以有偏，但方差小、更新快。

怎么选下一格（ε-greedy） — 以概率 ε 随机走（探索），其余时候挑邻居中估计值最小的方向（利用）。只要 ε > 0，小人就会偶尔绕路，所以学到的值会略高于 6。试试把 ε 拉到 1（纯随机游走）或 0（纯贪心，可能困在错误认知里），再开关「衰减」对比曲线形状。