价值传播实验室 · 4×4 网格

同一张地图,三种学法

每走一步花 1 分,求从「起」到「终」的最少步数(正确答案是 6)。格子里的数字 = 这一格预计还要走几步。

三种方法到底差在哪

动态规划 — 要有地图(模型),但根本不用走。值像水波一样从终点反推扩散,几遍就精确收敛到 6。
蒙特卡罗 — 不需要地图,靠亲身走。用真实的完整回报,无偏;但一条路的运气好坏差很多(方差大),且必须等走到终点才能记账。
时序差分 — 也不需要地图,且不用等终点:每步用「1 + 下一格的估计」当目标。目标本身是估计所以有偏,但方差小、更新快。
怎么选下一格(ε-greedy) — 以概率 ε 随机走(探索),其余时候挑邻居中估计值最小的方向(利用)。只要 ε > 0,小人就会偶尔绕路,所以学到的值会略高于 6。试试把 ε 拉到 1(纯随机游走)或 0(纯贪心,可能困在错误认知里),再开关「衰减」对比曲线形状。