Show HN:看一只神经网络在浏览器里学会玩贪吃蛇

查看原文 HN 讨论

文章摘要

作者搭了一个完全跑在浏览器里的强化学习训练 demo——tinyppo-snake。打开页面你看到的是一个网格化的贪吃蛇环境和一组实时训练指标:episode 数、policy loss、value loss、entropy、梯度范数、20 步滚动均分、当前 best window。左边一只蛇在你眼前学习,右边图表逐渐爬升。

用的算法是 PPO(Proximal Policy Optimization)——OpenAI 的经典策略梯度方法,2017 年至今仍是 RL 工业级首选之一。整个训练循环、推理、3D 渲染都在浏览器里跑,底层框架是作者自己的 Gradient Explorer。用户可以选预设学习率(1e-3 / 3e-3 / 1e-2),也能开多个 grid 同时跑做并排对比、看哪一组超参数收敛得更稳。

为什么有意思?最直观的——零安装、零后端、点开就能围观一个神经网络从乱撞墙到能跑出 4000 分。次直观的——它把训练过程可视化到所有指标实时联动:奖励曲线一抬头你能立刻在左边看到蛇变得”会拐弯了”;学习率拉得太高崩了你能在 entropy 突然飙升时直接看到。对很多没系统学过 RL 的人来说,这是一份比任何 textbook 都直观的入门材料

HN 评论精华