用 5 分钟讲完过去半年的 LLM 发展
文章摘要
Simon Willison 这场 5 分钟闪电演讲,是他每隔半年给开发者做的”LLM 现状打包总结”。两个主旋律:第一,编程 agent 真正越过了”能用”门槛;第二,本地小模型的能力远超预期——这两件事正在以非常具体的方式改变开发者的日常。
在模型竞争层面,过去半年”最强模型“的桂冠换了五次手:从 Claude Sonnet 4.5 → GPT-5.1 → Gemini 3 → GPT-5.1 Codex Max → Claude Opus 4.5。到 2026 年 2 月,Gemini 3.1 Pro 又站上了台。这种”半年内五次易主”的节奏,跟前几年那种”一年一发”的频率完全不同。开源/开放权重端同样热闹:Google 发布 Gemma 4 系列、中国团队发布 GLM-5.1(754B 参数,模型文件 1.51TB),同时还有 Qwen3.6-35B-A3B 这种 20.9GB 大小、可以在笔记本上跑得动且非常实用的模型。
更值得关注的是 Simon 强调的”质变拐点“:编程 agent 从”经常能跑”过渡到了”基本都能跑(mostly-work)”,这是过去几个月 RLVR(Reinforcement Learning from Verifiable Rewards) 持续优化的累积结果。开发者已经可以日常把一些有边界的修改交给 agent 自己跑完,再回来 review,而不再是”它写一段、我修一段”的工作流。Simon 同时承认这种能力的”飞跃感“并不均匀——Opus 4.5 在 2025 年 11 月被他视为真正的拐点,而后来的 GPT-5.5 虽然更强但只是渐进式优化。
文化现象层面,他记录了 “Claws“(从 OpenClaw 衍生的个人化 AI 助手)在硅谷的流行——为了运行它们,Mac Mini 一度在湾区卖到断货,有人调侃这玩意儿就像”数字宠物“,每个程序员家里都需要一个”水族箱”。这个细节很 Simon——他总会用一两个生活化的小观察,把抽象的技术趋势锚到具体场景上。
HN 评论精华
-
iekekke:欣赏 Simon 用”硬编码日期“标注关键进展的做法——比起空泛的”AI 越来越强了”,这种带时间锚点的写法让人能客观衡量进步。
-
zarzavat:澄清”鹈鹕骑自行车”基准的本意——任何图像生成模型都能轻易画一张鹈鹕骑车,但 Simon 的测试是要求模型生成 SVG 文本来表示这张图,考的是基于文本的空间推理能力,不是绘图能力。
-
shepherdjerred:调侃基准被玩坏了——”鹈鹕骑自行车”现在被各家模型针对性训练,已经失去信号了,他建议改成 “负鼠骑电动滑板车“。
-
minimaxir:拐点判断很犀利——”Opus 4.5(2025 年 11 月)才是真的拐点;GPT-5.5 是显著改进,但我不会叫它拐点。”两者性质不同。
-
aizk:感谢 Simon 这类工作——”领域演化太快,没几个人愿意停下来把’全景图‘画一遍”,这种半年一次的总结是稀缺品。
-
bluegatty:用”钉枪类比“解释能力跨越——工具不是靠”线性变强”产生颠覆,而是当它跨过某条实用性阈值那一刻才突然变得不可或缺。
-
magicalhippo:实操汇报——他已经用”模型编排(model orchestration)“完成了几个非平凡项目,自己一行代码都没写,全靠协调多个 agent。
-
halflife:用一句话概括过去半年的体验变化——”它从一个自动补全工具,变成了一个同时帮我跑 5 个任务的 agent,而我变成了监工。”
-
viccis:劳动力市场反直觉观察——AI 越强,会用它的熟练工反而越值钱,因为知道”该让它干什么、不该让它干什么”的判断仍然稀缺。
-
tptacek 与 simonw 对话:聊到 LLM 在安全领域的应用——成败更多取决于部署方式和 harness 设计,而不是模型本身有多聪明;”基础设施和模型本体一样重要”。