← #794

用 5 分钟讲完过去半年的 LLM 发展

文章摘要

Simon Willison 这场 5 分钟闪电演讲，是他每隔半年给开发者做的”LLM 现状打包总结”。两个主旋律：第一，编程 agent 真正越过了”能用”门槛；第二，本地小模型的能力远超预期——这两件事正在以非常具体的方式改变开发者的日常。

在模型竞争层面，过去半年”最强模型“的桂冠换了五次手：从 Claude Sonnet 4.5 → GPT-5.1 → Gemini 3 → GPT-5.1 Codex Max → Claude Opus 4.5。到 2026 年 2 月，Gemini 3.1 Pro 又站上了台。这种”半年内五次易主”的节奏，跟前几年那种”一年一发”的频率完全不同。开源/开放权重端同样热闹：Google 发布 Gemma 4 系列、中国团队发布 GLM-5.1（754B 参数，模型文件 1.51TB），同时还有 Qwen3.6-35B-A3B 这种 20.9GB 大小、可以在笔记本上跑得动且非常实用的模型。

更值得关注的是 Simon 强调的”质变拐点“：编程 agent 从”经常能跑”过渡到了”基本都能跑（mostly-work）”，这是过去几个月 RLVR（Reinforcement Learning from Verifiable Rewards） 持续优化的累积结果。开发者已经可以日常把一些有边界的修改交给 agent 自己跑完，再回来 review，而不再是”它写一段、我修一段”的工作流。Simon 同时承认这种能力的”飞跃感“并不均匀——Opus 4.5 在 2025 年 11 月被他视为真正的拐点，而后来的 GPT-5.5 虽然更强但只是渐进式优化。

文化现象层面，他记录了 “Claws“（从 OpenClaw 衍生的个人化 AI 助手）在硅谷的流行——为了运行它们，Mac Mini 一度在湾区卖到断货，有人调侃这玩意儿就像”数字宠物“，每个程序员家里都需要一个”水族箱”。这个细节很 Simon——他总会用一两个生活化的小观察，把抽象的技术趋势锚到具体场景上。

HN 评论精华

iekekke：欣赏 Simon 用”硬编码日期“标注关键进展的做法——比起空泛的”AI 越来越强了”，这种带时间锚点的写法让人能客观衡量进步。
zarzavat：澄清”鹈鹕骑自行车”基准的本意——任何图像生成模型都能轻易画一张鹈鹕骑车，但 Simon 的测试是要求模型生成 SVG 文本来表示这张图，考的是基于文本的空间推理能力，不是绘图能力。
shepherdjerred：调侃基准被玩坏了——”鹈鹕骑自行车”现在被各家模型针对性训练，已经失去信号了，他建议改成 “负鼠骑电动滑板车“。
minimaxir：拐点判断很犀利——”Opus 4.5（2025 年 11 月）才是真的拐点；GPT-5.5 是显著改进，但我不会叫它拐点。”两者性质不同。
aizk：感谢 Simon 这类工作——”领域演化太快，没几个人愿意停下来把’全景图‘画一遍”，这种半年一次的总结是稀缺品。
bluegatty：用”钉枪类比“解释能力跨越——工具不是靠”线性变强”产生颠覆，而是当它跨过某条实用性阈值那一刻才突然变得不可或缺。
magicalhippo：实操汇报——他已经用”模型编排（model orchestration）“完成了几个非平凡项目，自己一行代码都没写，全靠协调多个 agent。
halflife：用一句话概括过去半年的体验变化——”它从一个自动补全工具，变成了一个同时帮我跑 5 个任务的 agent，而我变成了监工。”
viccis：劳动力市场反直觉观察——AI 越强，会用它的熟练工反而越值钱，因为知道”该让它干什么、不该让它干什么”的判断仍然稀缺。
tptacek 与 simonw 对话：聊到 LLM 在安全领域的应用——成败更多取决于部署方式和 harness 设计，而不是模型本身有多聪明；”基础设施和模型本体一样重要”。