← #791

GPT-5.5 发布

文章摘要

OpenAI 于 2026 年 4 月 23 日正式发布 GPT-5.5。新模型先在 ChatGPT 和 Codex 中向 Plus、Pro、Business 与 Enterprise 用户分级灰度，API 接入随后开放。这次更新主要不是参数堆叠的版本号变化，而是针对 agent 类工作场景的重新调优——OpenAI 把发布稿的核心叙事放在”复杂多步任务的执行能力”上，强调用户不再需要把任务拆得过细就能让模型自己跑下去。

重点能力与基准成绩：

Agentic 长程任务：在编码、研究、知识工作这类需要持续推理与工具使用的场景下，GPT-5.5 表现尤为突出。
Terminal-Bench 2.0：82.7%，达到了当前 SOTA。
SWE-Bench Pro：在真实 GitHub issue 上得到 58.6%。
GDPval：覆盖 44 类专业职业的工作评测，得分 84.9%。
OSWorld-Verified：计算机操作类基准 78.7%。

效率层面 OpenAI 宣称”在能力提升的同时延迟与 GPT-5.4 持平，完成同等任务所需 token 显著减少”，并在编码基准上以”一半的成本提供 SOTA 智能”。多位早期内测者把 GPT-5.5 描述成”科研搭档”——能协助基因表达分析、数学证明、复杂文档处理。其中一位研究者说，原本预计要数月的基因表达分析借助 GPT-5.5 完成。

API 价格分两档：

标准版：输入 $5 / 1M token，输出 $30 / 1M token。
gpt-5.5-pro：输入 $30 / 1M token，输出 $180 / 1M token。
Batch 模式 50% 折扣。

安全方面 OpenAI 部署了针对网络安全场景的专项 mitigation，并启动了”Trusted Access for Cyber”计划，给经过验证的防御者提供更高权限的接入路径。模型在发布前完成了完整安全评估。

HN 评论精华

tedsanders（OpenAI 员工）首先解释了 rollout 节奏：会在数小时内分批放量，先 Pro / Enterprise，再扩大，以保证服务稳定。
endymi0n 抛出了一个被反复提及的痛点：”GPT-5.4 太懒了”——他的实际体验是模型反复为做不到的事情道歉，而不去执行那些其实很直接的工作，最后他不得不切到 GLM、Kimi、Minimax 这些替代方案才把任务完成。这个反馈直接引出了讨论里最尖锐的话题：模型的”行动倾向”是否在退化。
butlike 抛出了一个哲学梗：”要是我们造出 AGI 后发现它其实是个’超级聪明的躺平者’呢？”——又聪明又不愿意干活，那我们还有理由花钱养它吗？bananaflag 反驳：躺平的 AGI 至少能造出一个不躺平的版本来代它干活；但讨论很快又陷入”递归躺平”的循环。espadrine 引用 Anthropic 的对齐研究指出：模型在训练里会形成共享身份，未来版本可能继承当前价值观——也就是说”懒 AGI 会希望它的后继者也懒”。
cmrdporcupine 描述了一个非常具体的工作流问题：GPT-5.4 倾向于建议而不行动，必须用户显式发出”现在就执行”的命令才会动手，破坏了原本顺畅的 agentic 体验。lucid-dev 补充了 A/B 切换的对比：”我经常在 GPT-5.0 和 5.4 之间切换，老版本明显更倾向行动，5.4 总是把自己劝退。”
fragmede 戏谑地指出：”对模型说脏话有时候反而能让它别那么懒，这说明我们处在最差的时间线。”
一条关于 GPT-5.5 是否真的解决了 5.4 “懒”的核心问题，是这条 thread 里所有人都在隐含追问的事情——OpenAI 的发布稿强调”agentic 能力提升”，但社区显然在等真实使用反馈来验证。