GPT-5.5 发布
文章摘要
OpenAI 于 2026 年 4 月 23 日正式发布 GPT-5.5。新模型先在 ChatGPT 和 Codex 中向 Plus、Pro、Business 与 Enterprise 用户分级灰度,API 接入随后开放。这次更新主要不是参数堆叠的版本号变化,而是针对 agent 类工作场景的重新调优——OpenAI 把发布稿的核心叙事放在”复杂多步任务的执行能力”上,强调用户不再需要把任务拆得过细就能让模型自己跑下去。
重点能力与基准成绩:
- Agentic 长程任务:在编码、研究、知识工作这类需要持续推理与工具使用的场景下,GPT-5.5 表现尤为突出。
- Terminal-Bench 2.0:82.7%,达到了当前 SOTA。
- SWE-Bench Pro:在真实 GitHub issue 上得到 58.6%。
- GDPval:覆盖 44 类专业职业的工作评测,得分 84.9%。
- OSWorld-Verified:计算机操作类基准 78.7%。
效率层面 OpenAI 宣称”在能力提升的同时延迟与 GPT-5.4 持平,完成同等任务所需 token 显著减少”,并在编码基准上以”一半的成本提供 SOTA 智能”。多位早期内测者把 GPT-5.5 描述成”科研搭档”——能协助基因表达分析、数学证明、复杂文档处理。其中一位研究者说,原本预计要数月的基因表达分析借助 GPT-5.5 完成。
API 价格分两档:
- 标准版:输入 $5 / 1M token,输出 $30 / 1M token。
- gpt-5.5-pro:输入 $30 / 1M token,输出 $180 / 1M token。
- Batch 模式 50% 折扣。
安全方面 OpenAI 部署了针对网络安全场景的专项 mitigation,并启动了”Trusted Access for Cyber”计划,给经过验证的防御者提供更高权限的接入路径。模型在发布前完成了完整安全评估。
HN 评论精华
- tedsanders(OpenAI 员工)首先解释了 rollout 节奏:会在数小时内分批放量,先 Pro / Enterprise,再扩大,以保证服务稳定。
- endymi0n 抛出了一个被反复提及的痛点:”GPT-5.4 太懒了”——他的实际体验是模型反复为做不到的事情道歉,而不去执行那些其实很直接的工作,最后他不得不切到 GLM、Kimi、Minimax 这些替代方案才把任务完成。这个反馈直接引出了讨论里最尖锐的话题:模型的”行动倾向”是否在退化。
- butlike 抛出了一个哲学梗:”要是我们造出 AGI 后发现它其实是个’超级聪明的躺平者’呢?”——又聪明又不愿意干活,那我们还有理由花钱养它吗?bananaflag 反驳:躺平的 AGI 至少能造出一个不躺平的版本来代它干活;但讨论很快又陷入”递归躺平”的循环。espadrine 引用 Anthropic 的对齐研究指出:模型在训练里会形成共享身份,未来版本可能继承当前价值观——也就是说”懒 AGI 会希望它的后继者也懒”。
- cmrdporcupine 描述了一个非常具体的工作流问题:GPT-5.4 倾向于建议而不行动,必须用户显式发出”现在就执行”的命令才会动手,破坏了原本顺畅的 agentic 体验。lucid-dev 补充了 A/B 切换的对比:”我经常在 GPT-5.0 和 5.4 之间切换,老版本明显更倾向行动,5.4 总是把自己劝退。”
- fragmede 戏谑地指出:”对模型说脏话有时候反而能让它别那么懒,这说明我们处在最差的时间线。”
- 一条关于 GPT-5.5 是否真的解决了 5.4 “懒”的核心问题,是这条 thread 里所有人都在隐含追问的事情——OpenAI 的发布稿强调”agentic 能力提升”,但社区显然在等真实使用反馈来验证。