← #795

Claude Opus 4.8 发布：更诚实、更省钱、能并行驱动上百个子智能体

文章摘要

Claude Opus 4.8 是 Anthropic 于 2026 年 5 月 28 日发布的新旗舰模型，作为 Opus 4.7 的升级版，在价格不变的前提下，在编程、推理和智能体（agentic）任务上全面提升。

这次最突出的改进是诚实度（honesty）：Opus 4.8 让自己写的代码缺陷被悄悄放过的概率，比前代降低了约 4 倍；它也更善于标注不确定性、避免无依据的断言。在对齐（alignment）方面，模型「在支持用户自主、以用户最佳利益行事等亲社会特质的衡量上达到新高」，错位行为的发生率较 4.7 更低。基准测试方面，官方援引了多项成绩：法律智能体基准（Legal Agent Benchmark，首个在 all-pass 标准上突破 10% 的模型）、Online-Mind2Web 拿到 84%（高于 Opus 4.7 与 GPT-5.5）、Super-Agent 基准（唯一端到端完成全部用例的模型）、以及在各档「努力等级」上都超越前代的 CursorBench。

价格与可用性：输入 $5/百万 token、输出 $25/百万 token（均与 4.7 持平）；新增的快速模式（Fast mode）为 $10/$50 每百万 token，比此前模型便宜 3 倍。模型即刻在各平台上线，API 标识为 claude-opus-4-8。新能力还包括：动态工作流（Dynamic Workflows）——Claude Code 可并行运行数百个子智能体（subagents），从而完成跨越数十万行代码的代码库级迁移；努力控制（Effort Control）——用户可调节模型投入的算力（更高努力 = 更高质量但更慢、更费 token）；以及 Messages API 支持在对话中途插入 system 条目而不破坏提示缓存（prompt caching）。

HN 评论精华

NiloCK：指出这是首个第三次小版本号迭代的前沿模型，质疑 4.6→4.7→4.8 的提升是否还能被用户明显感知——随着模型逼近饱和，增量收益可能越来越难察觉。
onlyrealcuzzo：预测下一代前沿模型可能是「最后几代」，认为 2–3 年内 60–90B 的小模型会超过当前 SOTA；像 GRAM 这类技术或能让 30B 模型在几天训练内追平今天的最强模型。
vlovich123 / knollimar / areweai / sebzim4500：围绕 GRAM（Generative Recursive reAsoning Models）这个缩写吐槽不断——有人说该叫 GRRM（影射乔治·R·R·马丁「迟迟不出结局」），有人说它和常用词「gram」撞车、无法检索；也有人举 LION 优化器（evoLved sIgn mOmeNtum）反讽缩写硬凑是常态。
supern0va：猜测增量版本的提升是否来自蒸馏（distillation），即用更大模型生成合成数据来训练。
mrandish / steveylang：前者推测前沿实验室更愿意维持昂贵的基础设施以撑住高价，刻意回避会让 AI 商品化的降本研究；后者反驳称在 token 受限下，效率提升对 Anthropic/OpenAI 维持定价权、对抗中国模型反而具有战略价值。
sometimelurker / onlyrealcuzzo：前者称 GRAM 类技术「被反复重新发明」却因可解释性/对齐难题而难以使用，缺乏可读推理轨迹会让模型危险；后者反驳说只要输出正确，不可见的潜在推理无关紧要——「就像很多无害的人脑子里也有疯狂念头」。
ericd / haldujai / svachalek：争论前沿智能的边际回报——有人说在治理/组织决策上回报无穷，小幅提升复利成巨大价值；有人反驳市场规模和智能成本会限制回报；也有人指出专用编程模型已遇边际递减，真正价值来自通用智能帮人「以高效偷懒的方式绕开杂活」。
mastazi：把当下 AI 动态类比互联网泡沫，强调泡沫不等于死路——「互联网用量在崩盘后仍以数量级持续扩张了二十年」。