Claude Opus 4.8 发布:更诚实、更省钱、能并行驱动上百个子智能体

查看原文 HN 讨论

文章摘要

Claude Opus 4.8 是 Anthropic 于 2026 年 5 月 28 日发布的新旗舰模型,作为 Opus 4.7 的升级版,在价格不变的前提下,在编程、推理和智能体(agentic)任务上全面提升。

这次最突出的改进是诚实度(honesty):Opus 4.8 让自己写的代码缺陷被悄悄放过的概率,比前代降低了约 4 倍;它也更善于标注不确定性、避免无依据的断言。在对齐(alignment)方面,模型「在支持用户自主、以用户最佳利益行事等亲社会特质的衡量上达到新高」,错位行为的发生率较 4.7 更低。基准测试方面,官方援引了多项成绩:法律智能体基准(Legal Agent Benchmark,首个在 all-pass 标准上突破 10% 的模型)、Online-Mind2Web 拿到 84%(高于 Opus 4.7 与 GPT-5.5)、Super-Agent 基准(唯一端到端完成全部用例的模型)、以及在各档「努力等级」上都超越前代的 CursorBench

价格与可用性:输入 $5/百万 token、输出 $25/百万 token(均与 4.7 持平);新增的快速模式(Fast mode)为 $10/$50 每百万 token,比此前模型便宜 3 倍。模型即刻在各平台上线,API 标识为 claude-opus-4-8。新能力还包括:动态工作流(Dynamic Workflows)——Claude Code 可并行运行数百个子智能体(subagents),从而完成跨越数十万行代码的代码库级迁移;努力控制(Effort Control)——用户可调节模型投入的算力(更高努力 = 更高质量但更慢、更费 token);以及 Messages API 支持在对话中途插入 system 条目而不破坏提示缓存(prompt caching)。

HN 评论精华