问题报告:Claude Code 二月更新后在复杂工程任务中变得不可用

查看原文 HN 讨论

文章摘要

AMD 人工智能部门高级总监 Stella Laurenzo 在 Anthropic 的 claude-code 仓库提交了一份极其详细的 Issue(#42796),通过对 6,852 个 Claude Code 会话文件、234,760 次工具调用和 17,871 个思维块的定量分析,证明了 Claude Code 在 2026 年 2 月更新后出现了严重的质量退化。

该报告的核心发现是:思维内容遮蔽功能(redact-thinking-2026-02-12)的分阶段部署与模型质量退化精确相关。思维深度从基线时期的约 2,200 字符骤降至约 560-720 字符,降幅高达 67%-75%。在具体的行为指标上,模型在编辑代码前的读取次数从 6.6 次降至 2.0 次(降幅 70%),未经读取就直接编辑的比例从 6.2% 飙升至 33.7%。停止钩子违规从零增至每天 10 次,用户中断频率增加了 6.5 倍,代码推理循环和”最简修复”心态显著增加。

最令人震惊的是成本爆炸:尽管用户的提示次数基本不变(约 5,600 次),API 请求量增加了 80 倍,总输入 token 增加了 170 倍,输出 token 增加了 64 倍,估算成本增加了 122 倍——模型产生了更多的文字,却做了更少的实际推理。

Laurenzo 的分析表明,扩展思维 token 不是”锦上添花”,而是模型执行多步研究、遵循项目规范和谨慎修改代码的结构性必需品。当思维深度变浅时,模型会默认采取”最廉价的行动”:不读代码就编辑、未完成就停止、回避责任。她的团队原本每周末能合并 191,000 行代码的多代理工作流被迫废弃,退回到单会话监督操作模式。

Anthropic 部分证实了底层原因:两项刻意的产品变更——自适应思维和降低默认工作量设置——减少了高级用户的推理深度。该 Issue 获得了 293 次互动,在 HN 上获得 975 票和 548 条评论,成为近期最受关注的 Claude Code 相关讨论之一。

HN 评论精华

  1. 对 Anthropic 产品策略的质疑:多位评论者指出,Anthropic 为了降低推理成本而削减思维 token 的做法,本质上是在牺牲高级用户的使用体验来优化平均指标。有人认为这暴露了 AI 公司在”让模型更聪明”和”降低运营成本”之间的根本矛盾。

  2. 数据驱动分析的价值:评论者对 Laurenzo 的分析方法高度赞赏,认为用 17,000+ 个思维块的定量数据来证明退化,而非仅凭主观感受抱怨,是最有说服力的反馈方式。有人指出这种”用数据说话”的方法应该成为报告 AI 工具问题的标准模板。

  3. 付费分层的呼声:Laurenzo 提出的”最大思维”订阅层引发了广泛讨论。许多专业开发者表示愿意为更深的推理深度支付更高费用,认为当前订阅模型没有区分需要 200 个思维 token 和需要 20,000 个思维 token 的用户是不合理的。

  4. 对整个 AI 编码工具行业的反思:一些评论者借此事件讨论了对 AI 编码工具过度依赖的风险,认为当服务商单方面改变模型行为时,依赖这些工具的工作流会瞬间崩塌,这提醒开发者不应将核心工程流程完全绑定在单一 AI 工具上。

  5. 透明度问题:多位评论者强调,AI 公司应该在 API 响应中公开思维 token 使用量,即使思维内容本身被遮蔽。缺乏透明度使得用户无法诊断问题根源,也无法判断自己的请求是否获得了足够的推理深度。