← #789

问题报告：Claude Code 二月更新后在复杂工程任务中变得不可用

文章摘要

AMD 人工智能部门高级总监 Stella Laurenzo 在 Anthropic 的 claude-code 仓库提交了一份极其详细的 Issue（#42796），通过对 6,852 个 Claude Code 会话文件、234,760 次工具调用和 17,871 个思维块的定量分析，证明了 Claude Code 在 2026 年 2 月更新后出现了严重的质量退化。

该报告的核心发现是：思维内容遮蔽功能（redact-thinking-2026-02-12）的分阶段部署与模型质量退化精确相关。思维深度从基线时期的约 2,200 字符骤降至约 560-720 字符，降幅高达 67%-75%。在具体的行为指标上，模型在编辑代码前的读取次数从 6.6 次降至 2.0 次（降幅 70%），未经读取就直接编辑的比例从 6.2% 飙升至 33.7%。停止钩子违规从零增至每天 10 次，用户中断频率增加了 6.5 倍，代码推理循环和”最简修复”心态显著增加。

最令人震惊的是成本爆炸：尽管用户的提示次数基本不变（约 5,600 次），API 请求量增加了 80 倍，总输入 token 增加了 170 倍，输出 token 增加了 64 倍，估算成本增加了 122 倍——模型产生了更多的文字，却做了更少的实际推理。

Laurenzo 的分析表明，扩展思维 token 不是”锦上添花”，而是模型执行多步研究、遵循项目规范和谨慎修改代码的结构性必需品。当思维深度变浅时，模型会默认采取”最廉价的行动”：不读代码就编辑、未完成就停止、回避责任。她的团队原本每周末能合并 191,000 行代码的多代理工作流被迫废弃，退回到单会话监督操作模式。

Anthropic 部分证实了底层原因：两项刻意的产品变更——自适应思维和降低默认工作量设置——减少了高级用户的推理深度。该 Issue 获得了 293 次互动，在 HN 上获得 975 票和 548 条评论，成为近期最受关注的 Claude Code 相关讨论之一。

HN 评论精华

对 Anthropic 产品策略的质疑：多位评论者指出，Anthropic 为了降低推理成本而削减思维 token 的做法，本质上是在牺牲高级用户的使用体验来优化平均指标。有人认为这暴露了 AI 公司在”让模型更聪明”和”降低运营成本”之间的根本矛盾。
数据驱动分析的价值：评论者对 Laurenzo 的分析方法高度赞赏，认为用 17,000+ 个思维块的定量数据来证明退化，而非仅凭主观感受抱怨，是最有说服力的反馈方式。有人指出这种”用数据说话”的方法应该成为报告 AI 工具问题的标准模板。
付费分层的呼声：Laurenzo 提出的”最大思维”订阅层引发了广泛讨论。许多专业开发者表示愿意为更深的推理深度支付更高费用，认为当前订阅模型没有区分需要 200 个思维 token 和需要 20,000 个思维 token 的用户是不合理的。
对整个 AI 编码工具行业的反思：一些评论者借此事件讨论了对 AI 编码工具过度依赖的风险，认为当服务商单方面改变模型行为时，依赖这些工具的工作流会瞬间崩塌，这提醒开发者不应将核心工程流程完全绑定在单一 AI 工具上。
透明度问题：多位评论者强调，AI 公司应该在 API 响应中公开思维 token 使用量，即使思维内容本身被遮蔽。缺乏透明度使得用户无法诊断问题根源，也无法判断自己的请求是否获得了足够的推理深度。