2026 年 4 月初,GitHub 上一个关于 Claude Code 的 Issue 引起了巨大关注——在 Hacker News 获得了 886 个 upvote,513 条评论。该 Issue 报告了 Claude Code 在处理复杂工程任务时的显著质量下降,并提供了详实的数据支撑。
问题概述
一位重度用户(运行 50+ 并发 Agent 会话做系统编程)在 GitHub Issue #42796 中报告:
- Claude 忽略指令
- 声称"最简单的修复"但实际是错误的
- 做出与请求完全相反的操作
- 任务未完成就声称已完成
该用户对 6852 个 Claude Code 会话文件进行了量化分析,包含 17871 个 thinking block 和 234760 次工具调用。
关键发现
1. Thinking 深度大幅下降
通过对 thinking block 的 signature 字段分析(与 thinking 内容长度有 0.971 的 Pearson 相关系数),发现:
| 时期 | 估计中位 thinking 字符数 | 相比基线 |
|---|---|---|
| 1月30日-2月8日(基线) | ~2,200 | — |
| 2月下旬 | ~720 | -67% |
| 3月1-5日 | ~560 | -75% |
| 3月12日+(完全遮蔽) | ~600 | -73% |
2. 行为指标恶化
| 指标 | 3月8日前 | 3月8日后 | 变化 |
|---|---|---|---|
| 停止 Hook 违规(懒惰守卫) | 0 | 173 | 0→10/天 |
| 用户沮丧指标 | 5.8% | 9.8% | +68% |
| 需要纠正"推卸责任" | 6 | 13 | +117% |
| 每会话提示数 | 35.9 | 27.9 | -22% |
| 推理循环会话(5+次) | 0 | 7 | 0→7 |
3. 工具使用模式转变:从"先研究"到"先编辑"
这是最有说服力的数据。分析 234,760 次工具调用发现,模型从"先读代码再修改"变成了"直接改":
| 时期 | 读:编辑比 | 研究:变更比 | 读取占比 | 编辑占比 |
|---|---|---|---|---|
| 好(1/30-2/12) | 6.6 | 8.7 | 46.5% | 7.1% |
| 过渡(2/13-3/7) | 2.8 | 4.1 | 37.7% | 13.2% |
| 退化(3/8-3/23) | 2.0 | 2.8 | 31.0% | 15.4% |
读:编辑比从 6.6 降到 2.0——研究行为减少了 70%。
好时期的工作流是:读目标文件→读相关文件→grep 全代码库查找用法→读头文件和测试→做精确编辑。退化期变成了:读当前文件→直接编辑,通常不检查上下文。
4. 全文件重写增加
| 时期 | Write 占变更比例 |
|---|---|
| 好(1/30-2/12) | 4.9% |
| 退化(3/8-3/23) | 10.0% |
| 后期(3/24-4/1) | 11.1% |
全文件 Write 使用量翻倍——模型越来越倾向于重写整个文件而非做外科手术式的精确编辑。
根因分析
报告认为核心问题在于扩展思考(Extended Thinking)Token 的缩减。
Thinking 遮蔽时间线与质量下降精确对应:
| 日期 | Thinking 可见 | Thinking 遮蔽 |
|---|---|---|
| 1/30-3/4 | 100% | 0% |
| 3/5 | 98.5% | 1.5% |
| 3/7 | 75.3% | 24.7% |
| 3/8 | 41.6% | 58.4% |
| 3/10-11 | <1% | >99% |
| 3/12+ | 0% | 100% |
质量退化在 3 月 8 日被独立报告——恰好是遮蔽 thinking block 超过 50% 的日期。
为什么扩展思考如此重要
受影响的工作流涉及:
- 50+ 并发 Agent 会话做系统编程(C、MLIR、GPU 驱动)
- 30+ 分钟的自主运行,涉及复杂多文件更改
- 5000+ 字的项目规范(CLAUDE.md)
- 在好时期,一个周末合并了 191,000 行代码
扩展思考是模型进行以下操作的关键机制:
- 规划多步骤方法(先读哪些文件,什么顺序)
- 回忆和应用项目特定规范
- 在输出前发现自身错误
- 决定是继续工作还是停止
- 在数百次工具调用中保持连贯推理
当思考深度不足时,模型默认采取最便宜的行动:不读就改、未完成就停、推卸责任、选最简单而非正确的方案。
用户诉求
- 透明度:如果 thinking token 被缩减或限制,依赖深度推理的用户需要知道
- "最大思考"层级:为运行复杂工程的用户提供付费选项
- 可量化的 thinking 指标:让用户能够监控每次交互的思考深度
社区反响
该 Issue 在 Hacker News 上获得了 886 个 upvote 和 513 条评论,引发了广泛讨论。许多开发者表达了相似的体验,特别是在处理大型代码库和复杂重构任务时。
对用户的实用建议
在 Anthropic 回应之前,以下是一些实用的应对策略:
- 分解复杂任务:将大任务拆分为多个小步骤
- 强制先规划:在提示中明确要求"先分析现有代码,列出计划,然后再修改"
- 使用检查点:经常检查中间结果
- 明确上下文:用
@引用关键文件,减少模型需要"猜测"的范围 - 监控行为模式:如果发现模型开始跳过阅读直接编辑,及时介入
原文来源:GitHub Issue #42796 | 来源:GitHub / anthropics/claude-code