实战

Claude Code 成本优化完整指南:Token 节省策略、模型选择和 Prompt Cache 配置

Claude Code 成本优化完整指南:Token 消耗来源分析(对话历史/大文件读取/工具输出/MCP 服务器/长 CLAUDE.md);8 个优化策略(/compact 主动压缩/精确 @ 引用/控制 MCP 数量/模型选择 Haiku vs Sonnet vs Opus 价格对比/努力等级按需调整/Prompt Cache 1 小时 TTL/CLAUDE.md 精简/usage 监控);不同场景的成本估算(个人/小团队/企业);以及订阅 vs API 的临界点分析。

2026/5/86分钟 阅读ClaudeEagle

Claude Code 的强大伴随着 Token 消耗。一个不加控制的 Agentic 循环可以在几分钟内消耗数万 Token。本文是 Claude Code 成本优化的完整指南,涵盖 Token 节省策略、模型选择、API 用量追踪和 Prompt Cache 配置。


理解 Claude Code 的 Token 消耗来源

每次请求的组成

每次 API 请求 = 系统提示(CLAUDE.md 内容等) + 完整对话历史(所有消息) + 工具目录(所有可用工具的描述) + 当前用户消息 + 工具调用和结果(文件读取、命令输出等)

消耗最大的来源(按影响排序):

  1. 长时间会话积累的对话历史
  2. 大文件读取(整个文件内容进入上下文)
  3. 冗长的工具输出(测试日志、命令输出)
  4. 过多的 MCP 服务器(每个服务器的工具描述都占用 Token)
  5. 过长的 CLAUDE.md

策略 1:主动管理对话历史

最高影响的单一操作

/compact:压缩而不丢失状态

bash
# 每 30-40 条消息主动运行
/compact

# 指定保留重点(压缩质量更好)
/compact 保留:正在实现 OAuth 的 callback handler,
          已完成 login 端点,还需要处理 refresh token 和 logout

压缩效果:通常能把上下文缩小到原来的 1/5 到 1/3,但保留关键决策和状态。

/clear:完全重置

bash
# 切换到完全不相关的任务时
/clear

完全重置后,CLAUDE.md 重新加载,但对话历史清空,Token 消耗从最小状态重新开始。

实测数据

一个 2 小时的开发会话,不清理上下文,对话历史可能积累到 100k+ Token。主动每 30 分钟 /compact 一次,相同工作量的 Token 消耗可以降低 60-70%。


策略 2:精确的 @ 文件引用而不是模糊描述

低效(Claude 需要广泛搜索,读取不需要的文件):

> 优化用户认证相关的错误处理

高效(精确指定,只读取必要文件):

> @src/api/auth.ts 优化第 142-180 行的错误处理, 参考 @src/types/errors.ts 的错误类型定义

精确指定减少 Claude 的"探索性读取",每次探索可能读取 5-10 个不必要的文件。


策略 3:控制 MCP 服务器数量

每个 MCP 服务器的工具描述在每次请求时都会出现在上下文里:

安装了 10 个 MCP 服务器,每个平均 8 个工具 = 每次请求多出 80 个工具描述 = 约 2000-5000 Token 的固定开销(每次请求)

最小化原则:只安装实际使用的 MCP 服务器。

bash
# 查看当前安装的 MCP 服务器
/mcp

# 移除不用的
claude mcp remove unused-server-name

策略 4:选择正确的模型

Claude Code 支持三种模型,价格和能力差距显著:

模型输入价格输出价格适合任务
Haiku 4.5$0.80/MTok$4/MTok简单查询、代码搜索、文件发现
Sonnet 4.6$3/MTok$15/MTok日常开发、代码审查、中等复杂任务
Opus 4.7$15/MTok$75/MTok复杂架构、长时间 Agent 任务

实际用量建议

主要开发工作 → Sonnet 4.6(性价比最高) 复杂架构决策、大型重构 → Opus 4.7 简单代码搜索、快速问答 → Haiku 4.5 Sub-agent 的探索任务 → Haiku 4.5(在 Sub-agent 配置里指定)
bash
# 切换模型
/model haiku    # 临时切换到 Haiku
/model sonnet   # 切回 Sonnet
claude --model haiku  # 启动时指定

策略 5:努力等级(/effort)按需调整

努力等级影响推理 Token(Extended Thinking)消耗:

low → 最少推理 Token,最快,成本最低 medium → 标准推理 high → 深度推理,成本增加约 30-50% xhigh → 更深推理(Opus 4.7 默认),成本较高 max → 最大思考预算,仅用于最复杂问题

使用原则

  • 明确的任务(改个配置、写个简单函数)→ lowmedium
  • 日常开发 → high(Sonnet 4.6 默认)
  • 复杂架构、棘手 Bug → xhigh(Opus 4.7 默认)
  • 最难的问题才用 max
bash
/effort low     # 快速任务临时调低
/effort high    # 回到常规

策略 6:Prompt Cache(API 用户)

对于使用 Anthropic API 的用户,Prompt Cache 可以大幅降低重复内容的成本:

bash
# 开启 1 小时缓存 TTL(默认 5 分钟)
export ENABLE_PROMPT_CACHING_1H=1

缓存命中率高的内容(收费仅为原价的 10%):

  • CLAUDE.md 内容(每次会话开始都一样,缓存命中率极高)
  • System Prompt(稳定不变)
  • 较早的对话历史(稳定的部分)

实际效果

  • 有长 CLAUDE.md 的项目:缓存可以节省 40-60% 的输入 Token 成本
  • 频繁 /compact 后:压缩摘要被缓存,之后的请求成本大幅下降

v2.1.129 修复:之前 1 小时缓存 TTL 被静默降级为 5 分钟的 Bug 已修复,升级后缓存才能真正生效。


策略 7:CLAUDE.md 精简

CLAUDE.md 在每次请求时都会加载。一个 2000 字符的 CLAUDE.md vs 一个 200 字符的,每次请求就差了约 500 Token。乘以会话里的请求次数,一天下来差异显著。

精简原则

  1. 每行问自己:"去掉这行,Claude 会犯什么错?"
  2. 能推断的不写(如"用 TypeScript",Claude 看到 .ts 文件就知道)
  3. @ 引入长文档,而不是把内容直接写入

策略 8:/usage 监控和分析

bash
/usage    # 查看当前计划用量和速率限制细分

/usage 显示(v2.1.105+):

  • 并行会话占比
  • Sub-agent 调用占比
  • 缓存未命中率
  • 长上下文占比

根据 /usage 数据采取行动

  • 缓存未命中率高 → 开启 ENABLE_PROMPT_CACHING_1H,稳定 CLAUDE.md
  • Sub-agent 调用多 → 检查是否可以减少不必要的 Sub-agent 调用
  • 长上下文占比高 → 更频繁地 /compact

不同使用场景的成本估算

个人开发者(每天 4 小时使用)

日常开发(Sonnet 4.6):约 $2-5/天 复杂重构日(Opus 4.7):约 $5-15/天 月均成本(混合使用):$50-150/月

优化后(启用缓存、主动 /compact):减少 40-60%

小团队(5 人,每人每天 4 小时)

未优化:$250-750/月 优化后(AI 网关 + 缓存 + 模型路由):$100-300/月

企业团队(50 人工程团队)

未优化:$2500-7500/月 优化后(完整策略):$1000-3000/月

订阅 vs API 的成本比较

Claude Code 订阅(推荐大多数开发者)

  • Pro ($20/月):轻度使用
  • Max ($100/月):中度使用,包含更多 Claude Code 配额
  • Team ($25/seat/月):团队共享,有管理功能

Anthropic API(推荐重度用户和企业)

  • 按实际 Token 计费,没有固定月费
  • 有完整成本可见性和归因
  • 适合重度使用(>$100/月的 Token 消耗)

临界点:如果每月 API 费用超过 $100,API 模式开始有竞争力;如果是团队并且需要治理,企业计划更合适。


来源:Claude Code 官方文档 - Costs | Best Practices | 整理:ClaudeEagle

相关文章推荐

实战Claude Code 上下文管理实战:/compact、/clear、子 Agent,解决长会话性能下降Claude Code 上下文管理完整攻略:6 条实战规则解决长会话性能下降,含 /compact /clear 时机选择、子 Agent 节省 40% Token、跨会话继续任务、检查点回退操作。2026/4/10实战Claude Code 成本管理实战:如何将每日 AI 编程费用控制在预算内Claude Code 平均每位开发者每日成本约 6 美元,每月约 100-200 美元。本文详细介绍成本追踪工具(/cost、/stats)、团队 Rate Limit 配置、6 种降低 Token 消耗策略(.claudeignore、模型分级、上下文压缩、任务合并等),以及 Agent Teams 的成本控制方法。2026/2/27实战Claude Code 企业规模化最佳实践:AI 网关、成本控制和可观测性完全指南Claude Code 企业级部署完整指南:原生局限(订阅模式无实时仪表盘/API 密钥散落风险);AI 网关层解决方案(7 个最佳实践:凭证三级层级/预算速率限制/完整请求可观测性/请求元数据标签/多提供商故障转移/输入输出护栏/灵活提供商切换);Portkey 2 分钟配置示例;Enterprise 专属功能(managed-settings/allowManagedDomainsOnly/OpenTelemetry);以及团队 CLAUDE.md 安全策略模板。2026/5/7实战Claude Code 45 个进阶技巧:8.1k Star 的 GitHub 精华整理ykdojo GitHub 仓库(8100+ Stars)45 个 Claude Code 实战技巧精华整理:自定义状态栏显示 Token 消耗;Git CLI 配合自动创建 PR;Gemini CLI 作为助手处理被限制的搜索;/compact 带焦点提示词保留关键信息;Fork 会话和半克隆技术;容器安全运行高风险任务;CLAUDE.md vs Skills vs Slash Commands vs Plugins 的区别;/loop 定期轮询;以及 dx 插件安装。2026/5/6实战Claude Code 全软件开发生命周期实战:从需求到运维的端到端工作流指南Claude Code 覆盖完整 SDLC 的端到端工作流:需求拆解和 ADR 生成、TDD 验证循环配置(质量 2-3×)、分层实现+Git Worktree 并行、多角度并行 PR 审查、GitHub Actions CI/CD 配置、OpenAPI 文档自动生成、生产日志分析和性能分析,各阶段效率提升数据对比。2026/4/24实战Claude Code 真实生产案例:8 个团队的数据、工作流和经验教训incident.io(4 个月到 7 个并发 Agent,UI 开发 12×)、Nx(Git Worktree 工作流)、Claude Code 创造者 Boris Cherny(验证循环使质量 2-3×)、Addy Osmani(Agent Teams 架构)、Anthropic 内部团队(研究时间 -80%)、Y Combinator 初创公司(Vulcan 获得 1100 万美元融资),以及横向最佳实践总结。2026/4/24