成本基准数据
在了解优化策略前,先看官方给出的成本参考:
- 个人平均:每开发者每天约 $6
- 90% 用户上限:每天不超过 $12
- 团队月均:使用 Sonnet 4.6 时约 $100-200/开发者/月(实际差异较大,取决于并发实例数量)
追踪你的成本
/cost 命令
> /cost
Total cost: $0.55
Total duration (API): 6m 19.7s
Total duration (wall): 6h 33m 10.2s
Total code changes: 0 lines added, 0 lines removed注意:Claude Max 和 Pro 订阅用户的 /cost 数据与计费无关(使用量已包含在订阅中)。订阅用户可使用 /stats 查看使用模式。
实时上下文监控
配置状态栏持续显示上下文使用量:在 /config 中开启 contextWindowUsage 显示。这是防止上下文爆满、提前采取措施的最有效方法。
团队成本管理
设置工作区支出上限
API 用户可在 Claude Console 中为工作区设置总支出上限。管理员可查看详细的成本和使用报告。
团队速率限制建议
| 团队规模 | 每用户 TPM | 每用户 RPM |
|---|---|---|
| 1-5 人 | 20-30 万 | 5-7 |
| 5-20 人 | 10-15 万 | 2.5-3.5 |
| 20-50 人 | 5-7.5 万 | 1.25-1.75 |
| 50-100 人 | 2.5-3.5 万 | 0.62-0.87 |
| 100-500 人 | 1.5-2 万 | 0.37-0.47 |
| 500+ 人 | 1-1.5 万 | 0.25-0.35 |
关键逻辑:团队越大,每人分配的 TPM 越少,因为大型团队中同时使用 Claude Code 的用户比例较低。速率限制在组织层面生效,用户可以在其他人不活跃时临时使用更多配额。
Agent Teams 的额外成本
Agent Teams 运行多个独立的 Claude Code 实例,每个有自己的上下文窗口。在计划模式下运行时,Token 消耗约为标准会话的 7 倍。
管理 Agent Teams 成本的建议:
- 队友使用 Sonnet(而不是 Opus)
- 保持团队规模小
- 保持启动 Prompt 聚焦(减少初始上下文)
- 完成后立即清理团队(空闲队友仍消耗 Token)
10 个降低 Token 消耗的策略
策略 1:主动管理上下文
# 切换不相关任务时清空上下文
> /clear
# 清空前先命名会话,方便后续恢复
> /rename "认证模块重构"
> /clear
# 自定义压缩指令
> /compact 专注保留代码示例和 API 用法也可在 CLAUDE.md 中定制压缩行为:
# 压缩指令
压缩时,请重点保留测试输出和代码变更策略 2:按任务选择合适模型
# 会话中切换模型
> /model| 场景 | 推荐模型 |
|---|---|
| 日常编程、Bug 修复 | Sonnet(成本效益最佳) |
| 复杂架构决策、多步推理 | Opus |
| 简单 Subagent 任务 | Haiku |
策略 3:减少 MCP 服务器开销
每个 MCP 服务器都会把工具定义加入上下文,即使它们处于空闲状态:
# 查看上下文占用情况
> /context
# 禁用未使用的服务器
> /mcp优先使用 CLI 工具:gh、aws、gcloud、sentry-cli 比 MCP 服务器更省上下文,因为它们不添加持久性工具定义。
自动工具搜索:当 MCP 工具描述超过上下文的 10%,Claude Code 自动延迟加载,按需获取。可调低阈值:ENABLE_TOOL_SEARCH=auto:5(工具超过 5% 时触发)。
策略 4:安装代码智能插件
代码智能插件给 Claude 提供精确的符号导航(跳转到定义、查找引用),替代低效的文本搜索。一次「跳转到定义」能替代 grep + 读取多个候选文件的组合操作。
策略 5:用 Hook 预处理数据
Hook 可以在 Claude 看到数据前先过滤它,大幅减少需要处理的 Token:
# 示例:过滤测试输出,只保留失败信息
# 把 10,000 行日志过滤成几百行错误信息{
"hooks": {
"PreToolUse": [{
"matcher": "Bash",
"hooks": [{
"type": "command",
"command": "~/.claude/hooks/filter-test-output.sh"
}]
}]
}
}策略 6:将详细指令从 CLAUDE.md 移到 Skills
CLAUDE.md 在每次会话开始时加载,即使你在做完全无关的工作。
规则:CLAUDE.md 只保留核心配置(目标 < 500 行)。将专属工作流(PR 审查、数据库迁移等)的详细指令移到 Skills,按需加载。
策略 7:调整扩展思考
扩展思考默认开启(预算 31,999 Token),显著提升复杂任务性能,但思考 Token 按输出计费:
# 简单任务降低 Effort 级别
> /model # 调整 Opus 4.6 的 effort 级别
# 或关闭思考
> /config # 禁用 thinking
# 降低思考预算
export MAX_THINKING_TOKENS=8000策略 8:将冗长操作委托给 Subagent
运行测试、获取文档、处理日志文件会产生大量输出。把这些委托给 Subagent,冗长输出留在 Subagent 的上下文中,只有摘要返回主对话:
> 用 subagent 运行完整测试套件并报告失败的测试
策略 9:写具体的 Prompt
| ❌ 低效 | ✅ 高效 |
|---|---|
| 「改进这个代码库」 | 「为 auth.ts 中的 login 函数添加输入验证」 |
| 「检查一下代码」 | 「检查 payment.ts 中是否有 SQL 注入风险」 |
模糊请求触发大范围扫描,具体请求让 Claude 高效工作,最小化文件读取。
策略 10:复杂任务的工作习惯
# 实现前先规划(Plan Mode)
> [按 Shift+Tab 进入 Plan Mode]
# 及时纠偏
> [按 Escape 停止] → [/rewind 回滚到检查点]
# 给出验证目标(减少来回修正)
> 实现这个功能,使用这些测试用例验证:[粘贴测试]
# 增量测试
# 写一个文件,测试,再继续——早期发现问题成本低背景 Token 消耗
即使空闲,Claude Code 也会消耗少量 Token:
- 会话摘要(为
claude --resume功能) - 状态检查命令(如
/cost)
金额:通常每次会话低于 $0.04,可忽略不计。
原文:Manage costs effectively - Claude Code Docs | 来源:Claude Code 官方文档