Claude Code 按 API Token 消耗计费。平均每位开发者每天约 $6,90% 的用户每天低于 $12。团队使用月均约 $100-200/人(Sonnet 4.6),具体取决于使用实例数和自动化程度。
查看当前费用
/cost
输出示例:
Total cost: $0.55
Total duration (API): 6m 19.7s
Total duration (wall): 6h 33m 10.2s
Total code changes: 0 lines added, 0 lines removed
也可以在状态栏中持续显示 Context 用量:
/config → Status Line → 启用 Context Window Usage
团队费用管理
Claude API 控制台
在 platform.claude.com 可以:
- 设置工作区消费上限(Workspace Spend Limits)
- 查看费用和用量报表(按用户、按工作区)
Bedrock/Vertex/Foundry 用户
Claude Code 不向你的云端发送指标。推荐使用开源工具 LiteLLM 按 Key 追踪消费(Anthropic 不附属也未审计此项目)。
团队速率限制建议(TPM = Token Per Minute,RPM = Request Per Minute)
| 团队规模 | 每用户 TPM | 每用户 RPM |
|---|---|---|
| 1-5 人 | 200k-300k | 5-7 |
| 5-20 人 | 100k-150k | 2.5-3.5 |
| 20-50 人 | 50k-75k | 1.25-1.75 |
| 50-100 人 | 25k-35k | 0.62-0.87 |
| 100-500 人 | 15k-20k | 0.37-0.47 |
| 500+ 人 | 10k-15k | 0.25-0.35 |
团队越大,每用户分配的 TPM 越低,因为大组织中同时使用的用户比例较低。速率限制在组织层面生效,个别用户在其他人不活跃时可以使用更多配额。
示例:200 人团队,每用户 20k TPM → 总计申请 4,000,000 TPM(200 × 20,000)。
Agent Teams 的 Token 消耗
Agent Teams(多 Claude Code 实例协作)会生成多个独立的 Context 窗口,Token 使用量约是标准会话的 7 倍(Plan Mode 下)。控制成本:
- 用 Sonnet 运行队友(而非 Opus)
- 保持团队规模小
- 保持 Spawn 提示词聚焦
- 工作完成后清理团队(活跃队友即使空闲也会消耗 Token)
10 大减少 Token 使用策略
1. 主动管理 Context
# 任务切换时清空 Context
/clear
# 先重命名再清空,方便后续 /resume 找回
/rename auth-refactor
/clear
# 带重点的压缩
/compact Focus on code samples and API usage2. 选对模型
| 场景 | 推荐模型 |
|---|---|
| 日常编码任务 | Sonnet(性价比最佳) |
| 复杂架构决策 | Opus(更强推理) |
| 简单 Subagent 任务 | Haiku(最省钱) |
/model # 会话中切换模型
/config # 设置默认模型
Subagent 配置中指定模型:
{ "model": "haiku" }3. 减少 MCP 服务器开销
每个 MCP 服务器会向每次请求添加工具定义,即使空闲也消耗 Context。
- 优先使用 CLI 工具:
gh、aws、gcloud、sentry-cli比 MCP 更省 Context(不添加持久工具定义) - 禁用未使用的服务器:
/mcp→ 禁用不活跃的服务器 - 自动工具搜索:MCP 工具描述超过 Context 窗口的 10% 时,Claude Code 自动延迟加载(可调低阈值):
bash
ENABLE_TOOL_SEARCH=auto:5 claude # 5% 时触发
4. 安装代码智能插件
代码智能插件让 Claude 使用精确的符号导航,而非基于文本的搜索——一次「跳转到定义」替代了可能的多次 grep + 读取多个文件,大幅减少 Token 消耗。
5. 用 Hooks 预处理数据
Hooks 可以在 Claude 看到数据之前预处理,减少无效 Context 占用:
# 示例:过滤测试输出,只保留失败行
# 原本可能数万行日志 → 只传给 Claude 数百行失败信息{
"hooks": {
"PreToolUse": [{
"matcher": "Bash",
"hooks": [{
"type": "command",
"command": "~/.claude/hooks/filter-test-output.sh"
}]
}]
}
}6. 将详细指令从 CLAUDE.md 移入 Skills
CLAUDE.md 在每次会话开始时全量加载。如果包含只在特定工作流中才需要的详细指令(如 PR Review、数据库迁移),这些 Token 在做无关工作时也会被消耗。
将专项指令移入 Skills,只在调用时才加载。CLAUDE.md 目标控制在 500 行以内,只保留必要内容。
7. 调整扩展思考(Extended Thinking)
Extended Thinking 默认启用,预算 31,999 Token(思考 Token 按输出 Token 计费)。简单任务可降低:
# 降低思考预算
MAX_THINKING_TOKENS=8000 claude
# 在 /config 中禁用扩展思考
# 或在 /model 中降低 Opus 4.6 的 effort level8. 将冗长操作委托给 Subagents
运行测试、获取文档、处理日志文件会消耗大量 Context。委托给 Subagent,冗长输出留在 Subagent 的 Context 中,主对话只收到摘要。
9. 写精确的提示词
| 模糊提示 ❌ | 精确提示 ✅ |
|---|---|
| 「改进这个代码库」 | 「在 auth.ts 的 login 函数中添加输入验证」 |
| 「修复错误」 | 「修复 src/api/user.ts 第 47 行的类型错误」 |
模糊请求触发广泛扫描;精确请求让 Claude 以最少的文件读取高效工作。
10. 对复杂任务使用 Plan Mode
在实现前进入 Plan Mode,让 Claude 探索代码库并提出方案,审批后再执行。避免方向错误导致的昂贵返工。
后台 Token 消耗
Claude Code 在空闲时也会消耗少量 Token(通常每次会话不超过 $0.04):
- 对话摘要:为
claude --resume功能生成历史会话摘要 - 命令处理:
/cost等命令可能触发状态检查请求
原文:Costs - Claude Code Docs | 来源:Anthropic 官方文档