Claude Code 按 Token 计费,理解成本结构并合理配置,能在不影响效率的前提下大幅降低支出。
成本基准数据
| 指标 | 数值 |
|---|---|
| 平均每开发者每日成本 | $6 |
| 90% 用户的每日上限 | $12 |
| 平均每月费用(Sonnet 4.6) | $100–$200/人 |
实际差异很大,取决于运行实例数量和自动化使用程度。
查看成本
/cost 命令
显示当前会话的 API Token 用量统计:
总成本: $0.55
API 总时长: 6分钟 19.7秒
实际总时长: 6小时 33分钟 10.2秒
代码变更: 0 行新增,0 行删除
/cost适用于 API 付费用户。Claude Max/Pro 订阅用户的成本已包含在订阅内,使用/stats查看用量模式更有意义。
团队成本管理
API 用量控制
- 在 Claude Console 为工作区设置消费上限
- 首次用 Claude Console 账号认证时,自动创建「Claude Code」工作区
- 该工作区专用于 Claude Code,无法创建 API Key
第三方提供商成本追踪
Bedrock、Vertex 和 Foundry 不向 Anthropic 发送指标,可使用 LiteLLM 追踪每个 Key 的支出(开源工具,非 Anthropic 官方,未经安全审计)。
团队速率限制推荐(TPM/RPM)
| 团队规模 | 每用户 TPM | 每用户 RPM |
|---|---|---|
| 1–5 人 | 200k–300k | 5–7 |
| 5–20 人 | 100k–150k | 2.5–3.5 |
| 20–50 人 | 50k–75k | 1.25–1.75 |
| 50–100 人 | 25k–35k | 0.62–0.87 |
| 100–500 人 | 15k–20k | 0.37–0.47 |
| 500+ 人 | 10k–15k | 0.25–0.35 |
团队越大,每用户分配 TPM 越低,因为大型团队并发用户比例更低。速率限制是组织级的,个别用户可以临时超出分配(其他人未使用时)。
注意:大型培训活动(如全公司同时上线培训)可能需要额外申请更高 TPM。
Agent 团队 Token 成本
Agent 团队(Agent Teams)会产生倍数级的 Token 消耗——每个成员拥有独立上下文窗口:
| 控制方法 | 说明 |
|---|---|
| 使用 Sonnet 做 Teammate | 能力和成本的最佳平衡 |
| 保持小团队 | Token 用量近似与成员数成正比 |
| 聚焦 spawn prompt | CLAUDE.md/MCP/Skills 自动加载,spawn prompt 中每个词都消耗 Token |
| 任务完成后清理 | 即使空闲,活跃成员仍持续消耗 Token |
| 默认禁用 | 需设 CLAUDE_CODE_EXPERIMENTAL_AGENT_TEAMS=1 启用 |
10 大降低 Token 用量策略
1. 主动管理上下文
/cost # 随时查看用量
/clear # 切换不相关任务时清除历史
/compact Focus on code samples # 自定义压缩焦点
在 CLAUDE.md 中自定义压缩行为:
# Compact instructions
When compacting, focus on test output and code changes.2. 选择合适的模型
- Sonnet 处理绝大多数编码任务,成本低于 Opus
- 只在复杂架构决策时切换到 Opus
- Subagent 简单任务可指定
model: haiku
3. 减少 MCP 服务器开销
每个 MCP 服务器都向上下文添加工具定义(即使空闲):
/context # 查看上下文使用情况
/mcp # 禁用未使用的 MCP 服务器
优先用 CLI 工具(gh、aws、gcloud)替代 MCP 服务器,因为 CLI 不添加持久工具定义。
设置工具搜索阈值(超过后按需加载工具而非预加载):
export ENABLE_TOOL_SEARCH=auto:5 # 超过 5% 上下文时启动按需加载4. 安装代码智能插件
代码智能插件(LSP)提供精确符号导航,减少文件读取:
- 「跳转到定义」替代 grep + 读多个候选文件
- 编辑后自动报告类型错误,无需编译器运行
5. 用 Hooks 预处理数据
# PreToolUse Hook:只传测试失败行给 Claude
if [[ "$cmd" =~ ^(npm test|pytest|go test) ]]; then
filtered_cmd="$cmd 2>&1 | grep -A 5 -E '(FAIL|ERROR|error:)' | head -100"
fi把 10,000 行日志过滤为几百行,减少数万 Token 消耗。
6. 把指令从 CLAUDE.md 移到 Skills
CLAUDE.md 每次会话都加载,Skills 只在激活时加载。把大块参考内容、示例移到 Skill 文件中,减少系统提示词体积。
7. 调整扩展思考(Extended Thinking)
扩展思考消耗更多 Token,根据任务复杂度调整 effort 级别:
export CLAUDE_CODE_EFFORT_LEVEL=low # 简单任务
export CLAUDE_CODE_EFFORT_LEVEL=high # 复杂推理8. 将冗长操作委托给 Subagents
让 Subagent 处理大量文件操作或日志分析,结果汇总后返回主会话,避免污染主上下文。
9. 写精确的提示词
含糊的提示词让 Claude 多次探索,消耗更多 Token。具体的提示词减少迭代:
# 低效
修复登录问题
# 高效
修复 src/auth/login.ts 第 47 行的 JWT 验证错误,错误信息:invalid signature
10. 高效处理复杂任务
对大任务使用 Plan 模式先规划,批准计划后再执行,避免多次重试浪费 Token。
后台 Token 消耗
Claude Code 的 Haiku 模型在后台负责以下功能:
- 对话压缩(
/compact) - 自动记忆条目生成(Auto-memory)
- 会话标题自动生成
- Prompt Hooks
这部分消耗通常很小,但在频繁压缩或大量 Auto-memory 场景下会增加。
原文:Manage costs effectively - Claude Code Docs | 来源:Anthropic 官方文档