Claude Code 成本管理：$6/天基准、TPM 速率限制配置与 10 大 Token 降本策略

Claude Code 按 Token 计费，理解成本结构并合理配置，能在不影响效率的前提下大幅降低支出。

成本基准数据

指标	数值
平均每开发者每日成本	$6
90% 用户的每日上限	$12
平均每月费用（Sonnet 4.6）	$100–$200/人

实际差异很大，取决于运行实例数量和自动化使用程度。

查看成本

`/cost` 命令

显示当前会话的 API Token 用量统计：

总成本:               $0.55
API 总时长:           6分钟 19.7秒
实际总时长:           6小时 33分钟 10.2秒
代码变更:             0 行新增，0 行删除

/cost 适用于 API 付费用户。Claude Max/Pro 订阅用户的成本已包含在订阅内，使用 /stats 查看用量模式更有意义。

团队成本管理

API 用量控制

在 Claude Console 为工作区设置消费上限
首次用 Claude Console 账号认证时，自动创建「Claude Code」工作区
该工作区专用于 Claude Code，无法创建 API Key

第三方提供商成本追踪

Bedrock、Vertex 和 Foundry 不向 Anthropic 发送指标，可使用 LiteLLM 追踪每个 Key 的支出（开源工具，非 Anthropic 官方，未经安全审计）。

团队速率限制推荐（TPM/RPM）

团队规模	每用户 TPM	每用户 RPM
1–5 人	200k–300k	5–7
5–20 人	100k–150k	2.5–3.5
20–50 人	50k–75k	1.25–1.75
50–100 人	25k–35k	0.62–0.87
100–500 人	15k–20k	0.37–0.47
500+ 人	10k–15k	0.25–0.35

团队越大，每用户分配 TPM 越低，因为大型团队并发用户比例更低。速率限制是组织级的，个别用户可以临时超出分配（其他人未使用时）。

注意：大型培训活动（如全公司同时上线培训）可能需要额外申请更高 TPM。

Agent 团队 Token 成本

Agent 团队（Agent Teams）会产生倍数级的 Token 消耗——每个成员拥有独立上下文窗口：

控制方法	说明
使用 Sonnet 做 Teammate	能力和成本的最佳平衡
保持小团队	Token 用量近似与成员数成正比
聚焦 spawn prompt	CLAUDE.md/MCP/Skills 自动加载，spawn prompt 中每个词都消耗 Token
任务完成后清理	即使空闲，活跃成员仍持续消耗 Token
默认禁用	需设 `CLAUDE_CODE_EXPERIMENTAL_AGENT_TEAMS=1` 启用

10 大降低 Token 用量策略

1. 主动管理上下文

/cost          # 随时查看用量
/clear         # 切换不相关任务时清除历史
/compact Focus on code samples   # 自定义压缩焦点

在 CLAUDE.md 中自定义压缩行为：

markdown

# Compact instructions
When compacting, focus on test output and code changes.

2. 选择合适的模型

Sonnet 处理绝大多数编码任务，成本低于 Opus
只在复杂架构决策时切换到 Opus
Subagent 简单任务可指定 model: haiku

3. 减少 MCP 服务器开销

每个 MCP 服务器都向上下文添加工具定义（即使空闲）：

/context    # 查看上下文使用情况
/mcp        # 禁用未使用的 MCP 服务器

优先用 CLI 工具（gh、aws、gcloud）替代 MCP 服务器，因为 CLI 不添加持久工具定义。

设置工具搜索阈值（超过后按需加载工具而非预加载）：

bash

export ENABLE_TOOL_SEARCH=auto:5   # 超过 5% 上下文时启动按需加载

4. 安装代码智能插件

代码智能插件（LSP）提供精确符号导航，减少文件读取：

「跳转到定义」替代 grep + 读多个候选文件
编辑后自动报告类型错误，无需编译器运行

5. 用 Hooks 预处理数据

bash

# PreToolUse Hook：只传测试失败行给 Claude
if [[ "$cmd" =~ ^(npm test|pytest|go test) ]]; then
  filtered_cmd="$cmd 2>&1 | grep -A 5 -E '(FAIL|ERROR|error:)' | head -100"
fi

把 10,000 行日志过滤为几百行，减少数万 Token 消耗。

6. 把指令从 CLAUDE.md 移到 Skills

CLAUDE.md 每次会话都加载，Skills 只在激活时加载。把大块参考内容、示例移到 Skill 文件中，减少系统提示词体积。

7. 调整扩展思考（Extended Thinking）

扩展思考消耗更多 Token，根据任务复杂度调整 effort 级别：

bash

export CLAUDE_CODE_EFFORT_LEVEL=low    # 简单任务
export CLAUDE_CODE_EFFORT_LEVEL=high   # 复杂推理

8. 将冗长操作委托给 Subagents

让 Subagent 处理大量文件操作或日志分析，结果汇总后返回主会话，避免污染主上下文。

9. 写精确的提示词

含糊的提示词让 Claude 多次探索，消耗更多 Token。具体的提示词减少迭代：

# 低效
修复登录问题

# 高效  
修复 src/auth/login.ts 第 47 行的 JWT 验证错误，错误信息：invalid signature

10. 高效处理复杂任务

对大任务使用 Plan 模式先规划，批准计划后再执行，避免多次重试浪费 Token。

后台 Token 消耗

Claude Code 的 Haiku 模型在后台负责以下功能：

对话压缩（/compact）
自动记忆条目生成（Auto-memory）
会话标题自动生成
Prompt Hooks

这部分消耗通常很小，但在频繁压缩或大量 Auto-memory 场景下会增加。

原文：Manage costs effectively - Claude Code Docs | 来源：Anthropic 官方文档

Claude Code 成本管理指南：$6/天基准、TPM 速率限制、10 大降本策略与 Agent 团队费用控制

成本基准数据

查看成本

`/cost` 命令

团队成本管理

API 用量控制

第三方提供商成本追踪

团队速率限制推荐（TPM/RPM）

Agent 团队 Token 成本

10 大降低 Token 用量策略

1. 主动管理上下文

2. 选择合适的模型

3. 减少 MCP 服务器开销

4. 安装代码智能插件

5. 用 Hooks 预处理数据

6. 把指令从 CLAUDE.md 移到 Skills

7. 调整扩展思考（Extended Thinking）

8. 将冗长操作委托给 Subagents

9. 写精确的提示词

10. 高效处理复杂任务

后台 Token 消耗

相关文章推荐

成本基准数据#

查看成本#

/cost 命令#

团队成本管理#

API 用量控制#

第三方提供商成本追踪#

团队速率限制推荐（TPM/RPM）#

Agent 团队 Token 成本#

10 大降低 Token 用量策略#

1. 主动管理上下文#

2. 选择合适的模型#

3. 减少 MCP 服务器开销#

4. 安装代码智能插件#

5. 用 Hooks 预处理数据#

6. 把指令从 CLAUDE.md 移到 Skills#

7. 调整扩展思考（Extended Thinking）#

8. 将冗长操作委托给 Subagents#

9. 写精确的提示词#

10. 高效处理复杂任务#

后台 Token 消耗#

相关文章推荐

成本基准数据

查看成本

`/cost` 命令

团队成本管理

API 用量控制

第三方提供商成本追踪

团队速率限制推荐（TPM/RPM）

Agent 团队 Token 成本

10 大降低 Token 用量策略

1. 主动管理上下文

2. 选择合适的模型

3. 减少 MCP 服务器开销

4. 安装代码智能插件

5. 用 Hooks 预处理数据

6. 把指令从 CLAUDE.md 移到 Skills

7. 调整扩展思考（Extended Thinking）

8. 将冗长操作委托给 Subagents

9. 写精确的提示词

10. 高效处理复杂任务

后台 Token 消耗