Claude Code 费用指南：Token 成本、团队速率限制与 10 大省钱策略

Claude Code 按 API Token 消耗计费。平均每位开发者每天约 $6，90% 的用户每天低于 $12。团队使用月均约 $100-200/人（Sonnet 4.6），具体取决于使用实例数和自动化程度。

查看当前费用

/cost

输出示例：

Total cost:            $0.55
Total duration (API):  6m 19.7s
Total duration (wall): 6h 33m 10.2s
Total code changes:    0 lines added, 0 lines removed

也可以在状态栏中持续显示 Context 用量：

/config → Status Line → 启用 Context Window Usage

团队费用管理

Claude API 控制台

在 platform.claude.com 可以：

设置工作区消费上限（Workspace Spend Limits）
查看费用和用量报表（按用户、按工作区）

Bedrock/Vertex/Foundry 用户

Claude Code 不向你的云端发送指标。推荐使用开源工具 LiteLLM 按 Key 追踪消费（Anthropic 不附属也未审计此项目）。

团队速率限制建议（TPM = Token Per Minute，RPM = Request Per Minute）

团队规模	每用户 TPM	每用户 RPM
1-5 人	200k-300k	5-7
5-20 人	100k-150k	2.5-3.5
20-50 人	50k-75k	1.25-1.75
50-100 人	25k-35k	0.62-0.87
100-500 人	15k-20k	0.37-0.47
500+ 人	10k-15k	0.25-0.35

团队越大，每用户分配的 TPM 越低，因为大组织中同时使用的用户比例较低。速率限制在组织层面生效，个别用户在其他人不活跃时可以使用更多配额。

示例：200 人团队，每用户 20k TPM → 总计申请 4,000,000 TPM（200 × 20,000）。

Agent Teams 的 Token 消耗

Agent Teams（多 Claude Code 实例协作）会生成多个独立的 Context 窗口，Token 使用量约是标准会话的 7 倍（Plan Mode 下）。控制成本：

用 Sonnet 运行队友（而非 Opus）
保持团队规模小
保持 Spawn 提示词聚焦
工作完成后清理团队（活跃队友即使空闲也会消耗 Token）

10 大减少 Token 使用策略

1. 主动管理 Context

bash

# 任务切换时清空 Context
/clear

# 先重命名再清空，方便后续 /resume 找回
/rename auth-refactor
/clear

# 带重点的压缩
/compact Focus on code samples and API usage

2. 选对模型

场景	推荐模型
日常编码任务	Sonnet（性价比最佳）
复杂架构决策	Opus（更强推理）
简单 Subagent 任务	Haiku（最省钱）

/model   # 会话中切换模型
/config  # 设置默认模型

Subagent 配置中指定模型：

json

{ "model": "haiku" }

3. 减少 MCP 服务器开销

每个 MCP 服务器会向每次请求添加工具定义，即使空闲也消耗 Context。

优先使用 CLI 工具：gh、aws、gcloud、sentry-cli 比 MCP 更省 Context（不添加持久工具定义）
禁用未使用的服务器：/mcp → 禁用不活跃的服务器
自动工具搜索：MCP 工具描述超过 Context 窗口的 10% 时，Claude Code 自动延迟加载（可调低阈值）：
bash
```
ENABLE_TOOL_SEARCH=auto:5 claude   # 5% 时触发
```

4. 安装代码智能插件

代码智能插件让 Claude 使用精确的符号导航，而非基于文本的搜索——一次「跳转到定义」替代了可能的多次 grep + 读取多个文件，大幅减少 Token 消耗。

5. 用 Hooks 预处理数据

Hooks 可以在 Claude 看到数据之前预处理，减少无效 Context 占用：

bash

# 示例：过滤测试输出，只保留失败行
# 原本可能数万行日志 → 只传给 Claude 数百行失败信息

json

{
  "hooks": {
    "PreToolUse": [{
      "matcher": "Bash",
      "hooks": [{
        "type": "command",
        "command": "~/.claude/hooks/filter-test-output.sh"
      }]
    }]
  }
}

6. 将详细指令从 CLAUDE.md 移入 Skills

CLAUDE.md 在每次会话开始时全量加载。如果包含只在特定工作流中才需要的详细指令（如 PR Review、数据库迁移），这些 Token 在做无关工作时也会被消耗。

将专项指令移入 Skills，只在调用时才加载。CLAUDE.md 目标控制在 500 行以内，只保留必要内容。

7. 调整扩展思考（Extended Thinking）

Extended Thinking 默认启用，预算 31,999 Token（思考 Token 按输出 Token 计费）。简单任务可降低：

bash

# 降低思考预算
MAX_THINKING_TOKENS=8000 claude

# 在 /config 中禁用扩展思考
# 或在 /model 中降低 Opus 4.6 的 effort level

8. 将冗长操作委托给 Subagents

运行测试、获取文档、处理日志文件会消耗大量 Context。委托给 Subagent，冗长输出留在 Subagent 的 Context 中，主对话只收到摘要。

9. 写精确的提示词

模糊提示 ❌	精确提示 ✅
「改进这个代码库」	「在 auth.ts 的 login 函数中添加输入验证」
「修复错误」	「修复 src/api/user.ts 第 47 行的类型错误」

模糊请求触发广泛扫描；精确请求让 Claude 以最少的文件读取高效工作。

10. 对复杂任务使用 Plan Mode

在实现前进入 Plan Mode，让 Claude 探索代码库并提出方案，审批后再执行。避免方向错误导致的昂贵返工。

后台 Token 消耗

Claude Code 在空闲时也会消耗少量 Token（通常每次会话不超过 $0.04）：

对话摘要：为 claude --resume 功能生成历史会话摘要
命令处理：/cost 等命令可能触发状态检查请求

原文：Costs - Claude Code Docs | 来源：Anthropic 官方文档

Claude Code 费用完全指南：Token 成本、团队速率限制配置与 10 大省钱策略

查看当前费用

团队费用管理

Claude API 控制台

Bedrock/Vertex/Foundry 用户

团队速率限制建议（TPM = Token Per Minute，RPM = Request Per Minute）

Agent Teams 的 Token 消耗

10 大减少 Token 使用策略

1. 主动管理 Context

2. 选对模型

3. 减少 MCP 服务器开销

4. 安装代码智能插件

5. 用 Hooks 预处理数据

6. 将详细指令从 CLAUDE.md 移入 Skills

7. 调整扩展思考（Extended Thinking）

8. 将冗长操作委托给 Subagents

9. 写精确的提示词

10. 对复杂任务使用 Plan Mode

后台 Token 消耗

相关文章推荐

查看当前费用#

团队费用管理#

Claude API 控制台#

Bedrock/Vertex/Foundry 用户#

团队速率限制建议（TPM = Token Per Minute，RPM = Request Per Minute）#

Agent Teams 的 Token 消耗#

10 大减少 Token 使用策略#

1. 主动管理 Context#

2. 选对模型#

3. 减少 MCP 服务器开销#

4. 安装代码智能插件#

5. 用 Hooks 预处理数据#

6. 将详细指令从 CLAUDE.md 移入 Skills#

7. 调整扩展思考（Extended Thinking）#

8. 将冗长操作委托给 Subagents#

9. 写精确的提示词#

10. 对复杂任务使用 Plan Mode#

后台 Token 消耗#

相关文章推荐

查看当前费用

团队费用管理

Claude API 控制台

Bedrock/Vertex/Foundry 用户

团队速率限制建议（TPM = Token Per Minute，RPM = Request Per Minute）

Agent Teams 的 Token 消耗

10 大减少 Token 使用策略

1. 主动管理 Context

2. 选对模型

3. 减少 MCP 服务器开销

4. 安装代码智能插件

5. 用 Hooks 预处理数据

6. 将详细指令从 CLAUDE.md 移入 Skills

7. 调整扩展思考（Extended Thinking）

8. 将冗长操作委托给 Subagents

9. 写精确的提示词

10. 对复杂任务使用 Plan Mode

后台 Token 消耗