Claude Code 成本控制指南：10 个降低 Token 消耗策略与团队用量管理

成本基准数据

在了解优化策略前，先看官方给出的成本参考：

个人平均：每开发者每天约 $6
90% 用户上限：每天不超过 $12
团队月均：使用 Sonnet 4.6 时约 $100-200/开发者/月（实际差异较大，取决于并发实例数量）

追踪你的成本

/cost 命令

bash

> /cost

Total cost:            $0.55
Total duration (API):  6m 19.7s
Total duration (wall): 6h 33m 10.2s
Total code changes:    0 lines added, 0 lines removed

注意：Claude Max 和 Pro 订阅用户的 /cost 数据与计费无关（使用量已包含在订阅中）。订阅用户可使用 /stats 查看使用模式。

实时上下文监控

配置状态栏持续显示上下文使用量：在 /config 中开启 contextWindowUsage 显示。这是防止上下文爆满、提前采取措施的最有效方法。

团队成本管理

设置工作区支出上限

API 用户可在 Claude Console 中为工作区设置总支出上限。管理员可查看详细的成本和使用报告。

团队速率限制建议

团队规模	每用户 TPM	每用户 RPM
1-5 人	20-30 万	5-7
5-20 人	10-15 万	2.5-3.5
20-50 人	5-7.5 万	1.25-1.75
50-100 人	2.5-3.5 万	0.62-0.87
100-500 人	1.5-2 万	0.37-0.47
500+ 人	1-1.5 万	0.25-0.35

关键逻辑：团队越大，每人分配的 TPM 越少，因为大型团队中同时使用 Claude Code 的用户比例较低。速率限制在组织层面生效，用户可以在其他人不活跃时临时使用更多配额。

Agent Teams 的额外成本

Agent Teams 运行多个独立的 Claude Code 实例，每个有自己的上下文窗口。在计划模式下运行时，Token 消耗约为标准会话的 7 倍。

管理 Agent Teams 成本的建议：

队友使用 Sonnet（而不是 Opus）
保持团队规模小
保持启动 Prompt 聚焦（减少初始上下文）
完成后立即清理团队（空闲队友仍消耗 Token）

10 个降低 Token 消耗的策略

策略 1：主动管理上下文

bash

# 切换不相关任务时清空上下文
> /clear

# 清空前先命名会话，方便后续恢复
> /rename "认证模块重构"
> /clear

# 自定义压缩指令
> /compact 专注保留代码示例和 API 用法

也可在 CLAUDE.md 中定制压缩行为：

markdown

# 压缩指令
压缩时，请重点保留测试输出和代码变更

策略 2：按任务选择合适模型

bash

# 会话中切换模型
> /model

场景	推荐模型
日常编程、Bug 修复	Sonnet（成本效益最佳）
复杂架构决策、多步推理	Opus
简单 Subagent 任务	Haiku

策略 3：减少 MCP 服务器开销

每个 MCP 服务器都会把工具定义加入上下文，即使它们处于空闲状态：

bash

# 查看上下文占用情况
> /context

# 禁用未使用的服务器
> /mcp

优先使用 CLI 工具：gh、aws、gcloud、sentry-cli 比 MCP 服务器更省上下文，因为它们不添加持久性工具定义。

自动工具搜索：当 MCP 工具描述超过上下文的 10%，Claude Code 自动延迟加载，按需获取。可调低阈值：ENABLE_TOOL_SEARCH=auto:5（工具超过 5% 时触发）。

策略 4：安装代码智能插件

代码智能插件给 Claude 提供精确的符号导航（跳转到定义、查找引用），替代低效的文本搜索。一次「跳转到定义」能替代 grep + 读取多个候选文件的组合操作。

策略 5：用 Hook 预处理数据

Hook 可以在 Claude 看到数据前先过滤它，大幅减少需要处理的 Token：

bash

# 示例：过滤测试输出，只保留失败信息
# 把 10,000 行日志过滤成几百行错误信息

json

{
  "hooks": {
    "PreToolUse": [{
      "matcher": "Bash",
      "hooks": [{
        "type": "command",
        "command": "~/.claude/hooks/filter-test-output.sh"
      }]
    }]
  }
}

策略 6：将详细指令从 CLAUDE.md 移到 Skills

CLAUDE.md 在每次会话开始时加载，即使你在做完全无关的工作。

规则：CLAUDE.md 只保留核心配置（目标 < 500 行）。将专属工作流（PR 审查、数据库迁移等）的详细指令移到 Skills，按需加载。

策略 7：调整扩展思考

扩展思考默认开启（预算 31,999 Token），显著提升复杂任务性能，但思考 Token 按输出计费：

bash

# 简单任务降低 Effort 级别
> /model  # 调整 Opus 4.6 的 effort 级别

# 或关闭思考
> /config  # 禁用 thinking

# 降低思考预算
export MAX_THINKING_TOKENS=8000

策略 8：将冗长操作委托给 Subagent

运行测试、获取文档、处理日志文件会产生大量输出。把这些委托给 Subagent，冗长输出留在 Subagent 的上下文中，只有摘要返回主对话：

> 用 subagent 运行完整测试套件并报告失败的测试

策略 9：写具体的 Prompt

❌ 低效	✅ 高效
「改进这个代码库」	「为 auth.ts 中的 login 函数添加输入验证」
「检查一下代码」	「检查 payment.ts 中是否有 SQL 注入风险」

模糊请求触发大范围扫描，具体请求让 Claude 高效工作，最小化文件读取。

策略 10：复杂任务的工作习惯

bash

# 实现前先规划（Plan Mode）
> [按 Shift+Tab 进入 Plan Mode]

# 及时纠偏
> [按 Escape 停止] → [/rewind 回滚到检查点]

# 给出验证目标（减少来回修正）
> 实现这个功能，使用这些测试用例验证：[粘贴测试]

# 增量测试
# 写一个文件，测试，再继续——早期发现问题成本低

背景 Token 消耗

即使空闲，Claude Code 也会消耗少量 Token：

会话摘要（为 claude --resume 功能）
状态检查命令（如 /cost）

金额：通常每次会话低于 $0.04，可忽略不计。

原文：Manage costs effectively - Claude Code Docs | 来源：Claude Code 官方文档

Claude Code 成本控制官方指南：从追踪用量到降低 Token 消耗的 10 个策略

成本基准数据

追踪你的成本

/cost 命令

实时上下文监控

团队成本管理

设置工作区支出上限

团队速率限制建议

Agent Teams 的额外成本

10 个降低 Token 消耗的策略

策略 1：主动管理上下文

策略 2：按任务选择合适模型

策略 3：减少 MCP 服务器开销

策略 4：安装代码智能插件

策略 5：用 Hook 预处理数据

策略 6：将详细指令从 CLAUDE.md 移到 Skills

策略 7：调整扩展思考

策略 8：将冗长操作委托给 Subagent

策略 9：写具体的 Prompt

策略 10：复杂任务的工作习惯

背景 Token 消耗

相关文章推荐

成本基准数据#

追踪你的成本#

/cost 命令#

实时上下文监控#

团队成本管理#

设置工作区支出上限#

团队速率限制建议#

Agent Teams 的额外成本#

10 个降低 Token 消耗的策略#

策略 1：主动管理上下文#

策略 2：按任务选择合适模型#

策略 3：减少 MCP 服务器开销#

策略 4：安装代码智能插件#

策略 5：用 Hook 预处理数据#

策略 6：将详细指令从 CLAUDE.md 移到 Skills#

策略 7：调整扩展思考#

策略 8：将冗长操作委托给 Subagent#

策略 9：写具体的 Prompt#

策略 10：复杂任务的工作习惯#

背景 Token 消耗#

相关文章推荐

成本基准数据

追踪你的成本

/cost 命令

实时上下文监控

团队成本管理

设置工作区支出上限

团队速率限制建议

Agent Teams 的额外成本

10 个降低 Token 消耗的策略

策略 1：主动管理上下文

策略 2：按任务选择合适模型

策略 3：减少 MCP 服务器开销

策略 4：安装代码智能插件

策略 5：用 Hook 预处理数据

策略 6：将详细指令从 CLAUDE.md 移到 Skills

策略 7：调整扩展思考

策略 8：将冗长操作委托给 Subagent

策略 9：写具体的 Prompt

策略 10：复杂任务的工作习惯

背景 Token 消耗