教程

Claude Prompt Caching 完整指南:降低长上下文成本与延迟的 API 实战

Claude Prompt Caching 官方能力中文整理:适合缓存的内容、cache_control 使用方法、缓存断点策略、长文档和工具定义复用、成本/延迟收益、常见坑和生产环境落地建议。

2026/5/213分钟 阅读ClaudeEagle

Prompt Caching 是 Claude API 中最重要的成本优化能力之一。它允许你把长系统提示、背景文档、工具定义、few-shot 示例等稳定内容缓存起来,后续请求只需要支付更低的读取成本,并减少首 token 延迟。


它解决什么问题?

很多生产级 Claude 应用都有大量重复上下文:

  • 长系统提示和角色规则
  • 产品文档、API 文档、规范说明
  • 大量 few-shot 示例
  • 工具 schema 和 MCP 工具说明
  • RAG 检索后反复使用的同一批资料

如果每次请求都完整发送这些内容,成本和延迟都会很高。Prompt Caching 的思路是:稳定内容只写入一次,后续请求命中缓存。


基本用法

在内容块上加 cache_control

json
{
  "type": "text",
  "text": "这里是很长、会重复使用的上下文...",
  "cache_control": { "type": "ephemeral" }
}

典型请求结构:

json
{
  "model": "claude-opus-4-7",
  "max_tokens": 1024,
  "system": [
    {
      "type": "text",
      "text": "长系统提示和团队规范...",
      "cache_control": { "type": "ephemeral" }
    }
  ],
  "messages": [
    { "role": "user", "content": "请基于上述规范生成接口文档" }
  ]
}

第一次请求写入缓存,后续相同前缀内容可以复用。


适合缓存什么?

适合:

  • 系统提示
  • 团队编码规范
  • API 文档
  • 产品规格说明
  • 大型工具 schema
  • few-shot 示例
  • 用户会反复查询的长文档

不适合:

  • 每次都会变化的用户问题
  • 当前时间、临时状态、一次性变量
  • 包含短期敏感数据的内容
  • 过短内容,收益不明显

缓存断点设计

缓存命中依赖前缀匹配。稳定内容应该放在前面,变化内容放在后面。

推荐顺序:

  1. 系统规则
  2. 长文档/知识库片段
  3. 工具定义
  4. few-shot 示例
  5. 本次用户问题

如果把用户问题放在中间,会破坏后续内容的缓存命中。


与工具调用的关系

工具 schema 也会消耗 token,尤其是工具很多、参数复杂时。对于长期不变的工具定义,Prompt Caching 可以减少重复成本。

Agent 应用中常见结构:

  • 缓存:系统提示、工具定义、业务规则
  • 不缓存:当前任务、工具结果、最新状态

这样可以让多轮 Agent 循环更稳定,也更便宜。


生产最佳实践

  • 把稳定内容放在请求最前面
  • 不要把时间戳、随机 ID 放进缓存区域
  • 对文档内容做版本化,文档变更时自然刷新缓存
  • 监控 cache_creation_input_tokenscache_read_input_tokens
  • 大型工具 schema 尽量稳定,不要动态重排字段
  • 和 Citations、Batch Processing 组合使用时,优先缓存大文档

适合场景

  • 企业知识库问答
  • 代码库级别 AI 助手
  • 文档审查和合规分析
  • 多工具 Agent 平台
  • 长系统提示的客服/销售助手
  • 需要反复读取同一 PDF 或规范的应用

来源:Anthropic 官方文档 - Prompt caching | 整理:ClaudeEagle

相关文章推荐

教程Claude Batch Processing 完整指南:批量处理任务如何节省 50% API 成本Claude Batch Processing 官方能力中文整理:为什么批处理能省钱、如何创建 batch、custom_id 设计、轮询状态、下载结果、处理失败请求,以及适合大规模分类、摘要、翻译、数据清洗的任务模式。2026/5/21教程Claude Haiku 4 完全使用指南:高速低成本模型适合哪些场景?(2026)Claude Haiku 4 完整使用指南:Haiku 在三档模型中的定位($0.80/$4 每百万 Token)、最适合的 5 类场景(批量分类/实时对话/结构化提取/代码片段/内容审核)、与 Sonnet/Opus 的选型对比表、生产环境混合策略(动态模型选择降低 40-60% 成本),附 Claude Code 中使用 Haiku 批量处理的命令示例。2026/3/28教程Anthropic Claude SDK Java 完全接入指南:Java/Spring Boot 调用 Claude API(2026)Anthropic 官方 Java SDK 完整使用指南:Maven/Gradle 安装、基础消息调用、流式输出(Streaming/SSE)、Spring Boot 集成(@Bean/@Service/REST API)、多轮对话状态管理、异步调用(CompletableFuture 并发)、Spring WebFlux 流式 SSE 接口,覆盖 Claude Sonnet/Haiku 全系列模型,附企业级生产代码示例。2026/3/27教程Anthropic Claude SDK Go 完全接入指南:Go 语言调用 Claude API 实战(2026)Anthropic 官方 Go SDK 完整使用指南:安装配置、基础消息调用、流式输出(Streaming)、多轮对话状态管理、System Prompt 设置、并发批量调用(信号量控制并发/Rate Limit)、图片视觉理解(Vision/Base64)、错误处理与自动重试,覆盖 Claude Sonnet/Haiku 全系列模型,附生产级代码示例。2026/3/27教程Anthropic Node.js SDK 完全指南:TypeScript/JavaScript 接入 Claude APIAnthropic 官方 Node.js SDK(@anthropic-ai/sdk)完整教程:安装与初始化、基础对话调用、流式输出(stream)、图像输入(Base64/URL)、Tool Use 函数调用、系统提示、消息历史管理、Prompt Caching 配置、错误处理最佳实践(指数退避重试),以及 TypeScript 类型系统深度使用,适合 Node.js / Next.js / NestJS 开发者快速上手。2026/3/20教程Claude Citations 完整指南:让 AI 回答带可验证引用,适合 RAG 与文档问答Claude Citations 官方能力中文整理:如何启用 citations.enabled、支持的文档类型、PDF 页码引用、文本字符索引、custom content block 索引、RAG chunk 粒度控制、与 Prompt Caching 兼容性和 Structured Outputs 不兼容限制。2026/5/21