Anthropic 官方文档更新了 Claude Opus 4.8。它被定位为当前最强的通用可用模型,重点面向复杂推理、长程 Agent 编程和高自治工作流。
核心规格
Claude Opus 4.8 的 API model ID 是:
claude-opus-4-8主要能力:
- 默认支持 1M token context window(Claude API、Amazon Bedrock、Vertex AI;Microsoft Foundry 为 200k)
- 最大输出 128k tokens
- 支持 adaptive thinking
- 支持 Opus 4.7 的同一组平台工具和 API 能力
- 面向复杂推理、长程 Agent coding、持续工具调用场景优化
Fast Mode:更快输出但价格更高
Opus 4.8 在 Claude API 上提供 Fast mode research preview。开发者可以设置:
{
"speed": "fast"
}官方描述是:在同一模型上获得最高约 2.5 倍的 output tokens/sec,但采用 premium pricing。
适合场景:
- 编码 Agent 需要快速响应
- 交互式调试体验很重要
- 用户等待成本高于推理成本
- 长输出但不想切到能力更弱的模型
不适合:纯后台批处理、成本敏感的大规模生成。
Prompt Cache 门槛降到 1024 tokens
Opus 4.8 把可缓存 prompt 的最小长度降到 1024 tokens。此前在 Opus 4.7 上太短而无法缓存的 prompt,现在可能无需改代码就能创建 cache entry。
这对 Agent 应用很实用:
- 系统提示不需要特别长也能缓存
- 小型工具 schema 更容易命中缓存
- 多轮会话成本更低
- 长程任务的输入延迟更稳定
Mid-conversation System Messages
Opus 4.8 支持在 messages 数组中追加 role: "system" 消息,而且不需要 beta header。
这允许应用在长会话中途追加系统级指令,而不是修改顶层 system 字段。好处是:已有 prompt cache prefix 不会被破坏。
典型用途:
- Agent 运行中途增加新的策略约束
- 注入工具可用性变化
- 用户切换模式后赋予新的系统级规则
- 长会话中追加 operator-level 事实
API 兼容性注意
Opus 4.8 继承了 Opus 4.7 的部分 Messages API 约束:
- 不支持非默认
temperature、top_p、top_k - 手动 extended thinking budget 不再支持
- 应使用
thinking: {"type": "adaptive"}和effort参数控制思考深度
迁移时要检查代码中是否还在传旧的采样参数或手动 thinking budget。
对 Agent 编程的意义
官方重点提到三个改进方向:
- 长程 Agent 编程:更好的长上下文处理、更少 compaction 后跑偏
- Reasoning effort calibration:不同 effort level 下行为更稳定
- Tool triggering:更少跳过必要工具调用
这意味着 Opus 4.8 更适合做高自治代码 Agent 的“大脑”,尤其是在需要长时间读代码、调用工具、修复问题、继续执行的任务里。
来源:Anthropic 官方文档 - What's new in Claude Opus 4.8 | 整理:ClaudeEagle