Anthropic 最新发布的 Claude Opus 4.6 刷新了 AI 编程的多项基准。这篇文章从实际应用角度解读:它到底比上一代强在哪里,什么时候值得用 Opus 而不是 Sonnet?
关键数据
| 指标 | Claude Opus 4.6 | 说明 |
|---|---|---|
| 上下文窗口 | 1M Token(Beta) | Opus 系列首次 |
| SWE-bench Verified | 72.5% | 编程基准领先 |
| 多步骤任务 | 显著提升 | 长时间 Agent 任务更稳定 |
| 代码 review | 更强 | 能捕捉自己的错误 |
| 大型代码库 | 改善 | 在更大的仓库里更可靠 |
1M Token 上下文意味着什么?
之前 Claude 模型的上下文窗口是 200K Token,Opus 4.6 的 1M Token(Beta)是 5 倍扩容。
实际影响:
- 整个代码库放进去:一个中等规模的项目(几十万行代码)可以整体放入上下文,Claude 不再需要「猜测」文件之间的关系
- 长时间任务不会丢失上下文:之前做大型重构任务,后期 Claude 会「忘记」前面分析过的内容;现在整个任务历史都在窗口里
- 超长文档分析:API 文档、规格说明书、法律文件——整个放进去分析,不需要分块
注意:1M Token 目前在 Beta 阶段,成本随 Token 量线性增长,大上下文任务的费用会相应增加。
代码能力提升:SWE-bench 的含义
SWE-bench Verified 是目前最权威的 AI 编程能力评测——给模型真实的 GitHub issue,看它能自主解决多少比例(不给任何提示,完全独立)。
Opus 4.6 在 SWE-bench 上达到 72.5%,相比较:
| 模型 | SWE-bench 分数 |
|---|---|
| Claude Opus 4.6 | 72.5% |
| 业内之前最佳 | 约 50-60% |
| 人类开发者(参考) | ~86% |
这意味着 Opus 4.6 能独立解决近四分之三的真实 GitHub issue,包括那些需要理解代码库上下文、做多步骤推理的复杂 bug。
3 个关键改进
1. 计划更谨慎
上一代 Opus 有时会跳过分析直接动手,在复杂场景里导致方向错误。Opus 4.6 在执行前花更多时间分析,降低了「做了一半才发现方向错了」的概率。
2. 多步骤 Agent 任务更稳定
当你让 Claude 「从头到尾完成这个功能,包括测试和文档」时,Opus 4.6 能维持更长的任务链而不失去目标。早期模型在 10+ 步之后容易「跑偏」。
3. 自我 review 能力增强
写完代码后,Opus 4.6 能更主动地 review 自己的工作,发现潜在问题。这减少了「Claude 写完你还要反复让它改」的来回次数。
什么时候用 Opus,什么时候用 Sonnet?
| 任务类型 | 推荐模型 | 原因 |
|---|---|---|
| 大型代码库重构(>10 万行) | Opus | 大上下文,理解全局 |
| 复杂多步骤 Agent 任务 | Opus | 更稳定,不跑偏 |
| 安全 review、架构分析 | Opus | 推理更深入 |
| 日常编码、小功能实现 | Sonnet | 更快更便宜,够用 |
| 代码库探索、搜索 | Sonnet/Haiku | 简单任务不需要最强模型 |
| CI/CD 自动化 | Sonnet | 大量任务成本考虑 |
成本权衡:Opus 比 Sonnet 贵约 3-5 倍。多数日常编码任务用 Sonnet 就足够;只在真正需要 Opus 级别推理能力时才切换。
在 Claude Code 里切换模型:
/model
# 选择 claude-opus-4-6 或 claude-sonnet-4-6或者在 CLAUDE.md 里为特定任务指定模型:
# 在复杂任务开头
使用 Opus 4.6 模型完成这个重构对 Claude Code 用户的实际影响
AutoDream 更实用了:AutoDream(自主目标分解功能)需要模型在多步骤推理中保持稳定,Opus 4.6 在这方面的提升让 AutoDream 对复杂任务更可靠。
大型代码库终于有救了:之前在大型 monorepo 里使用 Claude Code,经常遇到「Claude 不记得之前分析过的部分」的问题。1M Token 上下文从根本上缓解了这个问题。
Agent Teams 更强了:多个 Claude 实例协作时,Opus 4.6 作为「队长」的规划能力比之前更强,分配任务和整合结果更准确。
可用性
- Claude Pro / Max 订阅用户:已可使用
- API 用户:通过 Anthropic API 或 Amazon Bedrock / Google Vertex 访问
- Claude Code:
/model命令切换 - 1M Token 上下文:Beta 阶段,需要在设置里开启
来源:Anthropic 官方博客 - Introducing Claude Opus 4.6 | 整理:ClaudeEagle