Claude Opus 4.6 深度解析：1M Token 上下文、SWE-bench 72.5% AI 编程新基准

Anthropic 最新发布的 Claude Opus 4.6 刷新了 AI 编程的多项基准。这篇文章从实际应用角度解读：它到底比上一代强在哪里，什么时候值得用 Opus 而不是 Sonnet？

关键数据

指标	Claude Opus 4.6	说明
上下文窗口	1M Token（Beta）	Opus 系列首次
SWE-bench Verified	72.5%	编程基准领先
多步骤任务	显著提升	长时间 Agent 任务更稳定
代码 review	更强	能捕捉自己的错误
大型代码库	改善	在更大的仓库里更可靠

1M Token 上下文意味着什么？

之前 Claude 模型的上下文窗口是 200K Token，Opus 4.6 的 1M Token（Beta）是 5 倍扩容。

实际影响：

整个代码库放进去：一个中等规模的项目（几十万行代码）可以整体放入上下文，Claude 不再需要「猜测」文件之间的关系
长时间任务不会丢失上下文：之前做大型重构任务，后期 Claude 会「忘记」前面分析过的内容；现在整个任务历史都在窗口里
超长文档分析：API 文档、规格说明书、法律文件——整个放进去分析，不需要分块

注意：1M Token 目前在 Beta 阶段，成本随 Token 量线性增长，大上下文任务的费用会相应增加。

代码能力提升：SWE-bench 的含义

SWE-bench Verified 是目前最权威的 AI 编程能力评测——给模型真实的 GitHub issue，看它能自主解决多少比例（不给任何提示，完全独立）。

Opus 4.6 在 SWE-bench 上达到 72.5%，相比较：

模型	SWE-bench 分数
Claude Opus 4.6	72.5%
业内之前最佳	约 50-60%
人类开发者（参考）	~86%

这意味着 Opus 4.6 能独立解决近四分之三的真实 GitHub issue，包括那些需要理解代码库上下文、做多步骤推理的复杂 bug。

3 个关键改进

1. 计划更谨慎

上一代 Opus 有时会跳过分析直接动手，在复杂场景里导致方向错误。Opus 4.6 在执行前花更多时间分析，降低了「做了一半才发现方向错了」的概率。

2. 多步骤 Agent 任务更稳定

当你让 Claude 「从头到尾完成这个功能，包括测试和文档」时，Opus 4.6 能维持更长的任务链而不失去目标。早期模型在 10+ 步之后容易「跑偏」。

3. 自我 review 能力增强

写完代码后，Opus 4.6 能更主动地 review 自己的工作，发现潜在问题。这减少了「Claude 写完你还要反复让它改」的来回次数。

什么时候用 Opus，什么时候用 Sonnet？

任务类型	推荐模型	原因
大型代码库重构（>10 万行）	Opus	大上下文，理解全局
复杂多步骤 Agent 任务	Opus	更稳定，不跑偏
安全 review、架构分析	Opus	推理更深入
日常编码、小功能实现	Sonnet	更快更便宜，够用
代码库探索、搜索	Sonnet/Haiku	简单任务不需要最强模型
CI/CD 自动化	Sonnet	大量任务成本考虑

成本权衡：Opus 比 Sonnet 贵约 3-5 倍。多数日常编码任务用 Sonnet 就足够；只在真正需要 Opus 级别推理能力时才切换。

在 Claude Code 里切换模型：

bash

/model
# 选择 claude-opus-4-6 或 claude-sonnet-4-6

或者在 CLAUDE.md 里为特定任务指定模型：

markdown

# 在复杂任务开头
使用 Opus 4.6 模型完成这个重构

对 Claude Code 用户的实际影响

AutoDream 更实用了：AutoDream（自主目标分解功能）需要模型在多步骤推理中保持稳定，Opus 4.6 在这方面的提升让 AutoDream 对复杂任务更可靠。

大型代码库终于有救了：之前在大型 monorepo 里使用 Claude Code，经常遇到「Claude 不记得之前分析过的部分」的问题。1M Token 上下文从根本上缓解了这个问题。

Agent Teams 更强了：多个 Claude 实例协作时，Opus 4.6 作为「队长」的规划能力比之前更强，分配任务和整合结果更准确。

可用性

Claude Pro / Max 订阅用户：已可使用
API 用户：通过 Anthropic API 或 Amazon Bedrock / Google Vertex 访问
Claude Code：/model 命令切换
1M Token 上下文：Beta 阶段，需要在设置里开启

来源：Anthropic 官方博客 - Introducing Claude Opus 4.6 | 整理：ClaudeEagle

Claude Opus 4.6 深度解析：1M Token 上下文、SWE-bench 72.5%，AI 编程进入新阶段

关键数据

1M Token 上下文意味着什么？

代码能力提升：SWE-bench 的含义

3 个关键改进

1. 计划更谨慎

2. 多步骤 Agent 任务更稳定

3. 自我 review 能力增强

什么时候用 Opus，什么时候用 Sonnet？

对 Claude Code 用户的实际影响

可用性

相关文章推荐

关键数据#

1M Token 上下文意味着什么？#

代码能力提升：SWE-bench 的含义#

3 个关键改进#

1. 计划更谨慎#

2. 多步骤 Agent 任务更稳定#

3. 自我 review 能力增强#

什么时候用 Opus，什么时候用 Sonnet？#

对 Claude Code 用户的实际影响#

可用性#

相关文章推荐

关键数据

1M Token 上下文意味着什么？

代码能力提升：SWE-bench 的含义

3 个关键改进

1. 计划更谨慎

2. 多步骤 Agent 任务更稳定

3. 自我 review 能力增强

什么时候用 Opus，什么时候用 Sonnet？

对 Claude Code 用户的实际影响

可用性