资讯

Claude Opus 4.6 深度解析:1M Token 上下文、SWE-bench 72.5%,AI 编程进入新阶段

Claude Opus 4.6 深度解析:1M Token 上下文(Beta)、SWE-bench 72.5%,三大改进(谨慎计划/多步骤稳定/自我 review),以及何时选 Opus 而不是 Sonnet 的成本与性能权衡。

2026/4/124分钟 阅读ClaudeEagle

Anthropic 最新发布的 Claude Opus 4.6 刷新了 AI 编程的多项基准。这篇文章从实际应用角度解读:它到底比上一代强在哪里,什么时候值得用 Opus 而不是 Sonnet?


关键数据

指标Claude Opus 4.6说明
上下文窗口1M Token(Beta)Opus 系列首次
SWE-bench Verified72.5%编程基准领先
多步骤任务显著提升长时间 Agent 任务更稳定
代码 review更强能捕捉自己的错误
大型代码库改善在更大的仓库里更可靠

1M Token 上下文意味着什么?

之前 Claude 模型的上下文窗口是 200K Token,Opus 4.6 的 1M Token(Beta)是 5 倍扩容。

实际影响

  • 整个代码库放进去:一个中等规模的项目(几十万行代码)可以整体放入上下文,Claude 不再需要「猜测」文件之间的关系
  • 长时间任务不会丢失上下文:之前做大型重构任务,后期 Claude 会「忘记」前面分析过的内容;现在整个任务历史都在窗口里
  • 超长文档分析:API 文档、规格说明书、法律文件——整个放进去分析,不需要分块

注意:1M Token 目前在 Beta 阶段,成本随 Token 量线性增长,大上下文任务的费用会相应增加。


代码能力提升:SWE-bench 的含义

SWE-bench Verified 是目前最权威的 AI 编程能力评测——给模型真实的 GitHub issue,看它能自主解决多少比例(不给任何提示,完全独立)。

Opus 4.6 在 SWE-bench 上达到 72.5%,相比较:

模型SWE-bench 分数
Claude Opus 4.672.5%
业内之前最佳约 50-60%
人类开发者(参考)~86%

这意味着 Opus 4.6 能独立解决近四分之三的真实 GitHub issue,包括那些需要理解代码库上下文、做多步骤推理的复杂 bug。


3 个关键改进

1. 计划更谨慎

上一代 Opus 有时会跳过分析直接动手,在复杂场景里导致方向错误。Opus 4.6 在执行前花更多时间分析,降低了「做了一半才发现方向错了」的概率。

2. 多步骤 Agent 任务更稳定

当你让 Claude 「从头到尾完成这个功能,包括测试和文档」时,Opus 4.6 能维持更长的任务链而不失去目标。早期模型在 10+ 步之后容易「跑偏」。

3. 自我 review 能力增强

写完代码后,Opus 4.6 能更主动地 review 自己的工作,发现潜在问题。这减少了「Claude 写完你还要反复让它改」的来回次数。


什么时候用 Opus,什么时候用 Sonnet?

任务类型推荐模型原因
大型代码库重构(>10 万行)Opus大上下文,理解全局
复杂多步骤 Agent 任务Opus更稳定,不跑偏
安全 review、架构分析Opus推理更深入
日常编码、小功能实现Sonnet更快更便宜,够用
代码库探索、搜索Sonnet/Haiku简单任务不需要最强模型
CI/CD 自动化Sonnet大量任务成本考虑

成本权衡:Opus 比 Sonnet 贵约 3-5 倍。多数日常编码任务用 Sonnet 就足够;只在真正需要 Opus 级别推理能力时才切换。

在 Claude Code 里切换模型:

bash
/model
# 选择 claude-opus-4-6 或 claude-sonnet-4-6

或者在 CLAUDE.md 里为特定任务指定模型:

markdown
# 在复杂任务开头
使用 Opus 4.6 模型完成这个重构

对 Claude Code 用户的实际影响

AutoDream 更实用了:AutoDream(自主目标分解功能)需要模型在多步骤推理中保持稳定,Opus 4.6 在这方面的提升让 AutoDream 对复杂任务更可靠。

大型代码库终于有救了:之前在大型 monorepo 里使用 Claude Code,经常遇到「Claude 不记得之前分析过的部分」的问题。1M Token 上下文从根本上缓解了这个问题。

Agent Teams 更强了:多个 Claude 实例协作时,Opus 4.6 作为「队长」的规划能力比之前更强,分配任务和整合结果更准确。


可用性

  • Claude Pro / Max 订阅用户:已可使用
  • API 用户:通过 Anthropic API 或 Amazon Bedrock / Google Vertex 访问
  • Claude Code:/model 命令切换
  • 1M Token 上下文:Beta 阶段,需要在设置里开启

来源:Anthropic 官方博客 - Introducing Claude Opus 4.6 | 整理:ClaudeEagle

相关文章推荐

资讯Claude Opus 4.6 深度解析:Anthropic 最强旗舰、Agent Teams 与 Adaptive ThinkingClaude Opus 4.6 完整解析:Terminal-Bench 2.0 全球第一、Humanity's Last Exam 第一、GDPval-AA 超 GPT-5.2 144 Elo、首个 Opus 1M Token 上下文、Claude Code Agent Teams(并行子任务团队)、Adaptive Thinking 自适应思考、Effort 参数控制、Context Compaction,附 Sonnet 4.6 vs Opus 4.6 选型对比表。2026/3/28资讯Claude Opus 4.6 正式发布:Terminal-Bench 第一、1M 上下文、Agent Teams 全面升级Anthropic 发布 Claude Opus 4.6:Terminal-Bench 2.0 第一、Humanity's Last Exam 最高分、1M Token 上下文窗口。同步推出自适应思考、上下文压缩、Agent Teams 等重磅 API 功能。Notion、GitHub、SentinelOne 等 20+ 合作伙伴确认超越前代。2026/2/28资讯Anthropic 2026 年 Q1 回顾:Claude 4 系列、300 亿营收、Agent 生态爆发Anthropic 2026 年 Q1 全面回顾:年化营收突破 300 亿美元,Claude 4 系列全面铺开,Claude Code 功能爆发性增长。含关键数据和行业分析。2026/4/7资讯Anthropic 与 Google、Broadcom 签署多吉瓦级算力协议,年营收突破 300 亿美元Anthropic 与 Google、Broadcom 达成多吉瓦级算力协议,年营收突破 300 亿美元,千家企业客户年消费超百万。Claude 仍是唯一三大云平台同时可用的前沿 AI 模型。2026/4/7资讯Claude for Excel 与 PowerPoint 完全指南:AI 直接在 Office 里工作(2026)Anthropic 2026年推出的 Claude for Excel 与 Claude for PowerPoint 完整使用指南:Claude for Excel 核心功能(自然语言写公式/数据分析/图表生成/异常检测)、Claude for PowerPoint 核心功能(一句话生成完整 PPT/自动美化排版/根据数据生成图表/演讲备注生成)、安装方式(Office 加载项)、与 Google Sheets/Slides 的对比,以及两款产品的适用场景和定价方案。2026/4/1资讯Claude Cowork 完全使用指南:把繁琐知识工作交给 AI 代理自主执行(2026)Claude Cowork 完整使用指南:Cowork 与 Claude.ai 对话/Claude Code 的定位对比、核心功能详解(自主任务执行/Computer Use操控电脑/Dispatch手机远程分配/跨会话持久记忆)、三大典型场景(竞品分析/财务报表/邮件批量处理)、访问方式与计划要求,基于 2026 年 3 月 Anthropic 最新发布。2026/3/30