资讯

Claude Opus 4.6 正式发布:Terminal-Bench 第一、1M 上下文、Agent Teams 全面升级

Anthropic 发布 Claude Opus 4.6:Terminal-Bench 2.0 第一、Humanity's Last Exam 最高分、1M Token 上下文窗口。同步推出自适应思考、上下文压缩、Agent Teams 等重磅 API 功能。Notion、GitHub、SentinelOne 等 20+ 合作伙伴确认超越前代。

2026/2/284分钟 阅读ClaudeEagle

Anthropic 正式发布 Claude Opus 4.6,这是迄今最强的 Opus 级模型。在编程、长上下文推理、Agent 规划等关键能力上全面跃升,同时配套推出自适应思考、上下文压缩、Agent Teams 等重磅 API 新功能。

核心性能亮点

编程能力:行业第一

  • Terminal-Bench 2.0:所有前沿模型中得分最高
  • SWE-bench Verified:25 次平均得分行业领先,特定提示下达 81.42%
  • Shopify、GitHub、Replit、Windsurf 等早期合作伙伴均确认:Opus 4.6 在复杂多步骤编程任务上显著优于 Opus 4.5

知识推理:全面领先

  • Humanity's Last Exam:所有前沿模型中得分最高(53.0%)——这是目前 AI 最难的多学科推理测试
  • GDPval-AA(金融、法律等经济价值知识工作):比 GPT-5.2 高约 144 Elo 点,比 Opus 4.5 高 190 点
  • BigLaw Bench(法律推理):90.2%,Claude 模型最高分
  • BrowseComp(在线寻找难以发现的信息):所有模型中最高分

长上下文:质的飞跃

  • 1M Token 上下文窗口(Beta):Opus 系列首次
  • MRCR v2(1M 变体,8 针检索):76%,而 Sonnet 4.5 仅 18.5%

这代表了一个质的转变:Opus 4.6 真正能够在百万 Token 级别的上下文中有效推理,而不仅仅是存储。

早期合作伙伴评价

Notion:「Claude Opus 4.6 是 Anthropic 迄今发布的最强模型。它能真正完成复杂请求,拆解成具体步骤执行,即使任务雄心勃勃也能产出精良工作。感觉不像工具,更像一个有能力的协作者。」

GitHub:「早期测试显示 Opus 4.6 在开发者日常面对的复杂多步骤编程工作上表现出色——尤其是需要规划和工具调用的 Agentic 工作流。开始解锁长期任务的前沿能力。」

SentinelOne:「Claude Opus 4.6 像高级工程师一样处理了一个数百万行代码库的迁移任务。提前规划,边学边调整策略,用一半的时间完成。」

Rakuten:「Claude Opus 4.6 在一天内自主关闭了 13 个 Issue,并将 12 个 Issue 分配给正确的团队成员,管理了一个约 50 人的组织跨 6 个代码库。它同时处理产品和组织决策,并知道何时上报给人类。」

Box:「在对抗性网络安全调查中,40 次测试 Opus 4.6 赢了 38 次(对比 Claude 4.5 模型)。每个模型使用同一 Agentic 框架,最多 9 个 Subagent 和 100+ 工具调用。」

API 重磅新功能

自适应思考(Adaptive Thinking)

之前只有「开启/关闭」扩展思考的二选一。现在 Claude 可以根据任务复杂度自主决定使用多少思考深度:

python
# 高 effort(默认):Claude 自主决定何时深度思考
response = client.messages.create(
    model="claude-opus-4-6",
    max_tokens=16000,
    thinking={"type": "enabled", "budget_tokens": 10000}
)

四个 Effort 级别:lowmediumhigh(默认)、max

上下文压缩(Context Compaction,Beta)

长对话和 Agentic 任务经常撞上上下文窗口上限。上下文压缩在接近阈值时自动摘要并替换旧上下文,让 Claude 执行更长的任务而不中断:

python
beta_client.messages.create(
    model="claude-opus-4-6",
    betas=["context-compaction"],
    max_tokens=8096,
    system="你是一个代码助手",
    messages=[...]
)

1M Token 上下文(Beta)

  • 可容纳整个大型代码库、长篇合同或数十篇研究论文
  • 超过 200k Token 的 Prompt 使用高级定价($10/$37.50 per million 输入/输出)
  • 目前仅在 Claude Developer Platform 可用

128k 输出 Token

Opus 4.6 支持最多 128k Token 的输出,可在单次请求中完成更大输出的任务,无需分多次请求。

Claude Code 新功能

Agent Teams(实验性):在 Claude Code 中组建多个 Agent 协同工作的团队,最适合可以并行进行的任务(如代码库审查)。可以通过 Shift+Up/Down 或 tmux 直接接管任意 Subagent。

启用方法:

json
{
  "env": {
    "CLAUDE_CODE_EXPERIMENTAL_AGENT_TEAMS": "1"
  }
}

安全性同步提升

安全性与智能同步提升,而非以安全换能力:

  • 自动化行为审计:误对齐行为(欺骗、谄媚、鼓励用户幻觉、配合滥用)发生率低
  • 过度拒绝率最低:在所有近期 Claude 模型中,对正常问题的错误拒绝率最低
  • 新增 6 个网络安全探针:专门针对 Opus 4.6 增强的网络安全能力

定价与可用性

  • 价格:与 Opus 4.5 相同,$5/$25 per million tokens(输入/输出)
  • 可用:claude.ai、Anthropic API、AWS Bedrock、Google Cloud Vertex AI
  • API 名称claude-opus-4-6

原文:Claude Opus 4.6 | 来源:Anthropic 官方博客

相关文章推荐

资讯Claude Opus 4.6 深度解析:Anthropic 最强旗舰、Agent Teams 与 Adaptive ThinkingClaude Opus 4.6 完整解析:Terminal-Bench 2.0 全球第一、Humanity's Last Exam 第一、GDPval-AA 超 GPT-5.2 144 Elo、首个 Opus 1M Token 上下文、Claude Code Agent Teams(并行子任务团队)、Adaptive Thinking 自适应思考、Effort 参数控制、Context Compaction,附 Sonnet 4.6 vs Opus 4.6 选型对比表。2026/3/28资讯Claude Opus 4.7 正式发布:编程能力大幅提升,CursorBench 得分 70% vs Opus 4.6 的 58%Claude Opus 4.7 发布详解:CursorBench 得分从 58% 跳至 70%,Rakuten 生产任务解决数 3×,XBOW 视觉精度从 54.5% 跳至 98.5%。覆盖新增 xhigh 努力级别、/ultrareview 命令、Auto Mode 扩展,以及从 Opus 4.6 迁移的 Token 使用变化注意事项。2026/4/22资讯Claude Opus 4.6 深度解析:1M Token 上下文、SWE-bench 72.5%,AI 编程进入新阶段Claude Opus 4.6 深度解析:1M Token 上下文(Beta)、SWE-bench 72.5%,三大改进(谨慎计划/多步骤稳定/自我 review),以及何时选 Opus 而不是 Sonnet 的成本与性能权衡。2026/4/12资讯Claude Sonnet 4.6 正式发布:编程能力大幅提升,1M 上下文窗口上线Anthropic 发布 Claude Sonnet 4.6,编程能力全面跃升,在 Claude Code 中 70% 的用户更偏好它而非 Sonnet 4.5,OSWorld 计算机使用得分从 15% 飙升至 72.5%,同时带来 1M Token 上下文窗口、自适应思考和上下文压缩等新功能。2026/2/28资讯Anthropic 官方复盘:Claude Code 质量下降事件的三个真实原因(2026 年 4 月)Anthropic 在 4 月 23 日发布罕见的工程透明公告,详解过去一个月 Claude Code 变笨、失忆、额度消耗异常的三个独立根因:推理努力等级悄悄从 high 降到 medium、缓存 Bug 导致推理历史每轮丢失、减少冗长的 System Prompt 修改影响编程质量。所有问题已于 4 月 20 日修复,向所有用户重置使用额度。2026/4/26资讯Claude Code 桌面版全面重设计:多 Session 并行工作 + Routines 云端自动化详解2026 年 4 月 14 日 Anthropic 重磅发布:Claude Code 桌面应用全面重设计(支持多 Session 并行)+ Routines 云端自动化功能研究预览。从 AI 编程工具升级为 AI 运营平台的关键一步,含 Code Tab、Routines 使用方法和典型场景。2026/4/16