Claude Opus 4.6 发布：Terminal-Bench 第一，1M 上下文，Agent Teams 正式上线

Anthropic 正式发布 Claude Opus 4.6，这是迄今最强的 Opus 级模型。在编程、长上下文推理、Agent 规划等关键能力上全面跃升，同时配套推出自适应思考、上下文压缩、Agent Teams 等重磅 API 新功能。

核心性能亮点

编程能力：行业第一

Terminal-Bench 2.0：所有前沿模型中得分最高
SWE-bench Verified：25 次平均得分行业领先，特定提示下达 81.42%
Shopify、GitHub、Replit、Windsurf 等早期合作伙伴均确认：Opus 4.6 在复杂多步骤编程任务上显著优于 Opus 4.5

知识推理：全面领先

Humanity's Last Exam：所有前沿模型中得分最高（53.0%）——这是目前 AI 最难的多学科推理测试
GDPval-AA（金融、法律等经济价值知识工作）：比 GPT-5.2 高约 144 Elo 点，比 Opus 4.5 高 190 点
BigLaw Bench（法律推理）：90.2%，Claude 模型最高分
BrowseComp（在线寻找难以发现的信息）：所有模型中最高分

长上下文：质的飞跃

1M Token 上下文窗口（Beta）：Opus 系列首次
MRCR v2（1M 变体，8 针检索）：76%，而 Sonnet 4.5 仅 18.5%

这代表了一个质的转变：Opus 4.6 真正能够在百万 Token 级别的上下文中有效推理，而不仅仅是存储。

早期合作伙伴评价

Notion：「Claude Opus 4.6 是 Anthropic 迄今发布的最强模型。它能真正完成复杂请求，拆解成具体步骤执行，即使任务雄心勃勃也能产出精良工作。感觉不像工具，更像一个有能力的协作者。」

GitHub：「早期测试显示 Opus 4.6 在开发者日常面对的复杂多步骤编程工作上表现出色——尤其是需要规划和工具调用的 Agentic 工作流。开始解锁长期任务的前沿能力。」

SentinelOne：「Claude Opus 4.6 像高级工程师一样处理了一个数百万行代码库的迁移任务。提前规划，边学边调整策略，用一半的时间完成。」

Rakuten：「Claude Opus 4.6 在一天内自主关闭了 13 个 Issue，并将 12 个 Issue 分配给正确的团队成员，管理了一个约 50 人的组织跨 6 个代码库。它同时处理产品和组织决策，并知道何时上报给人类。」

Box：「在对抗性网络安全调查中，40 次测试 Opus 4.6 赢了 38 次（对比 Claude 4.5 模型）。每个模型使用同一 Agentic 框架，最多 9 个 Subagent 和 100+ 工具调用。」

API 重磅新功能

自适应思考（Adaptive Thinking）

之前只有「开启/关闭」扩展思考的二选一。现在 Claude 可以根据任务复杂度自主决定使用多少思考深度：

python

# 高 effort（默认）：Claude 自主决定何时深度思考
response = client.messages.create(
    model="claude-opus-4-6",
    max_tokens=16000,
    thinking={"type": "enabled", "budget_tokens": 10000}
)

四个 Effort 级别：low、medium、high（默认）、max

上下文压缩（Context Compaction，Beta）

长对话和 Agentic 任务经常撞上上下文窗口上限。上下文压缩在接近阈值时自动摘要并替换旧上下文，让 Claude 执行更长的任务而不中断：

python

beta_client.messages.create(
    model="claude-opus-4-6",
    betas=["context-compaction"],
    max_tokens=8096,
    system="你是一个代码助手",
    messages=[...]
)

1M Token 上下文（Beta）

可容纳整个大型代码库、长篇合同或数十篇研究论文
超过 200k Token 的 Prompt 使用高级定价（$10/$37.50 per million 输入/输出）
目前仅在 Claude Developer Platform 可用

128k 输出 Token

Opus 4.6 支持最多 128k Token 的输出，可在单次请求中完成更大输出的任务，无需分多次请求。

Claude Code 新功能

Agent Teams（实验性）：在 Claude Code 中组建多个 Agent 协同工作的团队，最适合可以并行进行的任务（如代码库审查）。可以通过 Shift+Up/Down 或 tmux 直接接管任意 Subagent。

启用方法：

json

{
  "env": {
    "CLAUDE_CODE_EXPERIMENTAL_AGENT_TEAMS": "1"
  }
}

安全性同步提升

安全性与智能同步提升，而非以安全换能力：

自动化行为审计：误对齐行为（欺骗、谄媚、鼓励用户幻觉、配合滥用）发生率低
过度拒绝率最低：在所有近期 Claude 模型中，对正常问题的错误拒绝率最低
新增 6 个网络安全探针：专门针对 Opus 4.6 增强的网络安全能力

定价与可用性

价格：与 Opus 4.5 相同，$5/$25 per million tokens（输入/输出）
可用：claude.ai、Anthropic API、AWS Bedrock、Google Cloud Vertex AI
API 名称：claude-opus-4-6

原文：Claude Opus 4.6 | 来源：Anthropic 官方博客

Claude Opus 4.6 正式发布：Terminal-Bench 第一、1M 上下文、Agent Teams 全面升级

核心性能亮点

编程能力：行业第一

知识推理：全面领先

长上下文：质的飞跃

早期合作伙伴评价

API 重磅新功能

自适应思考（Adaptive Thinking）

上下文压缩（Context Compaction，Beta）

1M Token 上下文（Beta）

128k 输出 Token

Claude Code 新功能

安全性同步提升

定价与可用性

相关文章推荐

核心性能亮点#

编程能力：行业第一#

知识推理：全面领先#

长上下文：质的飞跃#

早期合作伙伴评价#

API 重磅新功能#

自适应思考（Adaptive Thinking）#

上下文压缩（Context Compaction，Beta）#

1M Token 上下文（Beta）#

128k 输出 Token#

Claude Code 新功能#

安全性同步提升#

定价与可用性#

相关文章推荐

核心性能亮点

编程能力：行业第一

知识推理：全面领先

长上下文：质的飞跃

早期合作伙伴评价

API 重磅新功能

自适应思考（Adaptive Thinking）

上下文压缩（Context Compaction，Beta）

1M Token 上下文（Beta）

128k 输出 Token

Claude Code 新功能

安全性同步提升

定价与可用性