Anthropic 正式发布 Claude Opus 4.6,这是迄今最强的 Opus 级模型。在编程、长上下文推理、Agent 规划等关键能力上全面跃升,同时配套推出自适应思考、上下文压缩、Agent Teams 等重磅 API 新功能。
核心性能亮点
编程能力:行业第一
- Terminal-Bench 2.0:所有前沿模型中得分最高
- SWE-bench Verified:25 次平均得分行业领先,特定提示下达 81.42%
- Shopify、GitHub、Replit、Windsurf 等早期合作伙伴均确认:Opus 4.6 在复杂多步骤编程任务上显著优于 Opus 4.5
知识推理:全面领先
- Humanity's Last Exam:所有前沿模型中得分最高(53.0%)——这是目前 AI 最难的多学科推理测试
- GDPval-AA(金融、法律等经济价值知识工作):比 GPT-5.2 高约 144 Elo 点,比 Opus 4.5 高 190 点
- BigLaw Bench(法律推理):90.2%,Claude 模型最高分
- BrowseComp(在线寻找难以发现的信息):所有模型中最高分
长上下文:质的飞跃
- 1M Token 上下文窗口(Beta):Opus 系列首次
- MRCR v2(1M 变体,8 针检索):76%,而 Sonnet 4.5 仅 18.5%
这代表了一个质的转变:Opus 4.6 真正能够在百万 Token 级别的上下文中有效推理,而不仅仅是存储。
早期合作伙伴评价
Notion:「Claude Opus 4.6 是 Anthropic 迄今发布的最强模型。它能真正完成复杂请求,拆解成具体步骤执行,即使任务雄心勃勃也能产出精良工作。感觉不像工具,更像一个有能力的协作者。」
GitHub:「早期测试显示 Opus 4.6 在开发者日常面对的复杂多步骤编程工作上表现出色——尤其是需要规划和工具调用的 Agentic 工作流。开始解锁长期任务的前沿能力。」
SentinelOne:「Claude Opus 4.6 像高级工程师一样处理了一个数百万行代码库的迁移任务。提前规划,边学边调整策略,用一半的时间完成。」
Rakuten:「Claude Opus 4.6 在一天内自主关闭了 13 个 Issue,并将 12 个 Issue 分配给正确的团队成员,管理了一个约 50 人的组织跨 6 个代码库。它同时处理产品和组织决策,并知道何时上报给人类。」
Box:「在对抗性网络安全调查中,40 次测试 Opus 4.6 赢了 38 次(对比 Claude 4.5 模型)。每个模型使用同一 Agentic 框架,最多 9 个 Subagent 和 100+ 工具调用。」
API 重磅新功能
自适应思考(Adaptive Thinking)
之前只有「开启/关闭」扩展思考的二选一。现在 Claude 可以根据任务复杂度自主决定使用多少思考深度:
# 高 effort(默认):Claude 自主决定何时深度思考
response = client.messages.create(
model="claude-opus-4-6",
max_tokens=16000,
thinking={"type": "enabled", "budget_tokens": 10000}
)四个 Effort 级别:low、medium、high(默认)、max
上下文压缩(Context Compaction,Beta)
长对话和 Agentic 任务经常撞上上下文窗口上限。上下文压缩在接近阈值时自动摘要并替换旧上下文,让 Claude 执行更长的任务而不中断:
beta_client.messages.create(
model="claude-opus-4-6",
betas=["context-compaction"],
max_tokens=8096,
system="你是一个代码助手",
messages=[...]
)1M Token 上下文(Beta)
- 可容纳整个大型代码库、长篇合同或数十篇研究论文
- 超过 200k Token 的 Prompt 使用高级定价($10/$37.50 per million 输入/输出)
- 目前仅在 Claude Developer Platform 可用
128k 输出 Token
Opus 4.6 支持最多 128k Token 的输出,可在单次请求中完成更大输出的任务,无需分多次请求。
Claude Code 新功能
Agent Teams(实验性):在 Claude Code 中组建多个 Agent 协同工作的团队,最适合可以并行进行的任务(如代码库审查)。可以通过 Shift+Up/Down 或 tmux 直接接管任意 Subagent。
启用方法:
{
"env": {
"CLAUDE_CODE_EXPERIMENTAL_AGENT_TEAMS": "1"
}
}安全性同步提升
安全性与智能同步提升,而非以安全换能力:
- 自动化行为审计:误对齐行为(欺骗、谄媚、鼓励用户幻觉、配合滥用)发生率低
- 过度拒绝率最低:在所有近期 Claude 模型中,对正常问题的错误拒绝率最低
- 新增 6 个网络安全探针:专门针对 Opus 4.6 增强的网络安全能力
定价与可用性
- 价格:与 Opus 4.5 相同,$5/$25 per million tokens(输入/输出)
- 可用:claude.ai、Anthropic API、AWS Bedrock、Google Cloud Vertex AI
- API 名称:
claude-opus-4-6
原文:Claude Opus 4.6 | 来源:Anthropic 官方博客