Claude Opus 4.7 正式发布 2026：编程能力大幅提升，CursorBench 70% 对比 Opus 4.6 的 58%

Anthropic 正式发布 Claude Opus 4.7，这是 Opus 系列迄今为止最强的编程和 Agent 模型。多个早期测试伙伴均报告显著的能力跃升，特别是在复杂代码任务、长时间自主运行和视觉理解方面。

核心性能数据

各合作伙伴内部测试数据：

测试方	测试场景	Opus 4.7 vs Opus 4.6
Cursor	CursorBench 编程评测	70% vs 58%（+12pp）
Rakuten	生产 SWE-Bench	解决任务数 3×
Notion Agent	复杂多步骤工作流	准确率 +14%，工具调用错误 -33%
Factory Droids	企业工程任务	成功率 +10-15%
CodeRabbit	代码审查 Recall	+10%，精确率保持稳定
XBOW 视觉精度	计算机使用 Agent	98.5% vs 54.5%（+44pp！）
Bolt	长时间 App 构建	最高 +10%，无明显退步
Harvey (法律)	BigLaw Bench	正确率 90.9%

主要改进方向

1. 软件工程能力

Opus 4.7 对最难的编程任务提升最大。用户反映，以前需要密切监督的硬核编码工作，现在可以放心交给 Opus 4.7 独立完成。

关键改进：

规划阶段自我纠错：在动手之前发现自己推理中的逻辑错误
Rust TTS 案例：自主构建完整的 Rust 文字转语音引擎（包含神经模型、SIMD 内核和浏览器 Demo），完成后用语音识别器自我验证输出，"几个月的高级工程师工作，自主交付"
循环抵抗：更少陷入无限工具调用循环，生产稳定性提升
验证步骤：更可靠地执行完整的验证流程，不再中途放弃

2. 视觉理解大幅提升

Opus 4.7 支持更高分辨率的图像输入：

最大输入分辨率：2,576 像素（长边），约 3.75 百万像素
对比 Opus 4.6：提升超过 3 倍
应用场景：
- 计算机使用 Agent 读取密集截图（XBOW 视觉精度从 54.5% 跳到 98.5%）
- 从复杂图表和技术图纸中提取数据
- 生命科学专利工作流（化学结构识别）
- 像素级精确的界面参考

3. 更好的指令遵循

Opus 4.7 更严格地按照指令执行。注意：这意味着为旧模型写的 Prompt 可能需要调整——以前模型会"宽松解释"或跳过的指令，Opus 4.7 会字面执行。

4. 文件系统记忆

Opus 4.7 更善于利用文件系统做跨 Session 记忆：

在长时间多 Session 工作中记住重要笔记
用保存的上下文减少每次新任务的启动时间

新功能：/ultrareview 命令

随 Opus 4.7 发布的新 Claude Code 功能：

bash

/ultrareview

专门的深度代码审查会话：

仔细读取所有改动
找出 Bug 和设计问题（像细心的资深 Review 者）
针对不易察觉的问题（Opus 4.7 在 Qodo 评测中：对其他模型放弃或未解决的问题"展现强大的精确度"）

Pro 和 Max 用户获赠 3 次免费 ultrareview 体验。

新功能：xhigh 努力级别

Opus 4.7 新增 xhigh 努力级别：

low → medium → high → xhigh（新增） → max

在 Claude Code 中，所有计划的默认努力级别已提升为 xhigh。

python

# API 使用方式
client.messages.create(
    model="claude-opus-4-7",
    effort="xhigh",   # 新选项
    messages=[...]
)

建议：编程和 Agent 场景从 high 或 xhigh 开始测试。

Auto Mode 扩展到 Max 用户

原本仅限部分用户的 Auto Mode 现在向所有 Max 用户开放：

Claude 代你做决策，减少中断
适合需要长时间自主运行的任务
比"跳过所有权限"风险更低

定价和可用性

价格：与 Opus 4.6 相同（$5/百万输入 Token，$25/百万输出 Token）
API 模型名称：claude-opus-4-7
平台：Claude 全产品线、API、Amazon Bedrock、Google Cloud Vertex AI、Microsoft Foundry
即时可用：现在就可以使用

从 Opus 4.6 迁移注意

两个影响 Token 使用的变化：

新 Tokenizer：相同输入可能产生约 1.0-1.35× 的 Token（取决于内容类型）
更多思考：在 Agent 场景的后期 Turn 中，xhigh 努力级别会产生更多输出 Token

建议在迁移前用真实流量测量差异，参考官方迁移指南。

Claude Opus 4.7 适合什么场景

强烈推荐升级：

复杂的长时间 Agent 任务（多步骤、自主运行数小时）
需要视觉理解的工作流（计算机使用、截图分析、图表提取）
最难的编程问题（之前 Opus 4.6 解决不了的）
代码审查（/ultrareview）

可以先用 Sonnet 4.5（新默认模型，性价比更高）：

日常开发任务
简单到中等难度的功能实现
成本敏感的高频调用场景

来源：Anthropic 官方公告 | 整理：ClaudeEagle

Claude Opus 4.7 正式发布：编程能力大幅提升，CursorBench 得分 70% vs Opus 4.6 的 58%

核心性能数据

主要改进方向

1. 软件工程能力

2. 视觉理解大幅提升

3. 更好的指令遵循

4. 文件系统记忆

新功能：/ultrareview 命令

新功能：xhigh 努力级别

Auto Mode 扩展到 Max 用户

定价和可用性

从 Opus 4.6 迁移注意

Claude Opus 4.7 适合什么场景

相关文章推荐

核心性能数据#

主要改进方向#

1. 软件工程能力#

2. 视觉理解大幅提升#

3. 更好的指令遵循#

4. 文件系统记忆#

新功能：/ultrareview 命令#

新功能：xhigh 努力级别#

Auto Mode 扩展到 Max 用户#

定价和可用性#

从 Opus 4.6 迁移注意#

Claude Opus 4.7 适合什么场景#

相关文章推荐

核心性能数据

主要改进方向

1. 软件工程能力

2. 视觉理解大幅提升

3. 更好的指令遵循

4. 文件系统记忆

新功能：/ultrareview 命令

新功能：xhigh 努力级别

Auto Mode 扩展到 Max 用户

定价和可用性

从 Opus 4.6 迁移注意

Claude Opus 4.7 适合什么场景