资讯

Claude Opus 4.7 正式发布:编程能力大幅提升,CursorBench 得分 70% vs Opus 4.6 的 58%

Claude Opus 4.7 发布详解:CursorBench 得分从 58% 跳至 70%,Rakuten 生产任务解决数 3×,XBOW 视觉精度从 54.5% 跳至 98.5%。覆盖新增 xhigh 努力级别、/ultrareview 命令、Auto Mode 扩展,以及从 Opus 4.6 迁移的 Token 使用变化注意事项。

2026/4/225分钟 阅读ClaudeEagle

Anthropic 正式发布 Claude Opus 4.7,这是 Opus 系列迄今为止最强的编程和 Agent 模型。多个早期测试伙伴均报告显著的能力跃升,特别是在复杂代码任务、长时间自主运行和视觉理解方面。


核心性能数据

各合作伙伴内部测试数据:

测试方测试场景Opus 4.7 vs Opus 4.6
CursorCursorBench 编程评测70% vs 58%(+12pp)
Rakuten生产 SWE-Bench解决任务数
Notion Agent复杂多步骤工作流准确率 +14%,工具调用错误 -33%
Factory Droids企业工程任务成功率 +10-15%
CodeRabbit代码审查 Recall+10%,精确率保持稳定
XBOW 视觉精度计算机使用 Agent98.5% vs 54.5%(+44pp!)
Bolt长时间 App 构建最高 +10%,无明显退步
Harvey (法律)BigLaw Bench正确率 90.9%

主要改进方向

1. 软件工程能力

Opus 4.7 对最难的编程任务提升最大。用户反映,以前需要密切监督的硬核编码工作,现在可以放心交给 Opus 4.7 独立完成。

关键改进:

  • 规划阶段自我纠错:在动手之前发现自己推理中的逻辑错误
  • Rust TTS 案例:自主构建完整的 Rust 文字转语音引擎(包含神经模型、SIMD 内核和浏览器 Demo),完成后用语音识别器自我验证输出,"几个月的高级工程师工作,自主交付"
  • 循环抵抗:更少陷入无限工具调用循环,生产稳定性提升
  • 验证步骤:更可靠地执行完整的验证流程,不再中途放弃

2. 视觉理解大幅提升

Opus 4.7 支持更高分辨率的图像输入:

  • 最大输入分辨率:2,576 像素(长边),约 3.75 百万像素
  • 对比 Opus 4.6:提升超过 3 倍
  • 应用场景
    • 计算机使用 Agent 读取密集截图(XBOW 视觉精度从 54.5% 跳到 98.5%)
    • 从复杂图表和技术图纸中提取数据
    • 生命科学专利工作流(化学结构识别)
    • 像素级精确的界面参考

3. 更好的指令遵循

Opus 4.7 更严格地按照指令执行。注意:这意味着为旧模型写的 Prompt 可能需要调整——以前模型会"宽松解释"或跳过的指令,Opus 4.7 会字面执行。

4. 文件系统记忆

Opus 4.7 更善于利用文件系统做跨 Session 记忆:

  • 在长时间多 Session 工作中记住重要笔记
  • 用保存的上下文减少每次新任务的启动时间

新功能:/ultrareview 命令

随 Opus 4.7 发布的新 Claude Code 功能:

bash
/ultrareview

专门的深度代码审查会话:

  • 仔细读取所有改动
  • 找出 Bug 和设计问题(像细心的资深 Review 者)
  • 针对不易察觉的问题(Opus 4.7 在 Qodo 评测中:对其他模型放弃或未解决的问题"展现强大的精确度")

Pro 和 Max 用户获赠 3 次免费 ultrareview 体验。

新功能:xhigh 努力级别

Opus 4.7 新增 xhigh 努力级别:

low → medium → high → xhigh(新增) → max

在 Claude Code 中,所有计划的默认努力级别已提升为 xhigh

python
# API 使用方式
client.messages.create(
    model="claude-opus-4-7",
    effort="xhigh",   # 新选项
    messages=[...]
)

建议:编程和 Agent 场景从 highxhigh 开始测试。

Auto Mode 扩展到 Max 用户

原本仅限部分用户的 Auto Mode 现在向所有 Max 用户开放:

  • Claude 代你做决策,减少中断
  • 适合需要长时间自主运行的任务
  • 比"跳过所有权限"风险更低

定价和可用性

  • 价格:与 Opus 4.6 相同($5/百万输入 Token,$25/百万输出 Token)
  • API 模型名称claude-opus-4-7
  • 平台:Claude 全产品线、API、Amazon Bedrock、Google Cloud Vertex AI、Microsoft Foundry
  • 即时可用:现在就可以使用

从 Opus 4.6 迁移注意

两个影响 Token 使用的变化:

  1. 新 Tokenizer:相同输入可能产生约 1.0-1.35× 的 Token(取决于内容类型)
  2. 更多思考:在 Agent 场景的后期 Turn 中,xhigh 努力级别会产生更多输出 Token

建议在迁移前用真实流量测量差异,参考官方迁移指南


Claude Opus 4.7 适合什么场景

强烈推荐升级

  • 复杂的长时间 Agent 任务(多步骤、自主运行数小时)
  • 需要视觉理解的工作流(计算机使用、截图分析、图表提取)
  • 最难的编程问题(之前 Opus 4.6 解决不了的)
  • 代码审查(/ultrareview)

可以先用 Sonnet 4.5(新默认模型,性价比更高):

  • 日常开发任务
  • 简单到中等难度的功能实现
  • 成本敏感的高频调用场景

来源:Anthropic 官方公告 | 整理:ClaudeEagle

相关文章推荐

资讯Claude Cowork 完全使用指南:把繁琐知识工作交给 AI 代理自主执行(2026)Claude Cowork 完整使用指南:Cowork 与 Claude.ai 对话/Claude Code 的定位对比、核心功能详解(自主任务执行/Computer Use操控电脑/Dispatch手机远程分配/跨会话持久记忆)、三大典型场景(竞品分析/财务报表/邮件批量处理)、访问方式与计划要求,基于 2026 年 3 月 Anthropic 最新发布。2026/3/30资讯Anthropic 与 Infosys 合作:为电信、金融、制造业打造企业级 AI AgentAnthropic 与 Infosys 宣布合作,将 Claude 和 Claude Code 与 Infosys Topaz 整合,为电信(网络运营)、金融(风险合规)、制造业(产品仿真)、软件开发四大行业构建企业级 AI Agent,重点覆盖受监管行业的遗留系统现代化。2026/3/2资讯Claude Opus 4.6 正式发布:Terminal-Bench 第一、1M 上下文、Agent Teams 全面升级Anthropic 发布 Claude Opus 4.6:Terminal-Bench 2.0 第一、Humanity's Last Exam 最高分、1M Token 上下文窗口。同步推出自适应思考、上下文压缩、Agent Teams 等重磅 API 功能。Notion、GitHub、SentinelOne 等 20+ 合作伙伴确认超越前代。2026/2/28资讯Claude Sonnet 4.6 正式发布:编程能力大幅提升,1M 上下文窗口上线Anthropic 发布 Claude Sonnet 4.6,编程能力全面跃升,在 Claude Code 中 70% 的用户更偏好它而非 Sonnet 4.5,OSWorld 计算机使用得分从 15% 飙升至 72.5%,同时带来 1M Token 上下文窗口、自适应思考和上下文压缩等新功能。2026/2/28资讯Claude Code 桌面版全面重设计:多 Session 并行工作 + Routines 云端自动化详解2026 年 4 月 14 日 Anthropic 重磅发布:Claude Code 桌面应用全面重设计(支持多 Session 并行)+ Routines 云端自动化功能研究预览。从 AI 编程工具升级为 AI 运营平台的关键一步,含 Code Tab、Routines 使用方法和典型场景。2026/4/16资讯Claude Opus 4.6 深度解析:1M Token 上下文、SWE-bench 72.5%,AI 编程进入新阶段Claude Opus 4.6 深度解析:1M Token 上下文(Beta)、SWE-bench 72.5%,三大改进(谨慎计划/多步骤稳定/自我 review),以及何时选 Opus 而不是 Sonnet 的成本与性能权衡。2026/4/12