Anthropic 正式发布 Claude Opus 4.7,这是 Opus 系列迄今为止最强的编程和 Agent 模型。多个早期测试伙伴均报告显著的能力跃升,特别是在复杂代码任务、长时间自主运行和视觉理解方面。
核心性能数据
各合作伙伴内部测试数据:
| 测试方 | 测试场景 | Opus 4.7 vs Opus 4.6 |
|---|---|---|
| Cursor | CursorBench 编程评测 | 70% vs 58%(+12pp) |
| Rakuten | 生产 SWE-Bench | 解决任务数 3× |
| Notion Agent | 复杂多步骤工作流 | 准确率 +14%,工具调用错误 -33% |
| Factory Droids | 企业工程任务 | 成功率 +10-15% |
| CodeRabbit | 代码审查 Recall | +10%,精确率保持稳定 |
| XBOW 视觉精度 | 计算机使用 Agent | 98.5% vs 54.5%(+44pp!) |
| Bolt | 长时间 App 构建 | 最高 +10%,无明显退步 |
| Harvey (法律) | BigLaw Bench | 正确率 90.9% |
主要改进方向
1. 软件工程能力
Opus 4.7 对最难的编程任务提升最大。用户反映,以前需要密切监督的硬核编码工作,现在可以放心交给 Opus 4.7 独立完成。
关键改进:
- 规划阶段自我纠错:在动手之前发现自己推理中的逻辑错误
- Rust TTS 案例:自主构建完整的 Rust 文字转语音引擎(包含神经模型、SIMD 内核和浏览器 Demo),完成后用语音识别器自我验证输出,"几个月的高级工程师工作,自主交付"
- 循环抵抗:更少陷入无限工具调用循环,生产稳定性提升
- 验证步骤:更可靠地执行完整的验证流程,不再中途放弃
2. 视觉理解大幅提升
Opus 4.7 支持更高分辨率的图像输入:
- 最大输入分辨率:2,576 像素(长边),约 3.75 百万像素
- 对比 Opus 4.6:提升超过 3 倍
- 应用场景:
- 计算机使用 Agent 读取密集截图(XBOW 视觉精度从 54.5% 跳到 98.5%)
- 从复杂图表和技术图纸中提取数据
- 生命科学专利工作流(化学结构识别)
- 像素级精确的界面参考
3. 更好的指令遵循
Opus 4.7 更严格地按照指令执行。注意:这意味着为旧模型写的 Prompt 可能需要调整——以前模型会"宽松解释"或跳过的指令,Opus 4.7 会字面执行。
4. 文件系统记忆
Opus 4.7 更善于利用文件系统做跨 Session 记忆:
- 在长时间多 Session 工作中记住重要笔记
- 用保存的上下文减少每次新任务的启动时间
新功能:/ultrareview 命令
随 Opus 4.7 发布的新 Claude Code 功能:
/ultrareview专门的深度代码审查会话:
- 仔细读取所有改动
- 找出 Bug 和设计问题(像细心的资深 Review 者)
- 针对不易察觉的问题(Opus 4.7 在 Qodo 评测中:对其他模型放弃或未解决的问题"展现强大的精确度")
Pro 和 Max 用户获赠 3 次免费 ultrareview 体验。
新功能:xhigh 努力级别
Opus 4.7 新增 xhigh 努力级别:
low → medium → high → xhigh(新增) → max
在 Claude Code 中,所有计划的默认努力级别已提升为 xhigh。
# API 使用方式
client.messages.create(
model="claude-opus-4-7",
effort="xhigh", # 新选项
messages=[...]
)建议:编程和 Agent 场景从 high 或 xhigh 开始测试。
Auto Mode 扩展到 Max 用户
原本仅限部分用户的 Auto Mode 现在向所有 Max 用户开放:
- Claude 代你做决策,减少中断
- 适合需要长时间自主运行的任务
- 比"跳过所有权限"风险更低
定价和可用性
- 价格:与 Opus 4.6 相同($5/百万输入 Token,$25/百万输出 Token)
- API 模型名称:
claude-opus-4-7 - 平台:Claude 全产品线、API、Amazon Bedrock、Google Cloud Vertex AI、Microsoft Foundry
- 即时可用:现在就可以使用
从 Opus 4.6 迁移注意
两个影响 Token 使用的变化:
- 新 Tokenizer:相同输入可能产生约 1.0-1.35× 的 Token(取决于内容类型)
- 更多思考:在 Agent 场景的后期 Turn 中,xhigh 努力级别会产生更多输出 Token
建议在迁移前用真实流量测量差异,参考官方迁移指南。
Claude Opus 4.7 适合什么场景
强烈推荐升级:
- 复杂的长时间 Agent 任务(多步骤、自主运行数小时)
- 需要视觉理解的工作流(计算机使用、截图分析、图表提取)
- 最难的编程问题(之前 Opus 4.6 解决不了的)
- 代码审查(/ultrareview)
可以先用 Sonnet 4.5(新默认模型,性价比更高):
- 日常开发任务
- 简单到中等难度的功能实现
- 成本敏感的高频调用场景
来源:Anthropic 官方公告 | 整理:ClaudeEagle