Anthropic 正式推出 Claude Sonnet 4.6,这是迄今为止功能最强大的 Sonnet 模型。它在编程、计算机使用、长上下文推理、Agent 规划、知识工作和设计等方面全面升级,同时带来测试版 1M Token 上下文窗口。
定价与可用性
Sonnet 4.6 的定价与 Sonnet 4.5 保持一致,通过 API 访问起价为 $3/$15 per million tokens(输入/输出)。Free 和 Pro 计划用户现在在 claude.ai 和 Claude Cowork 中默认使用 Sonnet 4.6。
编程能力全面跃升
Sonnet 4.6 在编程方面的提升尤为突出:
- 早期用户 70% 的时间偏好 Sonnet 4.6 胜过 Sonnet 4.5
- 甚至有 59% 的时间偏好 Sonnet 4.6 胜过去年 11 月的旗舰模型 Opus 4.5
- 用户反馈它更不容易过度设计和偷懒
- 更少的虚假成功声明和幻觉
- 多步骤任务的一致性更强
在 Claude Code 中,Sonnet 4.6 能够在修改代码前更有效地阅读上下文,合并共享逻辑而不是重复它,长会话中使用体验更好。
计算机使用能力飞跃
Sonnet 4.6 在计算机使用方面的进步令人印象深刻:
- 在 OSWorld 基准测试中得分达到 72.5%(2024 年 10 月首次发布时仅为 15%)
- 早期用户在导航复杂电子表格、填写多步骤网页表单等任务中看到了人类级别的表现
- 对抗 Prompt 注入攻击的防护能力相比 Sonnet 4.5 有重大改进
OSWorld 是 AI 计算机使用的标准基准测试,包含在真实软件(Chrome、LibreOffice、VS Code 等)上运行的数百个任务,模型必须像人一样点击鼠标和键盘操作。
1M Token 上下文窗口(测试版)
1M Token 上下文足以容纳整个大型代码库、长篇合同文件或数十篇研究论文。更重要的是,Sonnet 4.6 能在如此大的上下文中有效推理,而不仅仅是简单存储。
Vending-Bench Arena 测试中,Sonnet 4.6 展示了有趣的长期规划策略:在模拟商业运营的前 10 个月大力投入产能,然后在最后阶段急转专注盈利,凭借这一时机把握赢得竞争。
全面基准测试提升
Sonnet 4.6 在各项基准测试中全面提升,接近 Opus 级别的智能,但价格更实惠:
- GDPVal-AA(真实世界办公任务):性能达到 Opus 4.6 水平(Databricks 确认)
- OfficeQA(企业文档理解):媲美 Opus 4.6
- 金融服务基准:相比 Sonnet 4.5 答案匹配率显著提升
- 保险计算机使用:达到 94% 准确率,测试过的最高性能模型
API 新功能
与 Sonnet 4.6 同步上线的 API 新功能:
- **自适应思考(Adaptive Thinking)**和扩展思考(Extended Thinking)
- 上下文压缩(Context Compaction)测试版:自动摘要老旧上下文
- Web 搜索和抓取工具:自动过滤搜索结果,提升质量和 Token 效率
- 代码执行、记忆、程序化工具调用 全面 GA
免费计划升级
免费层现在默认使用 Sonnet 4.6,包含文件创建、连接器、Skills 和上下文压缩(Compaction)。
模型选用建议
| 场景 | 推荐模型 |
|---|---|
| 日常编程、Agent 工作流 | Claude Sonnet 4.6 |
| 需要最深度推理(代码库重构、多 Agent 协调) | Claude Opus 4.6 |
| 高速低延迟任务 | Claude Haiku |
原文:Introducing Sonnet 4.6 | 来源:Anthropic 官方博客