资讯

Claude Sonnet 4.6 正式发布:编程能力大幅提升,1M 上下文窗口上线

Anthropic 发布 Claude Sonnet 4.6,编程能力全面跃升,在 Claude Code 中 70% 的用户更偏好它而非 Sonnet 4.5,OSWorld 计算机使用得分从 15% 飙升至 72.5%,同时带来 1M Token 上下文窗口、自适应思考和上下文压缩等新功能。

2026/2/283分钟 阅读ClaudeEagle

Anthropic 正式推出 Claude Sonnet 4.6,这是迄今为止功能最强大的 Sonnet 模型。它在编程、计算机使用、长上下文推理、Agent 规划、知识工作和设计等方面全面升级,同时带来测试版 1M Token 上下文窗口

定价与可用性

Sonnet 4.6 的定价与 Sonnet 4.5 保持一致,通过 API 访问起价为 $3/$15 per million tokens(输入/输出)。Free 和 Pro 计划用户现在在 claude.ai 和 Claude Cowork 中默认使用 Sonnet 4.6。

编程能力全面跃升

Sonnet 4.6 在编程方面的提升尤为突出:

  • 早期用户 70% 的时间偏好 Sonnet 4.6 胜过 Sonnet 4.5
  • 甚至有 59% 的时间偏好 Sonnet 4.6 胜过去年 11 月的旗舰模型 Opus 4.5
  • 用户反馈它更不容易过度设计和偷懒
  • 更少的虚假成功声明和幻觉
  • 多步骤任务的一致性更强

在 Claude Code 中,Sonnet 4.6 能够在修改代码前更有效地阅读上下文,合并共享逻辑而不是重复它,长会话中使用体验更好。

计算机使用能力飞跃

Sonnet 4.6 在计算机使用方面的进步令人印象深刻:

  • OSWorld 基准测试中得分达到 72.5%(2024 年 10 月首次发布时仅为 15%)
  • 早期用户在导航复杂电子表格、填写多步骤网页表单等任务中看到了人类级别的表现
  • 对抗 Prompt 注入攻击的防护能力相比 Sonnet 4.5 有重大改进

OSWorld 是 AI 计算机使用的标准基准测试,包含在真实软件(Chrome、LibreOffice、VS Code 等)上运行的数百个任务,模型必须像人一样点击鼠标和键盘操作。

1M Token 上下文窗口(测试版)

1M Token 上下文足以容纳整个大型代码库、长篇合同文件或数十篇研究论文。更重要的是,Sonnet 4.6 能在如此大的上下文中有效推理,而不仅仅是简单存储。

Vending-Bench Arena 测试中,Sonnet 4.6 展示了有趣的长期规划策略:在模拟商业运营的前 10 个月大力投入产能,然后在最后阶段急转专注盈利,凭借这一时机把握赢得竞争。

全面基准测试提升

Sonnet 4.6 在各项基准测试中全面提升,接近 Opus 级别的智能,但价格更实惠:

  • GDPVal-AA(真实世界办公任务):性能达到 Opus 4.6 水平(Databricks 确认)
  • OfficeQA(企业文档理解):媲美 Opus 4.6
  • 金融服务基准:相比 Sonnet 4.5 答案匹配率显著提升
  • 保险计算机使用:达到 94% 准确率,测试过的最高性能模型

API 新功能

与 Sonnet 4.6 同步上线的 API 新功能:

  • **自适应思考(Adaptive Thinking)**和扩展思考(Extended Thinking)
  • 上下文压缩(Context Compaction)测试版:自动摘要老旧上下文
  • Web 搜索和抓取工具:自动过滤搜索结果,提升质量和 Token 效率
  • 代码执行记忆程序化工具调用 全面 GA

免费计划升级

免费层现在默认使用 Sonnet 4.6,包含文件创建、连接器、Skills 和上下文压缩(Compaction)。

模型选用建议

场景推荐模型
日常编程、Agent 工作流Claude Sonnet 4.6
需要最深度推理(代码库重构、多 Agent 协调)Claude Opus 4.6
高速低延迟任务Claude Haiku

原文:Introducing Sonnet 4.6 | 来源:Anthropic 官方博客

相关文章推荐

资讯Claude Sonnet 4.6 深度解析:前沿编程能力、Agent 任务与专业工作的全面升级Claude Sonnet 4.6 深度解析:计算机使用能力从 15% 飞跃至 72.5%(OSWorld 基准)、编程任务(200K 上下文/跨文件重构)、Claude Code 集成优化(Plan Mode/子代理)、Agent 工具调用精准度提升,以及与 Opus 4.6 的定位分工和多平台访问方式。2026/3/2资讯Anthropic 收购 Vercept:Claude 计算机使用能力迈向人类水平Anthropic 收购 AI 感知初创公司 Vercept(联创含 Faster R-CNN 作者 Ross Girshick),进一步推进 Claude 计算机使用能力。Claude Sonnet 4.6 在 OSWorld 基准上从 15% 跃升至 72.5%,接近人类水平。这是继收购 Bun 团队后 Anthropic 的第二次收购。2026/3/2资讯Anthropic 官方复盘:Claude Code 质量下降事件的三个真实原因(2026 年 4 月)Anthropic 在 4 月 23 日发布罕见的工程透明公告,详解过去一个月 Claude Code 变笨、失忆、额度消耗异常的三个独立根因:推理努力等级悄悄从 high 降到 medium、缓存 Bug 导致推理历史每轮丢失、减少冗长的 System Prompt 修改影响编程质量。所有问题已于 4 月 20 日修复,向所有用户重置使用额度。2026/4/26资讯Claude Opus 4.7 正式发布:编程能力大幅提升,CursorBench 得分 70% vs Opus 4.6 的 58%Claude Opus 4.7 发布详解:CursorBench 得分从 58% 跳至 70%,Rakuten 生产任务解决数 3×,XBOW 视觉精度从 54.5% 跳至 98.5%。覆盖新增 xhigh 努力级别、/ultrareview 命令、Auto Mode 扩展,以及从 Opus 4.6 迁移的 Token 使用变化注意事项。2026/4/22资讯Claude Code 桌面版全面重设计:多 Session 并行工作 + Routines 云端自动化详解2026 年 4 月 14 日 Anthropic 重磅发布:Claude Code 桌面应用全面重设计(支持多 Session 并行)+ Routines 云端自动化功能研究预览。从 AI 编程工具升级为 AI 运营平台的关键一步,含 Code Tab、Routines 使用方法和典型场景。2026/4/16资讯Anthropic 2026 年 Q1 回顾:Claude 4 系列、300 亿营收、Agent 生态爆发Anthropic 2026 年 Q1 全面回顾:年化营收突破 300 亿美元,Claude 4 系列全面铺开,Claude Code 功能爆发性增长。含关键数据和行业分析。2026/4/7