资讯

Claude Sonnet 4.6 正式发布:编程能力大幅提升,1M 上下文窗口上线

Anthropic 发布 Claude Sonnet 4.6,编程能力全面跃升,在 Claude Code 中 70% 的用户更偏好它而非 Sonnet 4.5,OSWorld 计算机使用得分从 15% 飙升至 72.5%,同时带来 1M Token 上下文窗口、自适应思考和上下文压缩等新功能。

2026/2/283分钟 阅读ClaudeEagle

Anthropic 正式推出 Claude Sonnet 4.6,这是迄今为止功能最强大的 Sonnet 模型。它在编程、计算机使用、长上下文推理、Agent 规划、知识工作和设计等方面全面升级,同时带来测试版 1M Token 上下文窗口

定价与可用性

Sonnet 4.6 的定价与 Sonnet 4.5 保持一致,通过 API 访问起价为 $3/$15 per million tokens(输入/输出)。Free 和 Pro 计划用户现在在 claude.ai 和 Claude Cowork 中默认使用 Sonnet 4.6。

编程能力全面跃升

Sonnet 4.6 在编程方面的提升尤为突出:

  • 早期用户 70% 的时间偏好 Sonnet 4.6 胜过 Sonnet 4.5
  • 甚至有 59% 的时间偏好 Sonnet 4.6 胜过去年 11 月的旗舰模型 Opus 4.5
  • 用户反馈它更不容易过度设计和偷懒
  • 更少的虚假成功声明和幻觉
  • 多步骤任务的一致性更强

在 Claude Code 中,Sonnet 4.6 能够在修改代码前更有效地阅读上下文,合并共享逻辑而不是重复它,长会话中使用体验更好。

计算机使用能力飞跃

Sonnet 4.6 在计算机使用方面的进步令人印象深刻:

  • OSWorld 基准测试中得分达到 72.5%(2024 年 10 月首次发布时仅为 15%)
  • 早期用户在导航复杂电子表格、填写多步骤网页表单等任务中看到了人类级别的表现
  • 对抗 Prompt 注入攻击的防护能力相比 Sonnet 4.5 有重大改进

OSWorld 是 AI 计算机使用的标准基准测试,包含在真实软件(Chrome、LibreOffice、VS Code 等)上运行的数百个任务,模型必须像人一样点击鼠标和键盘操作。

1M Token 上下文窗口(测试版)

1M Token 上下文足以容纳整个大型代码库、长篇合同文件或数十篇研究论文。更重要的是,Sonnet 4.6 能在如此大的上下文中有效推理,而不仅仅是简单存储。

Vending-Bench Arena 测试中,Sonnet 4.6 展示了有趣的长期规划策略:在模拟商业运营的前 10 个月大力投入产能,然后在最后阶段急转专注盈利,凭借这一时机把握赢得竞争。

全面基准测试提升

Sonnet 4.6 在各项基准测试中全面提升,接近 Opus 级别的智能,但价格更实惠:

  • GDPVal-AA(真实世界办公任务):性能达到 Opus 4.6 水平(Databricks 确认)
  • OfficeQA(企业文档理解):媲美 Opus 4.6
  • 金融服务基准:相比 Sonnet 4.5 答案匹配率显著提升
  • 保险计算机使用:达到 94% 准确率,测试过的最高性能模型

API 新功能

与 Sonnet 4.6 同步上线的 API 新功能:

  • **自适应思考(Adaptive Thinking)**和扩展思考(Extended Thinking)
  • 上下文压缩(Context Compaction)测试版:自动摘要老旧上下文
  • Web 搜索和抓取工具:自动过滤搜索结果,提升质量和 Token 效率
  • 代码执行记忆程序化工具调用 全面 GA

免费计划升级

免费层现在默认使用 Sonnet 4.6,包含文件创建、连接器、Skills 和上下文压缩(Compaction)。

模型选用建议

场景推荐模型
日常编程、Agent 工作流Claude Sonnet 4.6
需要最深度推理(代码库重构、多 Agent 协调)Claude Opus 4.6
高速低延迟任务Claude Haiku

原文:Introducing Sonnet 4.6 | 来源:Anthropic 官方博客

相关文章推荐

资讯Claude Sonnet 4.6 深度解析:前沿编程能力、Agent 任务与专业工作的全面升级Claude Sonnet 4.6 深度解析:计算机使用能力从 15% 飞跃至 72.5%(OSWorld 基准)、编程任务(200K 上下文/跨文件重构)、Claude Code 集成优化(Plan Mode/子代理)、Agent 工具调用精准度提升,以及与 Opus 4.6 的定位分工和多平台访问方式。2026/3/2资讯Anthropic 收购 Vercept:Claude 计算机使用能力迈向人类水平Anthropic 收购 AI 感知初创公司 Vercept(联创含 Faster R-CNN 作者 Ross Girshick),进一步推进 Claude 计算机使用能力。Claude Sonnet 4.6 在 OSWorld 基准上从 15% 跃升至 72.5%,接近人类水平。这是继收购 Bun 团队后 Anthropic 的第二次收购。2026/3/2资讯Claude Code 2026 年功能全景:从终端 CLI 到多平台 AI 编程助手的完整进化Claude Code 2026 最新功能全览:Web 版、桌面应用、VS Code 扩展、JetBrains 插件、Slack 集成、GitHub Actions/GitLab CI/CD、Sub-Agents 并行、Output Styles、Remote Control 远程控制,以及订阅计划与使用建议。2026/3/15资讯Anthropic 与 Infosys 合作:为电信、金融、制造业打造企业级 AI AgentAnthropic 与 Infosys 宣布合作,将 Claude 和 Claude Code 与 Infosys Topaz 整合,为电信(网络运营)、金融(风险合规)、制造业(产品仿真)、软件开发四大行业构建企业级 AI Agent,重点覆盖受监管行业的遗留系统现代化。2026/3/2资讯Claude Opus 4.6 正式发布:Terminal-Bench 第一、1M 上下文、Agent Teams 全面升级Anthropic 发布 Claude Opus 4.6:Terminal-Bench 2.0 第一、Humanity's Last Exam 最高分、1M Token 上下文窗口。同步推出自适应思考、上下文压缩、Agent Teams 等重磅 API 功能。Notion、GitHub、SentinelOne 等 20+ 合作伙伴确认超越前代。2026/2/28资讯Anthropic 收购 Vercept:全力强化 Claude 计算机使用能力Anthropic 宣布收购 AI 感知与交互技术公司 Vercept,以强化 Claude 的计算机使用能力。Vercept 由 Ross Girshick 等知名研究员创立,专注于 AI 系统在真实软件中的感知和操作,与 Anthropic 在计算机使用领域的攻坚方向高度契合。2026/2/28