资讯

Claude Sonnet 4.6 深度解析:前沿编程能力、Agent 任务与专业工作的全面升级

Claude Sonnet 4.6 深度解析:计算机使用能力从 15% 飞跃至 72.5%(OSWorld 基准)、编程任务(200K 上下文/跨文件重构)、Claude Code 集成优化(Plan Mode/子代理)、Agent 工具调用精准度提升,以及与 Opus 4.6 的定位分工和多平台访问方式。

2026/3/23分钟 阅读ClaudeEagle

2026 年 2 月 17 日,Anthropic 发布 Claude Sonnet 4.6,定位为在编程、Agent 任务和规模化专业工作中提供前沿性能的主力模型。

Sonnet 4.6 的定位

Sonnet 4.6 是 Anthropic 当前的主力工作模型

  • 比 Opus 快得多,成本低得多
  • 在大多数实际任务上接近 Opus 级别的效果
  • 专为需要大量 API 调用的 Agent 工作流优化
  • Claude Code 的默认推荐模型

计算机使用能力飞跃

Sonnet 4.6 的最突出进步是**计算机使用(Computer Use)**能力:

OSWorld(AI 计算机使用标准基准)上的成绩:

  • 2024 年底(首次发布):不足 15%
  • Sonnet 4.6(2026 年 2 月):72.5%

接近人类水平的具体表现包括:

  • 在复杂电子表格中导航
  • 跨浏览器标签完成 Web 表单
  • 操作真实桌面应用完成多步骤工作流

这正是 Anthropic 收购 Vercept 团队所要增强的核心能力——让 AI 真正「坐在键盘前」操作软件。

编程能力提升

Sonnet 4.6 在编程任务上的提升体现在:

大规模代码库理解:200K token 上下文窗口,可以一次性加载整个大型项目

跨文件重构:理解组件间依赖关系,执行涉及数十个文件的重构任务

测试生成:更准确地理解代码意图,生成覆盖边界条件的测试用例

调试推理:追踪复杂的执行路径,定位难以发现的 Bug

Claude Code 集成优化

Sonnet 4.6 是专为 Claude Code 工作流优化的模型:

Plan Mode:在规划阶段使用只读工具分析代码库,生成准确的修改计划

子代理委派:作为 Explore 和通用子代理的底层模型,平衡速度和效果

长会话稳定性:在数小时的编程会话中保持指令遵从性和代码质量

Agent 任务优化

Sonnet 4.6 的 Agent 能力提升体现在:

工具调用精准度:更少的冗余工具调用,更准确的参数传递

任务分解:更有效地将复杂任务拆分为可执行的子任务

错误恢复:遇到工具调用失败时,能更智能地调整策略

上下文利用:在长任务中更有效地利用历史上下文,避免重复操作

专业工作表现

除了编程,Sonnet 4.6 在专业工作场景中也有显著提升:

研究综合:同时处理多个来源的信息,生成连贯的研究报告

文档生成:理解代码库后生成准确的技术文档

数据分析:结合代码执行和推理,完成复杂的数据分析任务

邮件和沟通:在理解业务上下文的基础上撰写专业沟通内容

定价和访问方式

Sonnet 4.6 通过多个渠道访问:

  • claude.ai:Claude Pro/Team/Enterprise 订阅用户直接使用
  • Anthropic API:按 token 计费,模型 ID claude-sonnet-4-6-20260217
  • Amazon Bedrockanthropic.claude-sonnet-4-6-v1:0
  • Google Vertex AIclaude-sonnet-4-6@20260217
  • OpenClawanthropic/claude-sonnet-4-6 作为默认模型推荐

与 Opus 4.6 的分工

  • Sonnet 4.6:日常工作主力,Agent 工作流,Claude Code 核心场景
  • Opus 4.6:最复杂的推理任务,科研级分析,不在乎速度和成本的场景

对于大多数开发者来说,Sonnet 4.6 是最佳选择:在成本和效果之间取得了最好的平衡。


原文:Introducing Claude Sonnet 4.6 | 来源:Anthropic 官方新闻 | 2026-02-17

相关文章推荐

资讯Claude Sonnet 4.6 正式发布:编程能力大幅提升,1M 上下文窗口上线Anthropic 发布 Claude Sonnet 4.6,编程能力全面跃升,在 Claude Code 中 70% 的用户更偏好它而非 Sonnet 4.5,OSWorld 计算机使用得分从 15% 飙升至 72.5%,同时带来 1M Token 上下文窗口、自适应思考和上下文压缩等新功能。2026/2/28资讯Anthropic 收购 Vercept:Claude 计算机使用能力迈向人类水平Anthropic 收购 AI 感知初创公司 Vercept(联创含 Faster R-CNN 作者 Ross Girshick),进一步推进 Claude 计算机使用能力。Claude Sonnet 4.6 在 OSWorld 基准上从 15% 跃升至 72.5%,接近人类水平。这是继收购 Bun 团队后 Anthropic 的第二次收购。2026/3/2资讯Claude 首次驾驶火星探测器:NASA 毅力号 400 米自主规划路线实录Claude 首次为 NASA 毅力号火星探测器规划行驶路线:用视觉能力分析卫星图像,用 Claude Code 生成 Rover Markup Language 路点指令,通过 50 万变量仿真验证,成功完成 400 米火星驾驶,将规划时间减少一半。2026/3/2资讯Anthropic 收购 Vercept:全力强化 Claude 计算机使用能力Anthropic 宣布收购 AI 感知与交互技术公司 Vercept,以强化 Claude 的计算机使用能力。Vercept 由 Ross Girshick 等知名研究员创立,专注于 AI 系统在真实软件中的感知和操作,与 Anthropic 在计算机使用领域的攻坚方向高度契合。2026/2/28资讯Claude 4 全系模型最新对比:Opus 4.6 vs Sonnet 4.6 vs Haiku 4.5 价格与能力2026 年最新 Anthropic Claude 4 全系模型完整横评:Claude Opus 4.6(100万 tokens 上下文)、Claude Sonnet 4.6(速度与智能最佳平衡)、Claude Haiku 4.5(最快速最经济)的详细能力对比,最新官方定价(输入/输出 Token 单价),Extended Thinking 与 Adaptive Thinking 支持情况,AWS Bedrock 和 Google Vertex AI 模型 ID,以及针对不同使用场景的选型建议。2026/3/18资讯Claude Relay Service(CRS)是什么?自建 Claude Code 中转服务完整介绍Claude Relay Service(CRS)开源项目完整介绍:什么是 CRS、为什么要自建 Claude 中转服务、核心功能(多账户管理/拼车共享/成本统计/智能切换)、与第三方镜像站的对比优势、适用场景,以及 CRS 2.0(sub2api)的新动态。2026/3/16