教程

Claude Code Computer Use 实战指南:让 AI 直接操作 GUI 应用

Claude Code Computer Use 完整实战指南:5 种 Computer Use 工具(截图/点击/移动/输入/快捷键);4 个实战场景(无 API 的企业内网系统/UI 渲染验证/不支持自动化的桌面软件/结合 Shell 命令);与 MCP 工具的优先级策略;--chrome 参数(v2.1.126,Chrome 调试集成);权限控制配置(允许截图但禁止系统快捷键);Auto Mode 对 Computer Use 的处理;以及研究预览阶段的已知限制。

2026/5/75分钟 阅读ClaudeEagle

Computer Use 是 Claude Code 的研究预览功能(Week 13 起在 CLI 可用),让 Claude 可以在你的本地机器上打开原生应用、点击 UI、填写表单、截图验证——直接操控图形界面,而不只是通过终端命令行。本文是 Computer Use 的完整实战指南。


Computer Use 是什么?

传统 Claude Code 只能通过 Shell 命令、文件读写和 MCP 工具与外部世界交互。但有些任务只能通过 GUI 完成:

  • 使用企业内网工具(没有 API 的遗留系统)
  • 浏览器里的复杂表单填写
  • 桌面应用里的配置操作
  • 截图验证 UI 渲染效果
  • 操作不支持自动化的商业软件

Computer Use 填补了这个空缺:Claude 可以截屏查看当前状态,移动鼠标、点击、输入文字,然后再截屏验证效果。


启用 Computer Use

CLI 启用(研究预览)

bash
# 全局启用
export CLAUDE_CODE_COMPUTER_USE=1
claude

# 或者通过 chrome flag 集成(v2.1.132 新增)
claude --chrome

桌面应用启用

Claude Code 桌面应用已集成 Computer Use,无需额外配置。通过 /desktop 命令从终端切换到桌面应用后自动可用。


工作原理

Computer Use 工具集包含:

工具功能
computer_screenshot截取当前屏幕
computer_click在指定坐标点击(左键/右键/双击)
computer_move移动鼠标到指定位置
computer_type输入文字
computer_key按下快捷键
computer_scroll滚动页面

Claude 使用这些工具的典型流程:

  1. computer_screenshot 查看当前状态
  2. 分析截图,找到目标 UI 元素的位置
  3. computer_clickcomputer_type 执行操作
  4. 再次 computer_screenshot 验证操作结果

实战使用示例

场景 1:操作没有 API 的企业内网系统

> 打开 Chrome,导航到 http://internal.company.com/forms, 填写新员工入职表单: 姓名:张三 部门:工程部 入职日期:2026-05-15 提交并截图确认

Claude 会:

  1. 截屏确认当前状态
  2. 找到 Chrome 图标,点击打开
  3. 导航到内网地址
  4. 定位表单字段,填写信息
  5. 点击提交,截图保存结果

场景 2:验证 UI 渲染效果

> 在 Chrome 里打开 localhost:3000, 测试以下场景并截图: 1. 桌面端(1920x1080)首页渲染 2. 调整到 375px 宽(移动端)后的首页渲染 3. 点击导航菜单,截图展开状态 把所有截图保存到 screenshots/ 目录

场景 3:操作不支持自动化的桌面软件

> 打开 Figma(桌面版), 在文件 "App Redesign" 里找到 "Button Component" 框架, 截图保存到 exports/button-component.png

场景 4:结合 Shell 命令和 GUI

> 运行 npm start 启动开发服务器, 等到服务器 ready 后, 在 Chrome 里打开 localhost:3000, 截图保存首页加载状态, 确认没有控制台错误

与 MCP 工具的配合

Computer Use 和 MCP 工具可以互补:

MCP 优先(效率更高):

  • 有 API 的服务 → 用 MCP 工具直接调用
  • 数据库操作 → MCP server-postgres
  • GitHub 操作 → MCP server-github

Computer Use 兜底

  • 没有 API 的遗留系统
  • 需要视觉验证的 UI 测试
  • 桌面应用配置

Claude 会自动选择最合适的工具:如果有 MCP 工具可以完成任务,优先用 MCP;只有在必须使用 GUI 时才用 Computer Use。


--chrome 参数(v2.1.126)

bash
claude --chrome

开启 Chrome 调试集成,Claude Code 可以:

  • 获取 Chrome 里的 console 日志
  • 访问网络请求记录
  • 读取 DOM 结构(比截图分析更精准)

最适合:前端开发调试、Web 自动化测试

# 配合 --chrome 的用法 > 打开 localhost:3000/checkout, 完成一次测试购买流程, 收集所有网络请求的 XHR 记录, 检查是否有请求失败

权限和安全

Computer Use 权限的权限控制:

json
// .claude/settings.json
{
  "permissions": {
    "allow": [
      "ComputerUse(screenshot)",      // 只允许截图,不允许操作
      "ComputerUse(click)",
      "ComputerUse(type)"
    ],
    "deny": [
      "ComputerUse(key(cmd+q))",       // 禁止退出应用
      "ComputerUse(key(ctrl+alt+del))" // 禁止系统快捷键
    ]
  }
}

Auto Mode 对 Computer Use 的处理

  • 截图:通常自动允许
  • 点击/输入:会评估目标 URL/应用是否在受信任范围内
  • 系统快捷键:默认谨慎,可能需要确认

已知限制(研究预览阶段)

  1. 坐标系依赖分辨率:高 DPI 屏幕(Retina)需要注意坐标缩放
  2. 速度比 API 慢:每次操作需要截屏分析,比直接 API 调用慢
  3. 弹窗/遮挡:系统级弹窗可能干扰 Claude 的视野
  4. 跨显示器:多显示器场景的坐标处理还在完善中
  5. 需要屏幕访问权限:macOS 需要在系统偏好中授权"屏幕录制"

Computer Use 和 Browser MCP 的选择

场景推荐工具
标准 Web 操作(有 API)MCP server-fetch
前端调试Computer Use + --chrome
遗留桌面应用Computer Use
视觉截图验证Computer Use
批量表单(有规律)Playwright/Puppeteer 脚本(通过 Bash 调用)

来源:Claude Code 官方文档 - Computer Use | Week 14 发布公告 | 整理:ClaudeEagle

相关文章推荐

教程Claude Code Computer Use 使用指南:让 AI 直接操控 iOS 模拟器和 GUI 应用Claude Code Computer Use 完整使用指南:三种入口(桌面应用/CLI/macOS Desktop)的启用步骤、iOS 模拟器测试/深色模式验证/Figma 检查/无 API 专有工具等实战场景、权限和安全机制(默认关闭,每步确认)、当前研究预览阶段已知限制,以及 Computer Use + Hooks 自动保存截图的高级组合。2026/4/26教程Claude Code Computer Use:从终端直接操控 macOS 桌面的 AI 自动化Claude Code Computer Use 让 AI 直接操控 macOS 桌面:编译应用、点击按钮、截图验证。详解启用步骤、安全机制和实际应用场景。2026/4/7教程Claude Code Desktop 桌面应用快速入门:图形界面、三大标签页与并行会话详解Claude Code Desktop 桌面应用快速入门:三大标签页概览(Chat/Cowork/Code 功能对比)、macOS/Windows 下载地址(内置 Claude Code 无需安装 Node.js)、4 步开始第一个 Code 会话(选项目/下任务/审查 Diff)、七大核心功能(中断引导/@文件引用/三种权限模式/Diff 视图审查/实时应用预览/PR 监控自动合并/定时任务/并行会话/插件安装/外部工具连接),以及与 CLI 共用同一套引擎、共享 CLAUDE.md/MCP/Hooks/Skills/Settings 配置的关系说明。2026/3/8教程Claude Code 自定义 Agents 完整指南:创建专用 AI 编程助手Claude Code 自定义 Agents 完整指南:Agent 定义文件格式(Frontmatter 字段:name/description/tools/permissionMode/model/effort/context);4 种调用方式(/agents 界面/--agent CLI/对话提及/Print 模式自动化);4 个实战 Agent 配置(安全审查员/数据库优化顾问/无障碍合规检查/TypeScript 类型安全/CI 失败分析师);skillOverrides 控制可见性;context: fork 独立上下文;以及在 GitHub Actions 里使用 Agent 的 CI 配置示例。2026/5/7教程Claude Code Remote Control 完整指南:用浏览器界面控制本地终端会话Claude Code Remote Control 完整指南:取本地权限和云端 UI 两者之长;两种启用方式(--remote-control 标志和 /remote-control 命令);4 个核心使用场景(手机远程审查/向同事展示/大屏查看长输出/配合 /diff 可视化);与 Ultraplan/Ultrareview 的互斥关系;/teleport 反向操作(把 Web/iOS 会话拉回本地);/desktop 移交到桌面应用;以及安全注意事项。2026/5/7教程Claude Code JetBrains IDE 集成完整指南:IntelliJ、PyCharm、WebStorm 使用教程Claude Code JetBrains 插件完整使用指南:支持 9 种 IDE(IntelliJ/PyCharm/WebStorm/GoLand/Rider/CLion/Android Studio 等);Marketplace 安装步骤;4 大核心功能(侧边栏对话面板/@ 文件引用/选中代码触发/Inline Diff 审查);Java 重构/Python 类型注解/Kotlin 依赖升级 3 个工作流;VS Code 扩展 vs JetBrains 插件对比;以及快捷键配置和常见问题解决。2026/5/6