Computer Use 是 Claude API 中最具 Agent 特征的能力之一:Claude 可以看到屏幕截图,并通过鼠标、键盘与桌面环境交互。它适合浏览器任务、GUI 自动化和端到端操作流。
Computer Use 能做什么?
它提供三类能力:
- Screenshot:看到当前屏幕
- Mouse:点击、拖拽、移动光标
- Keyboard:输入文本、快捷键
再配合 bash、text editor 等工具,就能完成更复杂的桌面自动化任务。
适合场景:
- 浏览器内多步骤操作
- 后台管理系统录入
- GUI 软件测试
- 网页任务自动化
- 复杂表单处理
- 需要视觉反馈的工作流
Beta Header 与工具定义
Computer Use 是 beta,需要对应 beta header。例如新版本模型使用:
text
computer-use-2025-11-24工具配置示例:
json
{
"type": "computer_20251124",
"name": "computer",
"display_width_px": 1024,
"display_height_px": 768,
"display_number": 1
}通常会和 text editor、bash 一起使用:
json
[
{ "type": "computer_20251124", "name": "computer" },
{ "type": "text_editor_20250728", "name": "str_replace_based_edit_tool" },
{ "type": "bash_20250124", "name": "bash" }
]Agent Loop 如何运行?
Computer Use 不是一次请求就完事,而是循环:
- 你给 Claude 一个任务
- Claude 返回 tool_use,例如截图、点击、输入
- 你的应用在虚拟机/容器里执行动作
- 把截图或结果作为 tool_result 发回
- Claude 判断下一步
- 重复直到任务完成
这就是 Computer Use 的 agent loop。
运行环境建议
Anthropic 推荐使用隔离计算环境,而不是直接让 Claude 控制真实电脑。
典型环境包括:
- Docker 容器
- 虚拟 X11 display(Xvfb)
- 轻量桌面环境
- Firefox/LibreOffice/文件管理器等应用
- 工具实现层:把 Claude 的抽象动作转成真实鼠标键盘操作
- Web UI:方便人类观察和接管
官方 quickstart 提供了参考实现,适合从 demo 起步。
安全风险
Computer Use 的风险高于普通文本 API,因为它能操作真实界面。
主要风险:
- 网页 prompt injection 诱导模型忽略任务
- 误点击购买、删除、提交、授权按钮
- 读取屏幕上的敏感信息
- 使用已登录账号执行高风险操作
- 恶意网页通过视觉内容操控模型
因此,生产环境必须把 Computer Use 当作高权限能力处理。
安全最佳实践
- 使用专用 VM/容器,不控制真实主机
- 不在环境中登录敏感账号
- 网络访问使用 allowlist
- 对付款、删除、授权、接受条款等动作要求人类确认
- 不把密码、token、个人隐私展示在环境中
- 记录每一步截图和操作,便于审计
- 给 agent loop 设置最大步数和超时
适合和不适合的场景
适合:
- 内部工具自动化
- 低风险网页流程
- UI 回归测试
- 需要视觉判断的任务
- 人类可随时接管的半自动工作流
不适合:
- 无人值守金融交易
- 高权限生产后台操作
- 处理敏感账号的登录态环境
- 不能容忍误点击的关键业务系统
来源:Anthropic 官方文档 - Computer use tool | 整理:ClaudeEagle