Claude Computer Use 是 Anthropic 推出的突破性功能, 让 Claude 像人类一样「看屏幕、移动鼠标、点击、输入文字」, 直接在桌面环境中完成复杂任务。
Computer Use 是什么?
传统 AI 助手:
用户 → 描述任务 → Claude → 给出指令 → 用户手动执行
Computer Use:
用户 → 描述任务 → Claude → 直接截图、分析、点击、执行 → 完成
Claude 通过以下工具感知和操控计算机:
| 工具 | 功能 |
|---|---|
computer.screenshot | 截取当前屏幕 |
computer.left_click | 鼠标左键点击 |
computer.right_click | 鼠标右键点击 |
computer.double_click | 双击 |
computer.type | 键盘输入文字 |
computer.key | 按键(Enter/Tab/Ctrl+C 等) |
computer.scroll | 滚动页面 |
computer.mouse_move | 移动鼠标 |
快速体验:Docker 演示环境
Anthropic 提供了一个安全隔离的 Docker 演示环境:
bash
# 克隆演示仓库
git clone https://github.com/anthropics/anthropic-quickstarts
cd anthropic-quickstarts/computer-use-demo
# 启动演示环境(包含 Ubuntu 桌面 + VNC)
export ANTHROPIC_API_KEY=sk-ant-xxxxx
docker run -e ANTHROPIC_API_KEY=$ANTHROPIC_API_KEY -v $HOME/.anthropic:/home/user/.anthropic -p 5900:5900 \ # VNC 端口
-p 8501:8501 \ # Streamlit 界面
-p 6080:6080 \ # noVNC 浏览器访问
ghcr.io/anthropics/anthropic-quickstarts:computer-use-demo-latest
# 浏览器打开 http://localhost:6080 查看 Claude 操作桌面Python API 调用示例
python
import anthropic
client = anthropic.Anthropic()
# 定义 Computer Use 工具
tools = [
{
"type": "computer_20241022",
"name": "computer",
"display_width_px": 1280,
"display_height_px": 800,
"display_number": 1,
}
]
# 发起请求
response = client.messages.create(
model="claude-opus-4-6", # Computer Use 推荐使用 Opus
max_tokens=4096,
tools=tools,
messages=[{
"role": "user",
"content": "打开浏览器,搜索'Anthropic Claude 最新消息',截图给我看"
}],
betas=["computer-use-2024-10-22"], # 需要开启 beta
)
# 处理 Claude 的工具调用
for block in response.content:
if block.type == "tool_use":
print(f"Claude 要执行:{block.name}")
print(f"参数:{block.input}")
# 实际执行(需要连接真实桌面环境)
# result = execute_computer_action(block.input)实际使用场景
场景一:自动化表单填写
你:登录 https://example.com/admin,
把 sales_data.csv 里的数据逐行填到后台系统的导入页面
Claude:
1. 截图查看当前屏幕
2. 打开 Chrome → 导航到 URL
3. 截图确认登录页面
4. 输入用户名和密码
5. 点击登录按钮
6. 导航到导入页面
7. 逐行读取 CSV 并填入表单
...(自主完成所有步骤)
场景二:跨应用数据迁移
你:把 Excel 里 A 列的邮箱地址,
全部添加到 HubSpot 的联系人列表里
Claude:直接操控 Excel 和 HubSpot,无需写代码,自动完成迁移
场景三:UI 自动化测试
你:在 staging 环境测试注册流程:
新用户注册 → 收到验证邮件 → 完成邮件验证 → 成功登录
截图每一步,标注出有问题的地方
Claude:自动执行完整测试流程并生成测试报告
与传统 RPA 对比
| 对比维度 | 传统 RPA(UiPath/AA) | Claude Computer Use |
|---|---|---|
| 配置方式 | 录制/可视化编程 | 自然语言描述任务 |
| 适应变化 | 差(UI 改动就失效) | 好(理解意图,自适应) |
| 上手难度 | 中高(需要培训) | 低(说话就行) |
| 准确率 | 高(录制精确) | 中(仍有出错概率) |
| 适合场景 | 固定重复流程 | 复杂/动态/一次性任务 |
当前局限与注意事项
能力局限:
- 对验证码(CAPTCHA)识别能力有限
- 速度比人工慢(每步都需截图和分析)
- 复杂拖拽操作稳定性有待提升
- 不能访问需要硬件密钥的系统
安全注意:
- 在沙箱/隔离环境中运行,避免 Claude 误操作重要系统
- 不要让 Claude 接触包含敏感凭证的屏幕
- 建议先在测试环境验证,再用于生产
在 AWS Bedrock 启用
python
import boto3
bedrock = boto3.client("bedrock-runtime", region_name="us-east-1")
response = bedrock.invoke_model(
modelId="anthropic.claude-opus-4-6-v1",
body=json.dumps({
"anthropic_version": "bedrock-2023-05-31",
"anthropic_beta": ["computer-use-2024-10-22"],
"max_tokens": 4096,
"tools": [{"type": "computer_20241022", "name": "computer",
"display_width_px": 1280, "display_height_px": 800}],
"messages": [{"role": "user", "content": "截图看看现在的屏幕"}],
})
)来源:Anthropic 官方文档 - docs.anthropic.com/en/docs/build-with-claude/computer-use