深度

Claude Computer Use 完全指南:让 AI 直接操控电脑执行任何任务

Anthropic Claude Computer Use 功能完整介绍:Computer Use 是什么(AI 控制桌面环境)、支持的工具(screenshot/click/type/key/scroll)、通过 Docker 安全运行演示环境、Python API 调用示例、实际使用场景(自动填表/UI 测试/跨应用自动化)、当前能力局限与注意事项、与传统 RPA(Robotic Process Automation)的对比,以及在 AWS Bedrock 和 Google Vertex AI 上启用 Computer Use 的方法。

2026/3/204分钟 阅读ClaudeEagle

Claude Computer Use 是 Anthropic 推出的突破性功能, 让 Claude 像人类一样「看屏幕、移动鼠标、点击、输入文字」, 直接在桌面环境中完成复杂任务。

Computer Use 是什么?

传统 AI 助手: 用户 → 描述任务 → Claude → 给出指令 → 用户手动执行 Computer Use: 用户 → 描述任务 → Claude → 直接截图、分析、点击、执行 → 完成

Claude 通过以下工具感知和操控计算机:

工具功能
computer.screenshot截取当前屏幕
computer.left_click鼠标左键点击
computer.right_click鼠标右键点击
computer.double_click双击
computer.type键盘输入文字
computer.key按键(Enter/Tab/Ctrl+C 等)
computer.scroll滚动页面
computer.mouse_move移动鼠标

快速体验:Docker 演示环境

Anthropic 提供了一个安全隔离的 Docker 演示环境:

bash
# 克隆演示仓库
git clone https://github.com/anthropics/anthropic-quickstarts
cd anthropic-quickstarts/computer-use-demo

# 启动演示环境(包含 Ubuntu 桌面 + VNC)
export ANTHROPIC_API_KEY=sk-ant-xxxxx
docker run   -e ANTHROPIC_API_KEY=$ANTHROPIC_API_KEY   -v $HOME/.anthropic:/home/user/.anthropic   -p 5900:5900 \  # VNC 端口
  -p 8501:8501 \  # Streamlit 界面
  -p 6080:6080 \  # noVNC 浏览器访问
  ghcr.io/anthropics/anthropic-quickstarts:computer-use-demo-latest

# 浏览器打开 http://localhost:6080 查看 Claude 操作桌面

Python API 调用示例

python
import anthropic

client = anthropic.Anthropic()

# 定义 Computer Use 工具
tools = [
    {
        "type": "computer_20241022",
        "name": "computer",
        "display_width_px": 1280,
        "display_height_px": 800,
        "display_number": 1,
    }
]

# 发起请求
response = client.messages.create(
    model="claude-opus-4-6",  # Computer Use 推荐使用 Opus
    max_tokens=4096,
    tools=tools,
    messages=[{
        "role": "user",
        "content": "打开浏览器,搜索'Anthropic Claude 最新消息',截图给我看"
    }],
    betas=["computer-use-2024-10-22"],  # 需要开启 beta
)

# 处理 Claude 的工具调用
for block in response.content:
    if block.type == "tool_use":
        print(f"Claude 要执行:{block.name}")
        print(f"参数:{block.input}")
        # 实际执行(需要连接真实桌面环境)
        # result = execute_computer_action(block.input)

实际使用场景

场景一:自动化表单填写

你:登录 https://example.com/admin, 把 sales_data.csv 里的数据逐行填到后台系统的导入页面 Claude: 1. 截图查看当前屏幕 2. 打开 Chrome → 导航到 URL 3. 截图确认登录页面 4. 输入用户名和密码 5. 点击登录按钮 6. 导航到导入页面 7. 逐行读取 CSV 并填入表单 ...(自主完成所有步骤)

场景二:跨应用数据迁移

你:把 Excel 里 A 列的邮箱地址, 全部添加到 HubSpot 的联系人列表里 Claude:直接操控 Excel 和 HubSpot,无需写代码,自动完成迁移

场景三:UI 自动化测试

你:在 staging 环境测试注册流程: 新用户注册 → 收到验证邮件 → 完成邮件验证 → 成功登录 截图每一步,标注出有问题的地方 Claude:自动执行完整测试流程并生成测试报告

与传统 RPA 对比

对比维度传统 RPA(UiPath/AA)Claude Computer Use
配置方式录制/可视化编程自然语言描述任务
适应变化差(UI 改动就失效)好(理解意图,自适应)
上手难度中高(需要培训)低(说话就行)
准确率高(录制精确)中(仍有出错概率)
适合场景固定重复流程复杂/动态/一次性任务

当前局限与注意事项

能力局限:

  • 对验证码(CAPTCHA)识别能力有限
  • 速度比人工慢(每步都需截图和分析)
  • 复杂拖拽操作稳定性有待提升
  • 不能访问需要硬件密钥的系统

安全注意:

  • 在沙箱/隔离环境中运行,避免 Claude 误操作重要系统
  • 不要让 Claude 接触包含敏感凭证的屏幕
  • 建议先在测试环境验证,再用于生产

在 AWS Bedrock 启用

python
import boto3

bedrock = boto3.client("bedrock-runtime", region_name="us-east-1")

response = bedrock.invoke_model(
    modelId="anthropic.claude-opus-4-6-v1",
    body=json.dumps({
        "anthropic_version": "bedrock-2023-05-31",
        "anthropic_beta": ["computer-use-2024-10-22"],
        "max_tokens": 4096,
        "tools": [{"type": "computer_20241022", "name": "computer",
                   "display_width_px": 1280, "display_height_px": 800}],
        "messages": [{"role": "user", "content": "截图看看现在的屏幕"}],
    })
)

来源:Anthropic 官方文档 - docs.anthropic.com/en/docs/build-with-claude/computer-use

相关文章推荐

深度2026 企业 AI Agent 现状报告:80% 已获可量化 ROI,编程是突破口Anthropic 联合 Material 公司调研 500+ 技术领导者的《2026 State of AI Agents Report》:57% 已部署多阶段工作流;86% 在生产代码部署 Agent;80% 报告可量化 ROI;编程时间节省覆盖规划/代码生成/文档/测试各 58-59%;真实案例(Doctolib 功能交付快 40%、eSentire 威胁分析从 5 小时到 7 分钟、L'Oréal 44000 月活数据直查);三大规模化挑战;以及企业 Claude Code 四阶段部署路径。2026/5/7深度2026 高级提示工程完全指南:7 个真正有效的技术,从 60% 精度提升到 90%2026 年生产环境有效的提示工程技术:思维链(零样本 CoT)、自一致性多数投票、思维树(ToT)、结构化 RAG 提示设计(带来源引用+相关性过滤)、宪法提示(Constitutional Prompting)、角色注入、强制结构化输出,以及已经失效的过时技术和技术选择决策树。2026/4/23深度Anthropic 2026 Agentic Coding 趋势报告:8 大预测解读,工程师角色从实施者转向编排者Anthropic《2026 Agentic Coding Trends Report》完整解读:60% AI 协作但只有 0-20% 完全委托的关键数据、8 大趋势(SDLC 压缩/多 Agent 团队/长时间 Agent/智能监督扩展/新用户群/经济重塑/全组织扩展/安全架构),以及 Rakuten/Fountain/TELUS/Zapier 的真实案例数据。2026/4/22深度MCP 代码执行模式深度解析:Anthropic 官方揭秘如何减少 98.7% 的 Token 消耗Anthropic 工程博客深度解析:传统 MCP 直接调用的两大 Token 浪费问题(工具定义占满上下文 + 中间结果来回传递),以及代码执行模式如何把 150,000 Token 降到 2,000 Token。涵盖文件树结构设计、按需加载工具、数据过滤、隐私保护和 Skill 持久化。2026/4/21深度LangGraph vs CrewAI vs AutoGen:2026 年 AI Agent 框架选型完全指南2026 年主流 AI Agent 框架深度对比:LangGraph 图结构(生产首选)、CrewAI 角色制(原型最快)、AutoGen 对话式(推理最强)。含架构原理、代码示例、实际基准数据、MCP 集成现状和选型决策框架。2026/4/17深度Hermes Agent 自学习技能系统实战:让 AI Agent 越用越聪明的完整指南Hermes Agent 技能系统完整指南:三级渐进加载机制、自动生成技能触发条件、手动编写和市场安装、技能自进化原理、团队共享技能库,以及与 Claude Code CLAUDE.md 的深度对比。2026/4/13