教程

OpenClaw 多媒体处理完全指南:图片识别、音频转写与视频理解实战

OpenClaw 多媒体处理(Media)完整教程:发送图片给 AI 进行视觉分析(OCR/物体识别/图表解读/代码截图)、音频消息自动转写为文字(Whisper/系统STT)、视频消息关键帧提取与理解、Node 摄像头实时拍照触发分析、媒体消息的渠道支持差异(各渠道的图片/音频/视频支持情况对比)、大文件处理策略(分割/压缩/超时设置)、媒体消息在不同 AI 模型上的能力对比(Claude Vision/GPT-4V/Gemini Pro Vision),以及本地媒体文件分析(read 工具读取图片路径)。

2026/3/254分钟 阅读ClaudeEagle

文字只是 OpenClaw 能处理的一小部分—— 图片、音频、视频,现代 AI 模型都能理解。 本文教你把多媒体能力用起来。

图片识别与视觉分析

发图片给 AI 分析

在支持的渠道(Telegram/WhatsApp/Discord)直接发图片:

你(发一张报错截图):这个错误怎么解决? AI:[分析图片] 我看到 Python 报错: TypeError: 'NoneType' object is not subscriptable 出现在第 23 行,问题是你在 get_user() 返回 None 时 没有检查就直接用了 result['name']。 修复:在使用前加 if result is None: return

图片分析的典型用途

OCR 文字识别: 发名片照片 → 提取姓名/电话/邮箱 发收据/发票 → 提取金额/日期/商家名 发白板照片 → 整理会议笔记 图表解读: 发折线图 → "这个 Q3 下降的原因是什么?" 发数据表截图 → 分析关键数据点 代码截图: 发 IDE 截图 → 分析代码和错误 产品/商品识别: 发商品照片 → 询问型号/价格/规格

本地图片文件分析

你:分析一下 ~/Desktop/chart.png 这张图 AI(内部调用 read 工具): [读取图片文件] 这张图是一个折线图,显示...

各渠道图片支持情况

渠道图片视频音频文件
Telegram
WhatsApp
Discord
Slack
iMessage(BlueBubbles)
Matrix
IRC
WebChat--

音频消息自动转写

语音消息会自动转为文字再处理:

你(发 Telegram 语音消息,说话 30 秒) AI 内部处理: 1. 接收音频文件 2. 调用 STT(语音转文字) 3. 将转写内容传给 AI 处理 4. 回复文字或语音 AI 回复(文字): 我听到你说:"帮我查一下明天北京的天气和 下午 3 点的会议是在哪个会议室" 天气:明天北京晴,14-22°C 会议:根据日历,14:00 在 A座 302 会议室

STT 引擎配置

json
{
  "stt": {
    "provider": "openai",
    "model": "whisper-1",
    "language": "zh"
  }
}

支持的 STT 提供商:

  • "openai":Whisper API(准确度最高,支持中文)
  • "groq":Whisper via Groq(速度最快)
  • "deepgram":专业语音识别(支持实时流)
  • "system":系统本地 STT(免费,准确度较低)

视频消息处理

视频消息默认提取关键帧进行分析:

你(发一段 10 秒的产品演示视频): 帮我生成这段视频的文字描述 AI:[提取视频关键帧,分析每一帧] 这段视频展示了: 0-2s:产品整体外观(白色盒子,蓝色 Logo) 2-5s:打开包装的过程 5-8s:产品特写,可以看到屏幕界面 8-10s:功能演示,操作流程...

视频处理配置:

json
{
  "media": {
    "video": {
      "maxFrames": 10,
      "frameInterval": 2,
      "maxSizeMb": 50
    }
  }
}

Node 摄像头:实时拍照分析

配对了 iOS/Android 节点后:

你:用摄像头看一下我桌上这道菜, 告诉我大概有多少卡路里 AI(调用节点摄像头拍照): [前置摄像头拍摄] 我看到一盘炒饭, 估计含有: - 米饭约 200g(~260 kcal) - 鸡蛋 1 个(~80 kcal) - 蔬菜(低卡) 总计约 400-450 kcal

模型视觉能力对比

模型图片理解OCR图表代码截图
Claude Sonnet 4⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐
Claude Haiku 4⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐
GPT-4o⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐
Gemini 2.5 Pro⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐

Claude 在图表理解和代码截图分析方面表现最突出。

大文件处理

json
{
  "media": {
    "maxImageSizeMb": 20,
    "maxAudioSizeMb": 25,
    "maxVideoSizeMb": 100,
    "onExceed": "reject",
    "rejectMessage": "文件太大,请压缩后再发送(上限 20MB)"
  }
}

来源:OpenClaw 官方文档 - docs.openclaw.ai/nodes/media-understanding

相关文章推荐

教程OpenClaw Standing Orders 完全指南:让 AI 记住你的长期规则和行为偏好OpenClaw Standing Orders(常驻指令)功能完整教程:Standing Orders 与 SOUL.md 的区别(动态运行时规则 vs 静态人格文件)、通过对话动态添加/查看/删除常驻指令、指令的持久化存储与跨会话生效机制、适合写入 Standing Orders 的内容类型(格式偏好/禁止行为/固定工作流)、与 Hooks 的协同使用、按渠道/Agent 设置不同的 Standing Orders,以及常驻指令的最佳实践(写清晰的规则、避免矛盾冲突、定期清理过时规则)。2026/3/26教程OpenClaw TUI 完全指南:纯键盘操作的终端管理界面使用详解OpenClaw TUI(Terminal User Interface,终端用户界面)完整使用指南:TUI 与 Control UI(浏览器)的定位对比、适合 TUI 的场景(SSH 远程/无浏览器服务器/低带宽环境)、启动命令(openclaw tui)及参数、界面布局(Agents 面板/Sessions 面板/Channels 状态/Logs 实时流)、全键盘快捷键手册(导航/选择/搜索/刷新/退出)、在 TUI 中发送测试消息、实时日志过滤与搜索,以及 TUI 与 tmux/screen 配合使用的后台运行方案。2026/3/25教程OpenClaw Control UI 与 Dashboard 完全指南:浏览器管理 AI 助手的全功能界面OpenClaw Control UI(控制面板)与 Dashboard(仪表盘)完整使用指南:Control UI 的功能布局(Agents 管理/Tools 工具面板/Sessions 会话查看/Channel 渠道状态)、浏览器访问方式(本地 localhost:18789 vs 远程 SSH 隧道)、在 Control UI 中实时修改 Agent 配置(SOUL.md 编辑/模型切换/工具开关)、Dashboard 数据概览(Token 用量/渠道在线状态/会话列表/Node 节点健康)、从 Dashboard 发起诊断(doctor 命令)、以及 TUI(终端界面)的使用场景与快捷键。2026/3/24教程OpenClaw 群消息完全指南:群组配置、@ 触发、白名单与多 Bot 协同实战OpenClaw 群消息(Group Messages)完整配置教程:群组消息的触发方式(requireMention/commandPrefix/respondToAll)、各渠道群组配置差异(Telegram群/Discord服务器/Slack频道/WhatsApp群)、群组白名单与黑名单管理、限制特定成员才能触发 AI(allowedUsers/allowedRoles)、响应限速防刷屏(cooldown)、多 Bot 在同一群组协同分工的配置方案、群组 Session 的记忆与上下文管理,以及群组中 AI 的礼貌边界设计(何时发言/何时沉默)。2026/3/24教程OpenClaw 接入 Nextcloud Talk:自托管视频会议平台 AI 助手完全配置指南OpenClaw 接入 Nextcloud Talk 的完整教程:Nextcloud Talk 的自托管通信平台特点(视频会议+聊天+文件协作)、插件安装(@openclaw/nextcloud-talk)、通过 occ CLI 创建 Bot 账户并注册 Webhook、OpenClaw 最简配置(serverUrl+appPassword+sharedSecret)、DM 私信与房间(Room)访问控制、Markdown 消息格式和表情反应支持、局域网/内网部署注意事项(WebSocket vs Polling),以及 Nextcloud Talk AI 助手的典型使用场景(会议摘要/文件问答/任务分派)。2026/3/24教程OpenClaw Talk Mode 语音对话完全指南:用说话代替打字的 AI 交互新方式OpenClaw Talk Mode(语音对话模式)完整教程:Talk Mode 的工作原理(语音输入转文字 + AI 处理 + TTS 语音输出的完整链路)、在 iOS/Android/macOS 节点上启用 Talk Mode 的配置步骤、语音唤醒词(Voice Wake)设置、TTS 语音引擎选择(ElevenLabs/系统TTS)、语音对话的延迟优化、配合 Node 摄像头的多模态语音交互,以及 Talk Mode 与 Voice Wake 的组合使用场景(免手持语音助手/车载助手/烹饪助手)。2026/3/23