Talk Mode 是 OpenClaw 的语音对话功能—— 不用打字,直接说话,AI 用语音回答你。 手不方便的时候,这个功能特别好用。
完整交互链路
你说话(麦克风)
↓ 语音录制(Node App)
↓ STT 语音识别(转文字)
↓ 文字发送到 OpenClaw Gateway
AI 处理(Claude)
↓ 文字回复
↓ TTS 文字转语音
你听到 AI 的语音回复
整个过程:说话 → 2-4 秒 → 听到 AI 回答
启用 Talk Mode
Talk Mode 需要已配对的 Node 设备(iOS/Android/macOS)。
iOS 配置
在 OpenClaw iOS App 中:
设置 → Talk Mode → 启用
选择语音识别语言:中文(普通话)/ English
配置 TTS 引擎
macOS 配置
json
{
"nodeHost": {
"talk": {
"enabled": true,
"inputDevice": "default",
"language": "zh-CN",
"tts": {
"engine": "system",
"voice": "Tingting"
}
}
}
}Android 配置
在 OpenClaw Android App 中:
设置 → 语音功能 → Talk Mode
选择语言:中文(简体)
TTS 语音引擎选择
OpenClaw 支持多种 TTS 引擎:
| 引擎 | 音质 | 延迟 | 费用 |
|---|---|---|---|
| 系统 TTS(iOS/macOS/Android) | ⭐⭐⭐ | 极低 | 免费 |
| ElevenLabs | ⭐⭐⭐⭐⭐ | 低 | 按字符计费 |
| OpenAI TTS | ⭐⭐⭐⭐ | 低 | 按字符计费 |
配置 ElevenLabs(最自然的语音):
json
{
"tts": {
"provider": "elevenlabs",
"apiKey": "your-elevenlabs-key",
"voice": "Sarah",
"model": "eleven_turbo_v2_5"
}
}Voice Wake(语音唤醒词)
Voice Wake 让你不需要点击,直接喊唤醒词就能开始对话:
json
{
"voiceWake": {
"enabled": true,
"keyword": "Hey Claw",
"language": "en-US",
"sensitivity": 0.7
}
}中文唤醒词:
json
{
"keyword": "你好助手",
"language": "zh-CN"
}工作流程:
你说「Hey Claw」
↓ 唤醒词检测(本地处理,不联网)
↓ 开始录音(3-10 秒)
你说出问题
↓ 自动停止录音(静音检测)
↓ 发送到 AI 处理
AI 语音回复
延迟优化
影响 Talk Mode 延迟的关键因素:
1. STT 语音识别延迟
- 系统 STT(iOS/macOS)最快(本地处理)
- 建议优先使用本地 STT
2. AI 处理延迟
- 使用 claude-haiku-4-5(比 Sonnet 快 3-5 倍)
- 对于语音场景,速度比精度重要
3. TTS 语音合成延迟
- 系统 TTS 最快(本地处理)
- ElevenLabs 延迟约 300-500ms
推荐组合(低延迟配置):
STT: 系统(本地)
AI: claude-haiku-4-5
TTS: 系统(本地)
总延迟: 约 1-2 秒
典型使用场景
场景一:车载语音助手
开车时:
「Hey Claw,导航到最近的加油站」
「帮我发消息给张三,说我晚点到」
「今天有什么重要邮件吗?」
场景二:烹饪助手
双手沾满面粉时:
「下一步是什么?」(询问食谱步骤)
「这个菜要加多少盐?」
「计时 5 分钟」
场景三:健身陪练
运动时:
「帮我记录今天跑了 5 公里」
「俯卧撑做了 30 个」
「给我一个热身建议」
Talk Mode + 摄像头:多模态语音交互
结合 Node 的摄像头能力:
你:「这道菜熟了吗?」(说话同时触发摄像头拍照)
AI:[分析摄像头图片] 从照片看,肉的颜色还偏粉,
建议再煮 3-5 分钟
来源:OpenClaw 官方文档 - docs.openclaw.ai/nodes/talk