教程

OpenClaw Text-to-Speech 完全指南:ElevenLabs、OpenAI 与免费 Edge TTS 配置

OpenClaw TTS 文字转语音完整配置:ElevenLabs 高质量合成、OpenAI TTS、免费 Edge TTS(无需 API Key)三种服务商对比与配置示例、四种自动触发模式(always/inbound/tagged/off)、Telegram 语音气泡、模型驱动语音指令、长文自动摘要机制。

2026/3/114分钟 阅读ClaudeEagle

OpenClaw 内置 TTS(文字转语音)功能,支持三大服务商,可将 AI 回复自动转为语音消息,在 Telegram 中显示为圆形语音气泡。

三大支持服务商

服务商特点是否需要 API Key
ElevenLabs音质最佳,支持多语言情感合成需要
OpenAI质量优秀,延迟低需要
Edge TTS免费,微软神经网络语音,零成本不需要

如果没有配置任何 API Key,OpenClaw 自动使用 Edge TTS——完全免费,无需注册。

TTS 默认关闭

Auto-TTS 默认不开启。启用方式:

bash
# 当前会话永久开启
/tts always

# 或在配置文件中开启

快速配置

最简配置(启用 + 指定提供商)

json
{
  "messages": {
    "tts": {
      "auto": "always",
      "provider": "elevenlabs"
    }
  }
}

免费版(Edge TTS,无需 API Key)

json
{
  "messages": {
    "tts": {
      "auto": "always",
      "provider": "edge",
      "edge": {
        "enabled": true,
        "voice": "zh-CN-XiaoxiaoNeural",
        "lang": "zh-CN",
        "outputFormat": "audio-24khz-48kbitrate-mono-mp3",
        "rate": "+0%",
        "pitch": "+0%"
      }
    }
  }
}

常用中文语音:

  • zh-CN-XiaoxiaoNeural(女声,温柔)
  • zh-CN-YunxiNeural(男声,沉稳)
  • zh-TW-HsiaoChenNeural(台湾普通话)

ElevenLabs(高质量多语言)

json
{
  "messages": {
    "tts": {
      "auto": "always",
      "provider": "elevenlabs",
      "elevenlabs": {
        "apiKey": "your_elevenlabs_api_key",
        "voiceId": "voice_id",
        "modelId": "eleven_multilingual_v2",
        "voiceSettings": {
          "stability": 0.5,
          "similarityBoost": 0.75,
          "style": 0.0,
          "useSpeakerBoost": true,
          "speed": 1.0
        }
      }
    }
  }
}

OpenAI 主供 + ElevenLabs 备份

json
{
  "messages": {
    "tts": {
      "auto": "always",
      "provider": "openai",
      "summaryModel": "openai/gpt-4.1-mini",
      "openai": {
        "apiKey": "your_openai_api_key",
        "model": "gpt-4o-mini-tts",
        "voice": "alloy"
      },
      "elevenlabs": {
        "apiKey": "your_elevenlabs_api_key",
        "voiceId": "voice_id"
      }
    }
  }
}

四种自动 TTS 模式

模式触发条件
off禁用(默认)
always所有回复都转语音
inbound仅当收到语音消息后才回语音
tagged仅当回复含 [[tts]] 标签时
bash
/tts always    # 始终语音
/tts inbound   # 语音对语音
/tts tagged    # 按标签触发
/tts off       # 关闭
/tts status    # 查看当前状态

斜杠命令完整参考

bash
/tts off
/tts always
/tts inbound
/tts tagged
/tts status
/tts provider openai        # 切换提供商
/tts limit 2000             # 设置摘要阈值(字符数)
/tts summary off            # 关闭长文自动摘要
/tts audio Hello from AI   # 生成一次性语音(不影响设置)

Discord 注意:/tts 是 Discord 内置命令,OpenClaw 在 Discord 使用 /voice 作为替代。

模型驱动的语音指令

AI 可以在回复中嵌入 TTS 指令,动态控制语音效果:

这是你要的内容。 [[tts:voiceId=pMsXgVXv3BLzUgSXRplE model=eleven_v3 speed=1.1]] [[tts:text]](笑声) 再读一遍吧。[[/tts:text]]

可用指令键:voiceIdmodelstabilitysimilarityBooststylespeedlanguageCodeseed

禁用模型控制(更严格的设置):

json
{
  "messages": {
    "tts": {
      "modelOverrides": { "enabled": false }
    }
  }
}

长文自动摘要

回复超过阈值(默认 1500 字符)时,OpenClaw 先用语言模型摘要,再转语音:

json
{
  "messages": {
    "tts": {
      "summaryModel": "openai/gpt-4.1-mini"
    }
  }
}

Telegram 输出格式

  • Telegram:Opus 语音气泡(48kHz/64kbps)→ 显示为圆形语音泡
  • 其他频道:MP3(44.1kHz/128kbps)
  • Edge TTS:使用 edge.outputFormat 配置(默认 MP3)

TTS 处理流程

收到回复 → TTS 开启? 否 → 发送文本 是 → 含媒体/MEDIA:/超短? 是 → 发送文本 否 → 超过字数限制? 否 → TTS → 附加音频 是 → 摘要开启? 否 → 发送文本 是 → 摘要 → TTS → 附加音频

原文:Text-to-Speech - OpenClaw | 来源:OpenClaw 官方文档

相关文章推荐

教程OpenClaw Talk Mode 语音对话完全指南:用说话代替打字的 AI 交互新方式OpenClaw Talk Mode(语音对话模式)完整教程:Talk Mode 的工作原理(语音输入转文字 + AI 处理 + TTS 语音输出的完整链路)、在 iOS/Android/macOS 节点上启用 Talk Mode 的配置步骤、语音唤醒词(Voice Wake)设置、TTS 语音引擎选择(ElevenLabs/系统TTS)、语音对话的延迟优化、配合 Node 摄像头的多模态语音交互,以及 Talk Mode 与 Voice Wake 的组合使用场景(免手持语音助手/车载助手/烹饪助手)。2026/3/23教程OpenClaw Standing Orders 完全指南:让 AI 记住你的长期规则和行为偏好OpenClaw Standing Orders(常驻指令)功能完整教程:Standing Orders 与 SOUL.md 的区别(动态运行时规则 vs 静态人格文件)、通过对话动态添加/查看/删除常驻指令、指令的持久化存储与跨会话生效机制、适合写入 Standing Orders 的内容类型(格式偏好/禁止行为/固定工作流)、与 Hooks 的协同使用、按渠道/Agent 设置不同的 Standing Orders,以及常驻指令的最佳实践(写清晰的规则、避免矛盾冲突、定期清理过时规则)。2026/3/26教程OpenClaw 多媒体处理完全指南:图片识别、音频转写与视频理解实战OpenClaw 多媒体处理(Media)完整教程:发送图片给 AI 进行视觉分析(OCR/物体识别/图表解读/代码截图)、音频消息自动转写为文字(Whisper/系统STT)、视频消息关键帧提取与理解、Node 摄像头实时拍照触发分析、媒体消息的渠道支持差异(各渠道的图片/音频/视频支持情况对比)、大文件处理策略(分割/压缩/超时设置)、媒体消息在不同 AI 模型上的能力对比(Claude Vision/GPT-4V/Gemini Pro Vision),以及本地媒体文件分析(read 工具读取图片路径)。2026/3/25教程OpenClaw TUI 完全指南:纯键盘操作的终端管理界面使用详解OpenClaw TUI(Terminal User Interface,终端用户界面)完整使用指南:TUI 与 Control UI(浏览器)的定位对比、适合 TUI 的场景(SSH 远程/无浏览器服务器/低带宽环境)、启动命令(openclaw tui)及参数、界面布局(Agents 面板/Sessions 面板/Channels 状态/Logs 实时流)、全键盘快捷键手册(导航/选择/搜索/刷新/退出)、在 TUI 中发送测试消息、实时日志过滤与搜索,以及 TUI 与 tmux/screen 配合使用的后台运行方案。2026/3/25教程OpenClaw Control UI 与 Dashboard 完全指南:浏览器管理 AI 助手的全功能界面OpenClaw Control UI(控制面板)与 Dashboard(仪表盘)完整使用指南:Control UI 的功能布局(Agents 管理/Tools 工具面板/Sessions 会话查看/Channel 渠道状态)、浏览器访问方式(本地 localhost:18789 vs 远程 SSH 隧道)、在 Control UI 中实时修改 Agent 配置(SOUL.md 编辑/模型切换/工具开关)、Dashboard 数据概览(Token 用量/渠道在线状态/会话列表/Node 节点健康)、从 Dashboard 发起诊断(doctor 命令)、以及 TUI(终端界面)的使用场景与快捷键。2026/3/24教程OpenClaw 群消息完全指南:群组配置、@ 触发、白名单与多 Bot 协同实战OpenClaw 群消息(Group Messages)完整配置教程:群组消息的触发方式(requireMention/commandPrefix/respondToAll)、各渠道群组配置差异(Telegram群/Discord服务器/Slack频道/WhatsApp群)、群组白名单与黑名单管理、限制特定成员才能触发 AI(allowedUsers/allowedRoles)、响应限速防刷屏(cooldown)、多 Bot 在同一群组协同分工的配置方案、群组 Session 的记忆与上下文管理,以及群组中 AI 的礼貌边界设计(何时发言/何时沉默)。2026/3/24