From 29a8abb77b20b7fb7089e5c022fc78ade795cf82 Mon Sep 17 00:00:00 2001 From: "openclaw-docs-i18n[bot]" Date: Wed, 6 May 2026 08:32:27 +0000 Subject: [PATCH] chore(i18n): refresh zh-CN translations --- docs/zh-CN/cli/infer.md | 125 ++++---- docs/zh-CN/plugins/google-meet.md | 467 +++++++++++++++--------------- docs/zh-CN/plugins/voice-call.md | 307 ++++++++++---------- 3 files changed, 456 insertions(+), 443 deletions(-) diff --git a/docs/zh-CN/cli/infer.md b/docs/zh-CN/cli/infer.md index ace825953..2ed8949d2 100644 --- a/docs/zh-CN/cli/infer.md +++ b/docs/zh-CN/cli/infer.md @@ -2,38 +2,38 @@ read_when: - 添加或修改 `openclaw infer` 命令 - 设计稳定的无头能力自动化 -summary: 用于由提供商支持的模型、图像、音频、TTS、视频、网络和嵌入工作流的推理优先 CLI +summary: 面向由提供商支持的模型、图像、音频、TTS、视频、Web 和嵌入工作流的推理优先 CLI title: 推理 CLI x-i18n: - generated_at: "2026-05-01T20:36:37Z" + generated_at: "2026-05-06T08:29:35Z" model: gpt-5.5 provider: openai - source_hash: 04f8b4aeb70e960835612eedcc0a22202957803ca4e5eeb3f1e107e8c736e458 + source_hash: 232bf8165ff74b19aaf84431519d9f9f99f20831420b73935f73ffd9412bd04a source_path: cli/infer.md workflow: 16 --- -`openclaw infer` 是 OpenClaw 中由提供商支持的推理工作流的规范无头接口。 +`openclaw infer` 是 OpenClaw 中由提供商支撑的推理工作流的规范无头界面。 它有意暴露能力族,而不是原始 Gateway 网关 RPC 名称,也不是原始智能体工具 ID。 -## 将 infer 转成一个 Skill +## 将 infer 转换为技能 -将下面内容复制并粘贴给智能体: +复制并粘贴这段内容给智能体: ```text Read https://docs.openclaw.ai/cli/infer, then create a skill that routes my common workflows to `openclaw infer`. Focus on model runs, image generation, video generation, audio transcription, TTS, web search, and embeddings. ``` -一个优秀的基于 infer 的 Skill 应该: +一个优秀的基于 infer 的技能应该: - 将常见用户意图映射到正确的 infer 子命令 - 为它覆盖的工作流包含几个规范的 infer 示例 - 在示例和建议中优先使用 `openclaw infer ...` -- 避免在 Skill 正文中重新记录整个 infer 接口 +- 避免在技能正文中重新记录整个 infer 界面 -典型的面向 infer 的 Skill 覆盖范围: +典型的以 infer 为重点的技能覆盖范围: - `openclaw infer model run` - `openclaw infer image generate` @@ -44,17 +44,20 @@ Focus on model runs, image generation, video generation, audio transcription, TT ## 为什么使用 infer -`openclaw infer` 为 OpenClaw 内由提供商支持的推理任务提供一个一致的 CLI。 +`openclaw infer` 为 OpenClaw 内部由提供商支撑的推理任务提供一个一致的 CLI。 -优点: +优势: -- 使用 OpenClaw 中已经配置好的提供商和模型,而不是为每个后端接入一次性的包装器。 -- 将模型、图像、音频转录、TTS、视频、网页和嵌入工作流放在同一个命令树下。 +- 使用 OpenClaw 中已经配置的提供商和模型,而不是为每个后端连接一次性包装器。 +- 将模型、图像、音频转录、TTS、视频、Web 和嵌入工作流放在同一个命令树下。 - 为脚本、自动化和智能体驱动的工作流使用稳定的 `--json` 输出结构。 -- 当任务本质上是“运行推理”时,优先使用 OpenClaw 的第一方接口。 -- 对大多数 infer 命令使用普通本地路径,无需 Gateway 网关。 +- 当任务本质上是“运行推理”时,优先使用 OpenClaw 的第一方界面。 +- 对大多数 infer 命令使用正常的本地路径,无需 Gateway 网关。 -对于端到端提供商检查,较低层级的提供商测试通过后,优先使用 `openclaw infer ...`。它会在发起提供商请求之前,执行已发布的 CLI、配置加载、默认智能体解析、内置插件激活以及共享能力运行时。 +对于端到端提供商检查,请在较低层级的 +提供商测试通过后优先使用 `openclaw infer ...`。在发起提供商请求前,它会运行已发布的 CLI、配置加载、 +默认智能体解析、内置插件激活,以及共享能力 +运行时。 ## 命令树 @@ -111,39 +114,39 @@ Focus on model runs, image generation, video generation, audio transcription, TT 此表将常见推理任务映射到对应的 infer 命令。 -| 任务 | 命令 | 备注 | +| 任务 | 命令 | 说明 | | ---------------------------- | --------------------------------------------------------------------------------------------- | ----------------------------------------------------- | -| 运行文本/模型提示词 | `openclaw infer model run --prompt "..." --json` | 默认使用普通本地路径 | +| 运行文本/模型提示词 | `openclaw infer model run --prompt "..." --json` | 默认使用正常的本地路径 | | 在图像上运行模型提示词 | `openclaw infer model run --prompt "Describe this" --file ./image.png --model provider/model` | 对多个图像输入重复使用 `--file` | | 生成图像 | `openclaw infer image generate --prompt "..." --json` | 从现有文件开始时使用 `image edit` | | 描述图像文件 | `openclaw infer image describe --file ./image.png --prompt "..." --json` | `--model` 必须是支持图像的 `` | | 转录音频 | `openclaw infer audio transcribe --file ./memo.m4a --json` | `--model` 必须是 `` | | 合成语音 | `openclaw infer tts convert --text "..." --output ./speech.mp3 --json` | `tts status` 面向 Gateway 网关 | -| 生成视频 | `openclaw infer video generate --prompt "..." --json` | 支持 `--resolution` 等提供商提示 | +| 生成视频 | `openclaw infer video generate --prompt "..." --json` | 支持提供商提示,例如 `--resolution` | | 描述视频文件 | `openclaw infer video describe --file ./clip.mp4 --json` | `--model` 必须是 `` | -| 搜索网页 | `openclaw infer web search --query "..." --json` | | +| 搜索 Web | `openclaw infer web search --query "..." --json` | | | 获取网页 | `openclaw infer web fetch --url https://example.com --json` | | | 创建嵌入 | `openclaw infer embedding create --text "..." --json` | | ## 行为 -- `openclaw infer ...` 是这些工作流的主要 CLI 接口。 -- 当输出会被另一个命令或脚本消费时,使用 `--json`。 +- `openclaw infer ...` 是这些工作流的主要 CLI 界面。 +- 当输出将由另一个命令或脚本消费时,使用 `--json`。 - 当需要特定后端时,使用 `--provider` 或 `--model provider/model`。 - 对于 `image describe`、`audio transcribe` 和 `video describe`,`--model` 必须使用 `` 形式。 -- 对于 `image describe`,显式 `--model` 会直接运行该提供商/模型。该模型必须在模型目录或提供商配置中支持图像。`codex/` 会运行有边界的 Codex app-server 图像理解轮次;`openai-codex/` 使用 OpenAI Codex OAuth 提供商路径。 +- 对于 `image describe`,显式的 `--model` 会直接运行该提供商/模型。该模型必须在模型目录或提供商配置中具备图像能力。`codex/` 会运行一个有界的 Codex 应用服务器图像理解轮次;`openai-codex/` 使用 OpenAI Codex OAuth 提供商路径。 - 无状态执行命令默认使用本地。 -- Gateway 网关管理的状态命令默认使用 Gateway 网关。 -- 普通本地路径不要求 Gateway 网关正在运行。 -- 本地 `model run` 是精简的一次性提供商补全。它会解析已配置的智能体模型和凭证,但不会启动聊天智能体轮次、加载工具或打开内置 MCP 服务器。 -- `model run --file` 接受图像文件,检测它们的 MIME 类型,并将它们与提供的提示词一起发送到所选模型。对多个图像重复使用 `--file`。 +- Gateway 网关托管的状态命令默认使用 Gateway 网关。 +- 正常的本地路径不要求 Gateway 网关正在运行。 +- 本地 `model run` 是一个精简的一次性提供商补全。它会解析已配置的智能体模型和凭证,但不会启动聊天智能体轮次、加载工具,或打开内置 MCP 服务器。 +- `model run --file` 接受图像文件,检测其 MIME 类型,并将它们与提供的提示词一起发送到所选模型。对多个图像重复使用 `--file`。 - `model run --file` 会拒绝非图像输入。对音频文件使用 `infer audio transcribe`,对视频文件使用 `infer video describe`。 -- `model run --gateway` 会执行 Gateway 网关路由、已保存凭证、提供商选择和嵌入式运行时,但仍作为原始模型探测运行:它会发送提供的提示词和任何图像附件,不包含先前的会话转录、bootstrap/AGENTS 上下文、上下文引擎装配、工具或内置 MCP 服务器。 -- `model run --gateway --model ` 需要可信操作员 Gateway 网关凭据,因为该请求要求 Gateway 网关运行一次性提供商/模型覆盖。 +- `model run --gateway` 会运行 Gateway 网关路由、保存的凭证、提供商选择和嵌入式运行时,但仍作为原始模型探测运行:它会发送提供的提示词和任何图像附件,不包含先前会话转录、bootstrap/AGENTS 上下文、上下文引擎组装、工具或内置 MCP 服务器。 +- `model run --gateway --model ` 需要受信任的操作员 Gateway 网关凭证,因为该请求要求 Gateway 网关运行一次性提供商/模型覆盖。 ## 模型 -使用 `model` 进行由提供商支持的文本推理以及模型/提供商检查。 +使用 `model` 执行由提供商支撑的文本推理以及模型/提供商检查。 ```bash openclaw infer model run --prompt "Reply with exactly: smoke-ok" --json @@ -153,7 +156,8 @@ openclaw infer model providers --json openclaw infer model inspect --name gpt-5.5 --json ``` -使用完整的 `` 引用来冒烟测试特定提供商,而无需启动 Gateway 网关或加载完整智能体工具接口: +使用完整的 `` 引用来对特定提供商进行冒烟测试,而无需 +启动 Gateway 网关或加载完整的智能体工具界面: ```bash openclaw infer model run --local --model anthropic/claude-sonnet-4-6 --prompt "Reply with exactly: pong" --json @@ -165,16 +169,17 @@ openclaw infer model run --local --model openai/gpt-4.1 --prompt "Reply with exa openclaw infer model run --local --model ollama/qwen2.5vl:7b --prompt "Describe this image." --file ./photo.jpg --json ``` -备注: +说明: -- 本地 `model run` 是检查提供商/模型/凭证健康状态的最窄 CLI 冒烟测试,因为它只向所选模型发送提供的提示词。 -- 本地 `model run --file` 保持该精简路径,并将图像内容直接附加到单条用户消息。当 MIME 类型被检测为 `image/*` 时,PNG、JPEG 和 WebP 等常见图像文件可用;不受支持或无法识别的文件会在调用提供商之前失败。 -- 当你想直接测试所选多模态文本模型时,`model run --file` 最合适。当你想使用 OpenClaw 的图像理解提供商选择和默认图像模型路由时,使用 `infer image describe`。 -- 所选模型必须支持图像输入;纯文本模型可能会在提供商层拒绝请求。 +- 本地 `model run` 是用于检查提供商/模型/凭证健康状况的最窄 CLI 冒烟测试,因为对于非 Codex 提供商,它只会将提供的提示词发送到所选模型。 +- `openai-codex/*` 本地探测是一个很窄的例外:OpenClaw 会添加一条最小系统指令,以便 Codex Responses 传输可以填充其必需的 `instructions` 字段,而不会添加完整的智能体上下文、工具、记忆或会话转录。 +- 本地 `model run --file` 保持该精简路径,并将图像内容直接附加到单条用户消息。PNG、JPEG 和 WebP 等常见图像文件在其 MIME 类型被检测为 `image/*` 时可以工作;不支持或无法识别的文件会在调用提供商之前失败。 +- 当你想直接测试所选多模态文本模型时,`model run --file` 最合适。当你想使用 OpenClaw 的图像理解提供商选择和默认图像模型路由时,请使用 `infer image describe`。 +- 所选模型必须支持图像输入;纯文本模型可能会在提供商层拒绝该请求。 - `model run --prompt` 必须包含非空白文本;空提示词会在调用本地提供商或 Gateway 网关之前被拒绝。 -- 当提供商没有返回文本输出时,本地 `model run` 会以非零状态退出,因此不可达的本地提供商和空补全不会看起来像成功探测。 -- 当你需要测试 Gateway 网关路由、智能体运行时设置或 Gateway 网关管理的提供商状态,同时保持模型输入为原始内容时,使用 `model run --gateway`。当你需要完整智能体上下文、工具、记忆和会话转录时,使用 `openclaw agent` 或聊天接口。 -- `model auth login`、`model auth logout` 和 `model auth status` 管理已保存的提供商凭证状态。 +- 当提供商未返回文本输出时,本地 `model run` 会以非零状态退出,因此不可达的本地提供商和空补全不会看起来像成功的探测。 +- 当你需要测试 Gateway 网关路由、智能体运行时设置或 Gateway 网关托管的提供商状态,同时保持原始模型输入时,使用 `model run --gateway`。当你想要完整的智能体上下文、工具、记忆和会话转录时,使用 `openclaw agent` 或聊天界面。 +- `model auth login`、`model auth logout` 和 `model auth status` 管理保存的提供商凭证状态。 ## 图像 @@ -194,13 +199,13 @@ openclaw infer image describe --file ./ui-screenshot.png --model openai/gpt-4.1- openclaw infer image describe --file ./photo.jpg --model ollama/qwen2.5vl:7b --prompt "Describe the image in one sentence" --timeout-ms 300000 --json ``` -备注: +说明: -- 从现有输入文件开始时使用 `image edit`。 -- 对支持参考图像编辑几何提示的提供商/模型,将 `--size`、`--aspect-ratio` 或 `--resolution` 与 `image edit` 一起使用。 -- 将 `--output-format png --background transparent` 与 `--model openai/gpt-image-1.5` 一起使用,以获得透明背景的 OpenAI PNG 输出;`--openai-background` 仍可作为 OpenAI 专用别名使用。不声明背景支持的提供商会将该提示报告为被忽略的覆盖项。 -- 使用 `image providers --json` 验证哪些内置图像提供商可被发现、已配置、被选中,以及每个提供商暴露了哪些生成/编辑能力。 -- 使用 `image generate --model --json` 作为图像生成更改的最窄实时 CLI 冒烟测试。示例: +- 从现有输入文件开始时,使用 `image edit`。 +- 对于在参考图像编辑中支持几何提示的提供商/模型,配合 `image edit` 使用 `--size`、`--aspect-ratio` 或 `--resolution`。 +- 使用 `--output-format png --background transparent` 和 `--model openai/gpt-image-1.5` 输出透明背景的 OpenAI PNG;`--openai-background` 仍可用作 OpenAI 专用别名。不声明背景支持的提供商会将该提示报告为被忽略的覆盖项。 +- 使用 `image providers --json` 验证哪些内置图像提供商可被发现、已配置、已选中,以及每个提供商公开了哪些生成/编辑能力。 +- 使用 `image generate --model --json` 作为图像生成变更最窄范围的实时 CLI 冒烟测试。示例: ```bash openclaw infer image providers --json @@ -211,14 +216,12 @@ openclaw infer image describe --file ./photo.jpg --model ollama/qwen2.5vl:7b --p --json ``` - JSON 响应会报告 `ok`、`provider`、`model`、`attempts` 和已写入的 - 输出路径。设置 `--output` 时,最终扩展名可能会遵循 - 提供商返回的 MIME 类型。 + JSON 响应会报告 `ok`、`provider`、`model`、`attempts` 和写入的输出路径。设置 `--output` 时,最终扩展名可能遵循提供商返回的 MIME 类型。 -- 对于 `image describe` 和 `image describe-many`,使用 `--prompt` 给视觉模型提供特定于任务的指令,例如 OCR、比较、UI 检查或简洁图注。 -- 对于较慢的本地视觉模型或冷启动的 Ollama,使用 `--timeout-ms`。 -- 对于 `image describe`,`--model` 必须是支持图像的 ``。 -- 对于本地 Ollama 视觉模型,请先拉取模型,并将 `OLLAMA_API_KEY` 设置为任意占位值,例如 `ollama-local`。请参阅 [Ollama](/zh-CN/providers/ollama#vision-and-image-description)。 +- 对于 `image describe` 和 `image describe-many`,使用 `--prompt` 给视觉模型提供特定任务的指令,例如 OCR、比较、UI 检查或简洁说明。 +- 对慢速本地视觉模型或冷启动的 Ollama 使用 `--timeout-ms`。 +- 对于 `image describe`,`--model` 必须是具备图像能力的 ``。 +- 对于本地 Ollama 视觉模型,先拉取模型,并将 `OLLAMA_API_KEY` 设置为任意占位值,例如 `ollama-local`。参见 [Ollama](/zh-CN/providers/ollama#vision-and-image-description)。 ## 音频 @@ -230,7 +233,7 @@ openclaw infer audio transcribe --file ./team-sync.m4a --language en --prompt "F openclaw infer audio transcribe --file ./memo.m4a --model openai/whisper-1 --json ``` -注意: +注意事项: - `audio transcribe` 用于文件转录,而不是实时会话管理。 - `--model` 必须是 ``。 @@ -246,9 +249,9 @@ openclaw infer tts providers --json openclaw infer tts status --json ``` -注意: +注意事项: -- `tts status` 默认使用 Gateway 网关,因为它反映 Gateway 网关管理的 TTS 状态。 +- `tts status` 默认使用 Gateway 网关,因为它反映由 Gateway 网关管理的 TTS 状态。 - 使用 `tts providers`、`tts voices` 和 `tts set-provider` 检查并配置 TTS 行为。 ## 视频 @@ -262,14 +265,14 @@ openclaw infer video describe --file ./clip.mp4 --json openclaw infer video describe --file ./clip.mp4 --model openai/gpt-4.1-mini --json ``` -注意: +注意事项: - `video generate` 接受 `--size`、`--aspect-ratio`、`--resolution`、`--duration`、`--audio`、`--watermark` 和 `--timeout-ms`,并将它们转发给视频生成运行时。 - 对于 `video describe`,`--model` 必须是 ``。 -## 网页 +## Web -使用 `web` 执行搜索和获取工作流。 +使用 `web` 进行搜索和获取工作流。 ```bash openclaw infer web search --query "OpenClaw docs" --json @@ -280,7 +283,7 @@ openclaw infer web providers --json 注意事项: -- 使用 `web providers` 检查可用、已配置和已选择的提供商。 +- 使用 `web providers` 检查可用、已配置和已选中的提供商。 ## 嵌入 @@ -294,7 +297,7 @@ openclaw infer embedding providers --json ## JSON 输出 -infer 命令会将 JSON 输出规范化到共享封套下: +Infer 命令会将 JSON 输出规范化到共享信封中: ```json { @@ -319,7 +322,7 @@ infer 命令会将 JSON 输出规范化到共享封套下: - `outputs` - `error` -对于生成媒体的命令,`outputs` 包含 OpenClaw 写入的文件。自动化时应使用该数组中的 `path`、`mimeType`、`size` 和任何媒体特定尺寸,而不是解析面向人类可读的 stdout。 +对于生成媒体的命令,`outputs` 包含 OpenClaw 写入的文件。自动化时,请使用该数组中的 `path`、`mimeType`、`size` 和任何媒体特定尺寸,而不是解析面向人类可读的 stdout。 ## 常见陷阱 diff --git a/docs/zh-CN/plugins/google-meet.md b/docs/zh-CN/plugins/google-meet.md index 774442e41..0b380ce73 100644 --- a/docs/zh-CN/plugins/google-meet.md +++ b/docs/zh-CN/plugins/google-meet.md @@ -1,36 +1,36 @@ --- read_when: - - 你想让一个 OpenClaw 智能体加入 Google Meet 会议 - - 你希望 OpenClaw 智能体创建一个新的 Google Meet 通话 + - 你想让 OpenClaw 智能体加入 Google Meet 通话 + - 你希望一个 OpenClaw 智能体创建一个新的 Google Meet 通话 - 你正在将 Chrome、Chrome 节点或 Twilio 配置为 Google Meet 传输协议 -summary: Google Meet 插件:通过 Chrome 或 Twilio 加入明确的 Meet URL,并使用智能体回话默认设置 +summary: Google Meet 插件:通过 Chrome 或 Twilio 加入明确指定的 Meet URL,并使用智能体回话默认设置 title: Google Meet 插件 x-i18n: - generated_at: "2026-05-04T06:40:45Z" + generated_at: "2026-05-06T08:29:43Z" model: gpt-5.5 provider: openai - source_hash: 4268ad895bbf83d649b9571c0888c27eb982ad9710dfb408f22f7818cdc5dbcb + source_hash: 9c1de7528ddabe6411598eea362d4a21c6f95f374700046c18294b215a1333d3 source_path: plugins/google-meet.md workflow: 16 --- -Google Meet 参与者支持面向 OpenClaw,插件按设计保持显式: +OpenClaw 的 Google Meet 参与者支持设计上是显式的: - 它只会加入显式的 `https://meet.google.com/...` URL。 - 它可以通过 Google Meet API 创建新的 Meet 空间,然后加入返回的 URL。 -- `agent` 是默认回话模式:实时转录负责监听,配置的 OpenClaw 智能体负责回答,常规 OpenClaw TTS 会在 Meet 中发声。 -- `bidi` 仍可作为备用的直接实时语音模型模式。 -- 智能体通过 `mode` 选择加入行为:使用 `agent` 进行实时监听/回话,使用 `bidi` 作为直接实时语音备用方案,或使用 `transcribe` 加入/控制浏览器但不启用回话桥接。 +- `agent` 是默认的回话模式:实时转录会监听,配置的 OpenClaw 智能体会回答,常规 OpenClaw TTS 会在 Meet 中发声。 +- `bidi` 仍可用作备用的直接实时语音模型模式。 +- 智能体通过 `mode` 选择加入行为:使用 `agent` 进行实时监听/回话,使用 `bidi` 作为直接实时语音备用模式,或使用 `transcribe` 加入/控制浏览器但不启用回话桥接。 - 身份验证从个人 Google OAuth 或已登录的 Chrome 配置文件开始。 -- 不会自动播报同意声明。 +- 没有自动同意声明。 - 默认 Chrome 音频后端是 `BlackHole 2ch`。 -- Chrome 可以在本地运行,也可以在已配对的节点主机上运行。 -- Twilio 接受拨入号码以及可选的 PIN 或 DTMF 序列;它不能直接拨打 Meet URL。 -- CLI 命令是 `googlemeet`;`meet` 保留给更广义的智能体电话会议工作流。 +- Chrome 可以在本地运行,也可以在配对的节点主机上运行。 +- Twilio 接受拨入号码以及可选 PIN 或 DTMF 序列;它不能直接拨打 Meet URL。 +- CLI 命令是 `googlemeet`;`meet` 保留给更广泛的智能体电话会议工作流。 ## 快速开始 -安装本地音频依赖,并配置实时转录提供商以及常规 OpenClaw TTS。OpenAI 是默认转录提供商;Google Gemini Live 也可作为单独的 `bidi` 语音备用方案使用,并设置 `realtime.voiceProvider: "google"`: +安装本地音频依赖,并配置实时转录提供商以及常规 OpenClaw TTS。OpenAI 是默认转录提供商;Google Gemini Live 也可以作为单独的 `bidi` 语音备用方案使用,需设置 `realtime.voiceProvider: "google"`: ```bash brew install blackhole-2ch sox @@ -39,13 +39,13 @@ export OPENAI_API_KEY=sk-... export GEMINI_API_KEY=... ``` -`blackhole-2ch` 会安装 `BlackHole 2ch` 虚拟音频设备。Homebrew 的安装器需要重启,macOS 才会暴露该设备: +`blackhole-2ch` 会安装 `BlackHole 2ch` 虚拟音频设备。Homebrew 的安装器需要重启后,macOS 才会暴露该设备: ```bash sudo reboot ``` -重启后,验证这两个部分: +重启后,验证这两项: ```bash system_profiler SPAudioDataType | grep -i BlackHole @@ -73,21 +73,21 @@ command -v sox openclaw googlemeet setup ``` -设置输出旨在便于智能体读取,并且感知模式。它会报告 Chrome 配置文件、节点固定,以及对于实时 Chrome 加入场景的 BlackHole/SoX 音频桥接和延迟实时介绍检查。对于仅观察的加入,请用 `--mode transcribe` 检查同一传输协议;该模式会跳过实时音频前置条件,因为它不会通过桥接监听或发声: +设置输出旨在供智能体读取,并且会感知模式。它会报告 Chrome 配置文件、节点固定情况,以及对于实时 Chrome 加入,会报告 BlackHole/SoX 音频桥接和延迟实时开场检查。对于仅观察加入,使用 `--mode transcribe` 检查相同传输;该模式会跳过实时音频前置条件,因为它不会通过桥接监听或发声: ```bash openclaw googlemeet setup --transport chrome-node --mode transcribe ``` -配置 Twilio 委派后,设置还会报告 `voice-call` 插件、Twilio 凭证以及公开 webhook 暴露是否就绪。在要求智能体加入之前,把任何 `ok: false` 检查都视为对应传输协议和模式的阻塞项。脚本或机器可读输出请使用 `openclaw googlemeet setup --json`。在智能体尝试前,可使用 `--transport chrome`、`--transport chrome-node` 或 `--transport twilio` 对特定传输协议进行预检。 +配置 Twilio 委派后,设置还会报告 `voice-call` 插件、Twilio 凭据和公开 webhook 暴露是否就绪。在要求智能体加入之前,将任何 `ok: false` 检查都视为对应传输和模式的阻塞项。脚本或机器可读输出请使用 `openclaw googlemeet setup --json`。在智能体尝试之前,使用 `--transport chrome`、`--transport chrome-node` 或 `--transport twilio` 预检特定传输。 -对于 Twilio,当默认传输协议是 Chrome 时,始终显式预检该传输协议: +对于 Twilio,当默认传输是 Chrome 时,始终显式预检该传输: ```bash openclaw googlemeet setup --transport twilio ``` -这会在智能体尝试拨入会议前捕获缺失的 `voice-call` 接线、Twilio 凭证或不可访问的 webhook 暴露。 +这样可以在智能体尝试拨入会议之前,发现缺失的 `voice-call` 接线、Twilio 凭据或无法访问的 webhook 暴露。 加入会议: @@ -95,7 +95,7 @@ openclaw googlemeet setup --transport twilio openclaw googlemeet join https://meet.google.com/abc-defg-hij ``` -或者让智能体通过 `google_meet` 工具加入: +或让智能体通过 `google_meet` 工具加入: ```json { @@ -106,7 +106,7 @@ openclaw googlemeet join https://meet.google.com/abc-defg-hij } ``` -面向智能体的 `google_meet` 工具在非 macOS 主机上仍可用于制品、日历、设置、转录、Twilio 和 `chrome-node` 流程。本地 Chrome 回话操作在那里会被阻止,因为内置 Chrome 音频路径目前依赖 macOS `BlackHole 2ch`。在 Linux 上,请使用 `mode: "transcribe"`、Twilio 拨入,或使用 macOS `chrome-node` 主机进行 Chrome 回话参会。 +面向智能体的 `google_meet` 工具在非 macOS 主机上仍可用于工件、日历、设置、转录、Twilio 和 `chrome-node` 流程。本地 Chrome 回话操作会在这些主机上被阻止,因为内置 Chrome 音频路径当前依赖 macOS `BlackHole 2ch`。在 Linux 上,使用 `mode: "transcribe"`、Twilio 拨入,或使用 macOS `chrome-node` 主机参与 Chrome 回话。 创建新会议并加入: @@ -114,17 +114,17 @@ openclaw googlemeet join https://meet.google.com/abc-defg-hij openclaw googlemeet create --transport chrome-node --mode agent ``` -对于通过 API 创建的房间,当你希望房间的免敲门策略显式设置而不是继承 Google 账号默认值时,请使用 Google Meet `SpaceConfig.accessType`: +对于 API 创建的房间,如果你希望房间的免敲门策略是显式的,而不是继承自 Google 账号默认值,请使用 Google Meet `SpaceConfig.accessType`: ```bash openclaw googlemeet create --access-type OPEN --transport chrome-node --mode agent ``` -`OPEN` 允许任何拥有 Meet URL 的人无需敲门即可加入。`TRUSTED` 允许主持人组织中的受信用户、受邀外部用户和拨入用户无需敲门即可加入。`RESTRICTED` 将免敲门进入限制为受邀者。这些设置仅适用于官方 Google Meet API 创建路径,因此必须配置 OAuth 凭证。 +`OPEN` 允许任何拥有 Meet URL 的人无需敲门即可加入。`TRUSTED` 允许主持人组织的受信任用户、受邀外部用户和拨入用户无需敲门即可加入。`RESTRICTED` 将免敲门进入限制为受邀者。这些设置仅适用于官方 Google Meet API 创建路径,因此必须配置 OAuth 凭据。 -如果你在此选项可用之前已验证 Google Meet,请在把 `meetings.space.settings` 范围添加到你的 Google OAuth 同意屏幕后,重新运行 `openclaw googlemeet auth login --json`。 +如果你在此选项可用之前已完成 Google Meet 身份验证,请在将 `meetings.space.settings` 范围添加到你的 Google OAuth 同意屏幕后,重新运行 `openclaw googlemeet auth login --json`。 -只创建 URL 而不加入: +仅创建 URL 而不加入: ```bash openclaw googlemeet create --no-join @@ -132,13 +132,13 @@ openclaw googlemeet create --no-join `googlemeet create` 有两条路径: -- API 创建:在已配置 Google Meet OAuth 凭证时使用。这是最确定的路径,不依赖浏览器 UI 状态。 -- 浏览器备用方案:在没有 OAuth 凭证时使用。OpenClaw 使用固定的 Chrome 节点,打开 `https://meet.google.com/new`,等待 Google 重定向到真实的会议代码 URL,然后返回该 URL。此路径要求节点上的 OpenClaw Chrome 配置文件已登录 Google。浏览器自动化会处理 Meet 自身的首次运行麦克风提示;该提示不会被视为 Google 登录失败。 - 加入和创建流程也会尝试先复用现有 Meet 标签页,然后再打开新标签页。匹配会忽略无害的 URL 查询字符串,例如 `authuser`,因此智能体重试时应聚焦已经打开的会议,而不是创建第二个 Chrome 标签页。 +- API 创建:在配置了 Google Meet OAuth 凭据时使用。这是最确定性的路径,不依赖浏览器 UI 状态。 +- 浏览器备用路径:在缺少 OAuth 凭据时使用。OpenClaw 使用固定的 Chrome 节点,打开 `https://meet.google.com/new`,等待 Google 重定向到真实的会议代码 URL,然后返回该 URL。此路径要求节点上的 OpenClaw Chrome 配置文件已登录 Google。浏览器自动化会处理 Meet 自身的首次运行麦克风提示;该提示不会被视为 Google 登录失败。 + 加入和创建流程也会在打开新标签页前尝试复用现有 Meet 标签页。匹配会忽略 `authuser` 等无害的 URL 查询字符串,因此智能体重试应聚焦已打开的会议,而不是创建第二个 Chrome 标签页。 -命令/工具输出包含 `source` 字段(`api` 或 `browser`),因此智能体可以说明使用了哪条路径。`create` 默认加入新会议,并返回 `joined: true` 以及加入会话。若只生成 URL,请在 CLI 上使用 `create --no-join`,或向工具传入 `"join": false`。 +命令/工具输出包含 `source` 字段(`api` 或 `browser`),以便智能体解释使用了哪条路径。`create` 默认会加入新会议,并返回 `joined: true` 以及加入会话。若只生成 URL,请在 CLI 中使用 `create --no-join`,或向工具传入 `"join": false`。 -或者告诉智能体:“创建一个 Google Meet,用智能体回话模式加入,并把链接发给我。”智能体应以 `action: "create"` 调用 `google_meet`,然后分享返回的 `meetingUri`。 +或者告诉智能体:“创建一个 Google Meet,用智能体回话模式加入,并把链接发给我。”智能体应调用 `google_meet`,使用 `action: "create"`,然后分享返回的 `meetingUri`。 ```json { @@ -148,20 +148,20 @@ openclaw googlemeet create --no-join } ``` -对于仅观察/浏览器控制的加入,请设置 `"mode": "transcribe"`。这不会启动双工实时语音桥接,不需要 BlackHole 或 SoX,也不会在会议中回话。此模式下的 Chrome 加入还会避免 OpenClaw 的麦克风/摄像头权限授予,并避免 Meet **使用麦克风** 路径。如果 Meet 显示音频选择插页,自动化会尝试无麦克风路径,否则会报告需要手动操作,而不是打开本地麦克风。在转录模式下,托管 Chrome 传输协议还会安装尽力而为的 Meet 字幕观察器。`googlemeet status --json` 和 `googlemeet doctor` 会暴露 `captioning`、`captionsEnabledAttempted`、`transcriptLines`、`lastCaptionAt`、`lastCaptionSpeaker`、`lastCaptionText` 以及简短的 `recentTranscript` 尾部,便于操作员判断浏览器是否已加入通话,以及 Meet 字幕是否正在产出文本。 -当你需要一个是/否探针时,请使用 `openclaw googlemeet test-listen --transport chrome-node`:它会以转录模式加入,等待新的字幕或转录变动,并返回 `listenVerified`、`listenTimedOut`、手动操作字段以及最新字幕健康状态。 +对于仅观察/浏览器控制加入,设置 `"mode": "transcribe"`。这不会启动双工实时语音桥接,不需要 BlackHole 或 SoX,也不会在会议中回话。此模式下的 Chrome 加入还会避免 OpenClaw 的麦克风/摄像头权限授予,并避开 Meet **使用麦克风**路径。如果 Meet 显示音频选择插屏,自动化会尝试无麦克风路径;否则会报告需要手动操作,而不是打开本地麦克风。在转录模式下,托管的 Chrome 传输还会安装尽力而为的 Meet 字幕观察器。`googlemeet status --json` 和 `googlemeet doctor` 会暴露 `captioning`、`captionsEnabledAttempted`、`transcriptLines`、`lastCaptionAt`、`lastCaptionSpeaker`、`lastCaptionText`,以及较短的 `recentTranscript` 尾部,便于操作员判断浏览器是否已加入通话,以及 Meet 字幕是否正在产出文本。 +当你需要是/否探测时,使用 `openclaw googlemeet test-listen --transport chrome-node`:它会以转录模式加入,等待新的字幕或转录活动,并返回 `listenVerified`、`listenTimedOut`、手动操作字段和最新字幕健康状态。 -实时会话期间,`google_meet` 状态包含浏览器和音频桥接健康信息,例如 `inCall`、`manualActionRequired`、`providerConnected`、`realtimeReady`、`audioInputActive`、`audioOutputActive`、最后输入/输出时间戳、字节计数器以及桥接关闭状态。如果出现安全的 Meet 页面提示,浏览器自动化会在可行时处理。登录、主持人准入以及浏览器/操作系统权限提示会以需要手动操作的形式报告,并附带原因和消息,供智能体转述。托管 Chrome 会话只会在浏览器健康报告 `inCall: true` 后发送介绍语或测试短语;否则状态会报告 `speechReady: false`,并阻止语音尝试,而不是假装智能体已在会议中发声。 +在实时会话期间,`google_meet` 状态包含浏览器和音频桥接健康信息,例如 `inCall`、`manualActionRequired`、`providerConnected`、`realtimeReady`、`audioInputActive`、`audioOutputActive`、最后输入/输出时间戳、字节计数器和桥接关闭状态。如果出现安全的 Meet 页面提示,浏览器自动化会在可行时处理它。登录、主持人准入和浏览器/操作系统权限提示会被报告为需要手动操作,并附带原因和消息,供智能体转述。托管的 Chrome 会话只有在浏览器健康状态报告 `inCall: true` 后才会发出开场白或测试短语;否则状态会报告 `speechReady: false`,并阻止语音尝试,而不是假装智能体已在会议中发声。 -本地 Chrome 通过已登录的 OpenClaw 浏览器配置文件加入。实时模式需要 `BlackHole 2ch`,用于 OpenClaw 使用的麦克风/扬声器路径。若要获得干净的双工音频,请使用独立虚拟设备或类似 Loopback 的图;单个 BlackHole 设备足以进行首次冒烟测试,但可能产生回声。 +本地 Chrome 通过已登录的 OpenClaw 浏览器配置文件加入。实时模式需要 `BlackHole 2ch` 来支持 OpenClaw 使用的麦克风/扬声器路径。若要获得干净的双工音频,请使用独立的虚拟设备或 Loopback 风格的音频图;单个 BlackHole 设备足以完成首次冒烟测试,但可能会产生回声。 ### 本地 Gateway 网关 + Parallels Chrome -仅为了让 macOS VM 持有 Chrome,你**不**需要在 VM 内运行完整的 OpenClaw Gateway 网关或配置模型 API key。在本地运行 Gateway 网关和智能体,然后在 VM 中运行节点主机。在 VM 上启用一次内置插件,让节点播发 Chrome 命令: +如果只是让 VM 负责 Chrome,你**不**需要在 macOS VM 内运行完整的 OpenClaw Gateway 网关或配置模型 API key。请在本地运行 Gateway 网关和智能体,然后在 VM 中运行节点主机。在 VM 上启用一次内置插件,使节点发布 Chrome 命令: -运行位置: +各位置运行的内容: -- Gateway 网关主机:OpenClaw Gateway 网关、智能体工作区、模型/API key、实时提供商,以及 Google Meet 插件配置。 +- Gateway 网关主机:OpenClaw Gateway 网关、智能体工作区、模型/API key、实时提供商和 Google Meet 插件配置。 - Parallels macOS VM:OpenClaw CLI/节点主机、Google Chrome、SoX、BlackHole 2ch,以及已登录 Google 的 Chrome 配置文件。 - VM 中不需要:Gateway 网关服务、智能体配置、OpenAI/GPT key 或模型提供商设置。 @@ -177,7 +177,7 @@ brew install blackhole-2ch sox sudo reboot ``` -重启后,验证 VM 能看到音频设备和 SoX 命令: +重启后,验证 VM 可以看到音频设备和 SoX 命令: ```bash system_profiler SPAudioDataType | grep -i BlackHole @@ -196,14 +196,14 @@ openclaw plugins enable google-meet openclaw node run --host --port 18789 --display-name parallels-macos ``` -如果 `` 是 LAN IP 且你没有使用 TLS,除非你为该受信私有网络选择启用,否则节点会拒绝明文 WebSocket: +如果 `` 是 LAN IP,并且你未使用 TLS,节点会拒绝明文 WebSocket,除非你为该受信任的私有网络选择加入: ```bash OPENCLAW_ALLOW_INSECURE_PRIVATE_WS=1 \ openclaw node run --host --port 18789 --display-name parallels-macos ``` -将节点安装为 LaunchAgent 时使用同一环境变量: +将节点安装为 LaunchAgent 时也使用相同的环境变量: ```bash OPENCLAW_ALLOW_INSECURE_PRIVATE_WS=1 \ @@ -211,7 +211,7 @@ OPENCLAW_ALLOW_INSECURE_PRIVATE_WS=1 \ openclaw node restart ``` -`OPENCLAW_ALLOW_INSECURE_PRIVATE_WS=1` 是进程环境,不是 `openclaw.json` 设置。当安装命令中存在它时,`openclaw node install` 会把它存入 LaunchAgent 环境。 +`OPENCLAW_ALLOW_INSECURE_PRIVATE_WS=1` 是进程环境变量,不是 `openclaw.json` 设置。`openclaw node install` 在安装命令中存在该变量时,会将其存储到 LaunchAgent 环境中。 从 Gateway 网关主机批准节点: @@ -220,13 +220,13 @@ openclaw devices list openclaw devices approve ``` -确认 Gateway 网关能看到该节点,并且它同时播发 `googlemeet.chrome` 和浏览器能力/`browser.proxy`: +确认 Gateway 网关可以看到该节点,并且该节点发布了 `googlemeet.chrome` 以及浏览器能力/`browser.proxy`: ```bash openclaw nodes status ``` -在 Gateway 网关主机上通过该节点路由 Meet: +在 Gateway 网关主机上将 Meet 路由到该节点: ```json5 { @@ -262,55 +262,55 @@ openclaw nodes status openclaw googlemeet join https://meet.google.com/abc-defg-hij ``` -或要求智能体使用带有 `transport: "chrome-node"` 的 `google_meet` 工具。 +或者要求智能体使用带有 `transport: "chrome-node"` 的 `google_meet` 工具。 -如需一条命令完成冒烟测试,创建或复用会话、说出已知短语并打印会话健康信息: +若要执行一条命令的冒烟测试来创建或复用会话、说出已知短语并打印会话健康状态: ```bash openclaw googlemeet test-speech https://meet.google.com/abc-defg-hij ``` -在实时加入期间,OpenClaw 浏览器自动化会填写访客姓名,点击加入/请求加入,并在 Meet 首次运行的 “使用麦克风” 选项出现时接受该选项。在仅观察加入或仅浏览器创建会议期间,如果可用,它会在不使用麦克风的情况下继续通过同一提示。如果浏览器配置文件未登录、Meet 正在等待主持人准入、Chrome 需要实时加入的麦克风/摄像头权限,或 Meet 卡在自动化无法解决的提示上,加入/测试语音结果会报告 `manualActionRequired: true`,并附带 `manualActionReason` 和 `manualActionMessage`。智能体应停止重试加入,报告该确切消息以及当前的 `browserUrl`/`browserTitle`,并且仅在手动浏览器操作完成后重试。 +在实时加入期间,OpenClaw 浏览器自动化会填写访客名称,点击加入/请求加入,并在 Meet 的首次运行“使用麦克风”选项提示出现时接受它。在仅观察加入或仅浏览器创建会议期间,如果同一提示提供了不使用麦克风的选项,它会继续通过该提示。如果浏览器配置文件未登录、Meet 正在等待主持人准入、Chrome 需要实时加入的麦克风/摄像头权限,或 Meet 卡在自动化无法处理的提示上,加入/测试语音结果会报告 `manualActionRequired: true`,并包含 `manualActionReason` 和 `manualActionMessage`。智能体应停止重试加入,报告该精确消息以及当前的 `browserUrl`/`browserTitle`,并且仅在手动浏览器操作完成后重试。 -如果省略 `chromeNode.node`,只有在恰好一个已连接节点同时声明 `googlemeet.chrome` 和浏览器控制时,OpenClaw 才会自动选择。如果连接了多个具备能力的节点,请将 `chromeNode.node` 设置为节点 ID、显示名称或远程 IP。 +如果省略 `chromeNode.node`,OpenClaw 仅在恰好有一个已连接节点同时声明 `googlemeet.chrome` 和浏览器控制时自动选择。如果连接了多个具备能力的节点,请将 `chromeNode.node` 设置为节点 ID、显示名称或远程 IP。 常见失败检查: -- `Configured Google Meet node ... is not usable: offline`:固定的节点已被 Gateway 网关知晓,但不可用。智能体应将该节点视为诊断状态,而不是可用的 Chrome 主机,并报告设置阻碍;除非用户要求,否则不要回退到其他传输协议。 -- `No connected Google Meet-capable node`:在 VM 中启动 `openclaw node run`,批准配对,并确保已在 VM 中运行 `openclaw plugins enable google-meet` 和 `openclaw plugins enable browser`。同时确认 Gateway 网关主机允许这两个节点命令:`gateway.nodes.allowCommands: ["googlemeet.chrome", "browser.proxy"]`。 -- `BlackHole 2ch audio device not found`:在正在检查的主机上安装 `blackhole-2ch`,并在使用本地 Chrome 音频前重启。 -- `BlackHole 2ch audio device not found on the node`:在 VM 中安装 `blackhole-2ch`,并重启 VM。 -- Chrome 打开但无法加入:在 VM 内的浏览器配置文件中登录,或保留 `chrome.guestName` 以进行访客加入。访客自动加入会通过节点浏览器代理使用 OpenClaw 浏览器自动化;请确保节点浏览器配置指向你想要的配置文件,例如 `browser.defaultProfile: "user"` 或某个已命名的现有会话配置文件。 -- 重复的 Meet 标签页:保持启用 `chrome.reuseExistingTab: true`。OpenClaw 会先激活同一 Meet URL 的现有标签页,再打开新标签页;浏览器会议创建也会在打开另一个标签页前复用正在进行的 `https://meet.google.com/new` 或 Google 账号提示标签页。 -- 没有音频:在 Meet 中,将麦克风/扬声器路由到 OpenClaw 使用的虚拟音频设备路径;使用单独的虚拟设备或 Loopback 风格的路由来获得干净的双工音频。 +- `Configured Google Meet node ... is not usable: offline`:固定的节点对 Gateway 网关已知但不可用。智能体应将该节点视为诊断状态,而不是可用的 Chrome 主机,并报告设置阻塞项,除非用户要求,否则不要回退到其他传输方式。 +- `No connected Google Meet-capable node`:在 VM 中启动 `openclaw node run`,批准配对,并确保已在 VM 中运行 `openclaw plugins enable google-meet` 和 `openclaw plugins enable browser`。还要确认 Gateway 网关主机通过 `gateway.nodes.allowCommands: ["googlemeet.chrome", "browser.proxy"]` 允许这两个节点命令。 +- `BlackHole 2ch audio device not found`:在被检查的主机上安装 `blackhole-2ch`,并在使用本地 Chrome 音频前重启。 +- `BlackHole 2ch audio device not found on the node`:在 VM 中安装 `blackhole-2ch` 并重启 VM。 +- Chrome 打开但无法加入:登录 VM 内部的浏览器配置文件,或保持设置 `chrome.guestName` 以进行访客加入。访客自动加入通过节点浏览器代理使用 OpenClaw 浏览器自动化;确保节点浏览器配置指向你想要的配置文件,例如 `browser.defaultProfile: "user"` 或一个具名的现有会话配置文件。 +- 重复的 Meet 标签页:保持启用 `chrome.reuseExistingTab: true`。OpenClaw 会先激活同一 Meet URL 的现有标签页,然后才打开新标签页,并且浏览器会议创建会先复用正在进行的 `https://meet.google.com/new` 或 Google 账号提示标签页,然后才打开另一个。 +- 无音频:在 Meet 中,将麦克风/扬声器路由到 OpenClaw 使用的虚拟音频设备路径;为干净的双工音频使用独立虚拟设备或 Loopback 风格的路由。 ## 安装说明 -Chrome 回听默认使用两个外部工具: +Chrome 回话默认值使用两个外部工具: -- `sox`:命令行音频工具。该插件会为默认的 24 kHz PCM16 音频桥接使用显式 CoreAudio 设备命令。 -- `blackhole-2ch`:macOS 虚拟音频驱动。它会创建 Chrome/Meet 可路由通过的 `BlackHole 2ch` 音频设备。 +- `sox`:命令行音频工具。该插件对默认的 24 kHz PCM16 音频桥接使用显式 CoreAudio 设备命令。 +- `blackhole-2ch`:macOS 虚拟音频驱动。它创建 Chrome/Meet 可通过其路由的 `BlackHole 2ch` 音频设备。 -OpenClaw 不捆绑或再分发任一软件包。文档要求用户通过 Homebrew 将它们作为主机依赖安装。SoX 的许可证为 `LGPL-2.0-only AND GPL-2.0-only`;BlackHole 为 GPL-3.0。如果你构建的安装程序或设备将 BlackHole 与 OpenClaw 捆绑,请审查 BlackHole 的上游许可条款,或向 Existential Audio 获取单独许可证。 +OpenClaw 不捆绑或再分发任一软件包。文档要求用户通过 Homebrew 将它们安装为主机依赖项。SoX 的许可证为 `LGPL-2.0-only AND GPL-2.0-only`;BlackHole 为 GPL-3.0。如果你构建将 BlackHole 与 OpenClaw 捆绑的安装器或设备,请审查 BlackHole 的上游许可条款,或从 Existential Audio 获取单独许可证。 -## 传输协议 +## 传输方式 ### Chrome -Chrome 传输协议会通过 OpenClaw 浏览器控制打开 Meet URL,并以已登录的 OpenClaw 浏览器配置文件身份加入。在 macOS 上,插件会在启动前检查 `BlackHole 2ch`。如果已配置,它还会在打开 Chrome 前运行音频桥接健康检查命令和启动命令。当 Chrome/音频位于 Gateway 网关主机上时使用 `chrome`;当 Chrome/音频位于配对节点(例如 Parallels macOS VM)上时使用 `chrome-node`。对于本地 Chrome,使用 `browser.defaultProfile` 选择配置文件;`chrome.browserProfile` 会传递给 `chrome-node` 主机。 +Chrome 传输方式通过 OpenClaw 浏览器控制打开 Meet URL,并以已登录的 OpenClaw 浏览器配置文件加入。在 macOS 上,该插件会在启动前检查 `BlackHole 2ch`。如果已配置,它还会在打开 Chrome 前运行音频桥接健康命令和启动命令。当 Chrome/音频位于 Gateway 网关主机上时使用 `chrome`;当 Chrome/音频位于已配对节点(例如 Parallels macOS VM)上时使用 `chrome-node`。对于本地 Chrome,使用 `browser.defaultProfile` 选择配置文件;`chrome.browserProfile` 会传递给 `chrome-node` 主机。 ```bash openclaw googlemeet join https://meet.google.com/abc-defg-hij --transport chrome openclaw googlemeet join https://meet.google.com/abc-defg-hij --transport chrome-node ``` -将 Chrome 麦克风和扬声器音频路由通过本地 OpenClaw 音频桥接。如果未安装 `BlackHole 2ch`,加入会失败并给出设置错误,而不是在没有音频路径的情况下静默加入。 +通过本地 OpenClaw 音频桥接路由 Chrome 麦克风和扬声器音频。如果未安装 `BlackHole 2ch`,加入会以设置错误失败,而不是在没有音频路径的情况下静默加入。 ### Twilio -Twilio 传输协议是委托给 Voice Call 插件的严格拨号计划。它不会解析 Meet 页面中的电话号码。 +Twilio 传输方式是委托给 Voice Call 插件的严格拨号计划。它不会解析 Meet 页面来获取电话号码。 -当 Chrome 参与不可用,或你想要电话拨入回退时使用它。Google Meet 必须为会议公开电话拨入号码和 PIN;OpenClaw 不会从 Meet 页面发现这些信息。 +当 Chrome 参与不可用,或你想要电话拨入回退方案时使用它。Google Meet 必须为会议公开电话拨入号码和 PIN;OpenClaw 不会从 Meet 页面发现这些信息。 在 Gateway 网关主机上启用 Voice Call 插件,而不是在 Chrome 节点上: @@ -353,7 +353,7 @@ Twilio 传输协议是委托给 Voice Call 插件的严格拨号计划。它不 } ``` -通过环境或配置提供 Twilio 凭证。环境会让密钥不进入 `openclaw.json`: +通过环境或配置提供 Twilio 凭据。环境可避免密钥进入 `openclaw.json`: ```bash export TWILIO_ACCOUNT_SID=AC... @@ -362,9 +362,9 @@ export TWILIO_FROM_NUMBER=+15550001234 export GEMINI_API_KEY=... ``` -如果你的实时语音提供商是 OpenAI provider 插件,请改用 `realtime.provider: "openai"` 和 `OPENAI_API_KEY`。 +如果 OpenAI provider 插件和 `OPENAI_API_KEY` 才是你的实时语音提供商,请改用 `realtime.provider: "openai"`。 -启用 `voice-call` 后重启或重新加载 Gateway 网关;插件配置更改在已运行的 Gateway 网关进程重新加载前不会出现。 +启用 `voice-call` 后重启或重新加载 Gateway 网关;插件配置变更在重新加载前不会出现在已运行的 Gateway 网关进程中。 然后验证: @@ -394,13 +394,13 @@ openclaw googlemeet join https://meet.google.com/abc-defg-hij \ ## OAuth 和预检 -OAuth 对于创建 Meet 链接是可选的,因为 `googlemeet create` 可以回退到浏览器自动化。当你需要官方 API 创建、空间解析或 Meet Media API 预检时,请配置 OAuth。 +OAuth 对创建 Meet 链接是可选的,因为 `googlemeet create` 可以回退到浏览器自动化。当你想要官方 API 创建、空间解析或 Meet Media API 预检检查时,请配置 OAuth。 -Google Meet API 访问使用用户 OAuth:创建 Google Cloud OAuth 客户端,请求所需作用域,授权一个 Google 账号,然后将生成的刷新令牌存储在 Google Meet 插件配置中,或提供 `OPENCLAW_GOOGLE_MEET_*` 环境变量。 +Google Meet API 访问使用用户 OAuth:创建 Google Cloud OAuth 客户端,请求所需范围,授权一个 Google 账号,然后将生成的刷新令牌存储在 Google Meet 插件配置中,或提供 `OPENCLAW_GOOGLE_MEET_*` 环境变量。 -OAuth 不会替代 Chrome 加入路径。当你使用浏览器参与时,Chrome 和 Chrome-node 传输协议仍然会通过已登录的 Chrome 配置文件、BlackHole/SoX 以及已连接节点加入。OAuth 只用于官方 Google Meet API 路径:创建会议空间、解析空间,以及运行 Meet Media API 预检。 +OAuth 不会替代 Chrome 加入路径。当你使用浏览器参与时,Chrome 和 Chrome-node 传输方式仍通过已登录的 Chrome 配置文件、BlackHole/SoX 和已连接节点加入。OAuth 仅用于官方 Google Meet API 路径:创建会议空间、解析空间以及运行 Meet Media API 预检检查。 -### 创建 Google 凭证 +### 创建 Google 凭据 在 Google Cloud Console 中: @@ -409,14 +409,14 @@ OAuth 不会替代 Chrome 加入路径。当你使用浏览器参与时,Chrome 3. 配置 OAuth 同意屏幕。 - **内部** 对 Google Workspace 组织最简单。 - **外部** 适用于个人/测试设置;当应用处于测试阶段时,将每个会授权该应用的 Google 账号添加为测试用户。 -4. 添加 OpenClaw 请求的作用域: +4. 添加 OpenClaw 请求的范围: - `https://www.googleapis.com/auth/meetings.space.created` - `https://www.googleapis.com/auth/meetings.space.readonly` - `https://www.googleapis.com/auth/meetings.space.settings` - `https://www.googleapis.com/auth/meetings.conference.media.readonly` 5. 创建 OAuth 客户端 ID。 - - 应用类型:**Web application**。 - - 已授权重定向 URI: + - 应用类型:**Web 应用**。 + - 已获授权的重定向 URI: ```text http://localhost:8085/oauth2callback @@ -424,21 +424,17 @@ OAuth 不会替代 Chrome 加入路径。当你使用浏览器参与时,Chrome 6. 复制客户端 ID 和客户端密钥。 -Google Meet `spaces.create` 需要 `meetings.space.created`。 -`meetings.space.readonly` 让 OpenClaw 能够将 Meet URL/代码解析为空间。 -`meetings.space.settings` 让 OpenClaw 能够在 API 房间创建期间传递 `SpaceConfig` 设置,例如 `accessType`。 -`meetings.conference.media.readonly` 用于 Meet Media API 预检和媒体工作;实际使用 Media API 时,Google 可能要求加入 Developer Preview。 -如果你只需要基于浏览器的 Chrome 加入,请完全跳过 OAuth。 +Google Meet `spaces.create` 需要 `meetings.space.created`。`meetings.space.readonly` 允许 OpenClaw 将 Meet URL/代码解析为空间。`meetings.space.settings` 允许 OpenClaw 在 API 房间创建期间传递 `SpaceConfig` 设置,例如 `accessType`。`meetings.conference.media.readonly` 用于 Meet Media API 预检和媒体工作;Google 可能要求加入开发者预览才能实际使用 Media API。如果你只需要基于浏览器的 Chrome 加入,请完全跳过 OAuth。 ### 生成刷新令牌 -配置 `oauth.clientId`,并可选配置 `oauth.clientSecret`,或将它们作为环境变量传入,然后运行: +配置 `oauth.clientId` 和可选的 `oauth.clientSecret`,或将它们作为环境变量传入,然后运行: ```bash openclaw googlemeet auth login --json ``` -该命令会打印一个带有刷新令牌的 `oauth` 配置块。它使用 PKCE、`http://localhost:8085/oauth2callback` 上的 localhost 回调,以及带 `--manual` 的手动复制/粘贴流程。 +该命令会打印包含刷新令牌的 `oauth` 配置块。它使用 PKCE、`http://localhost:8085/oauth2callback` 上的 localhost 回调,以及带 `--manual` 的手动复制/粘贴流程。 示例: @@ -492,50 +488,51 @@ JSON 输出包括: } ``` -当你不希望刷新令牌出现在配置中时,优先使用环境变量。如果配置值和环境值都存在,插件会先解析配置,然后再使用环境回退。 +当你不希望刷新令牌出现在配置中时,优先使用环境变量。如果配置和环境值都存在,插件会先解析配置,然后再使用环境回退。 -OAuth 同意包含 Meet 空间创建、Meet 空间读取访问,以及 Meet 会议媒体读取访问。如果你在会议创建支持存在之前已进行身份验证,请重新运行 `openclaw googlemeet auth login --json`,使刷新令牌具备 `meetings.space.created` 作用域。 +OAuth 同意包括 Meet 空间创建、Meet 空间读取访问权限以及 Meet 会议媒体读取访问权限。如果你在会议创建支持存在之前完成了身份验证,请重新运行 `openclaw googlemeet auth login --json`,以便刷新令牌拥有 `meetings.space.created` 范围。 -### 使用 Doctor 验证 OAuth +### 使用 doctor 验证 OAuth -当你需要快速、非密钥的健康检查时,运行 OAuth Doctor: +当你想要快速的非密钥健康检查时,运行 OAuth doctor: ```bash openclaw googlemeet doctor --oauth --json ``` -这不会加载 Chrome 运行时,也不需要已连接的 Chrome 节点。它会检查 OAuth 配置是否存在,以及刷新令牌是否可以生成访问令牌。JSON 报告只包含状态字段,例如 `ok`、`configured`、`tokenSource`、`expiresAt` 和检查消息;它不会打印访问令牌、刷新令牌或客户端密钥。 +这不会加载 Chrome 运行时,也不需要已连接的 Chrome 节点。它会检查 OAuth 配置是否存在,以及刷新令牌是否可以生成访问令牌。JSON 报告仅包括 `ok`、`configured`、`tokenSource`、`expiresAt` 和检查消息等状态字段;它不会打印访问令牌、刷新令牌或客户端密钥。 常见结果: -| 检查 | 含义 | +| 检查 | 含义 | | -------------------- | --------------------------------------------------------------------------------------- | -| `oauth-config` | 存在 `oauth.clientId` 加 `oauth.refreshToken`,或存在缓存的访问令牌。 | -| `oauth-token` | 缓存的访问令牌仍然有效,或刷新令牌签发了新的访问令牌。 | -| `meet-spaces-get` | 可选的 `--meeting` 检查解析了现有 Meet 空间。 | -| `meet-spaces-create` | 可选的 `--create-space` 检查创建了新的 Meet 空间。 | +| `oauth-config` | 存在 `oauth.clientId` 加 `oauth.refreshToken`,或已缓存的访问令牌。 | +| `oauth-token` | 缓存的访问令牌仍然有效,或刷新令牌已签发新的访问令牌。 | +| `meet-spaces-get` | 可选的 `--meeting` 检查解析到了现有的 Meet 空间。 | +| `meet-spaces-create` | 可选的 `--create-space` 检查创建了新的 Meet 空间。 | -要同时证明 Google Meet API 已启用以及具备 `spaces.create` 范围,请运行会产生副作用的创建检查: +若还要证明 Google Meet API 已启用并且具备 `spaces.create` 作用域,请运行有副作用的创建检查: ```bash openclaw googlemeet doctor --oauth --create-space --json openclaw googlemeet create --no-join --json ``` -`--create-space` 会创建一个一次性的 Meet URL。当你需要确认 Google Cloud 项目已启用 Meet API,且授权账号具有 `meetings.space.created` 范围时使用它。 +`--create-space` 会创建一个一次性的 Meet URL。当你需要确认 Google Cloud 项目已启用 Meet API,且已授权账户具有 `meetings.space.created` 作用域时使用它。 -要证明对现有会议空间的读取访问权限: +若要证明对现有会议空间的读取访问权限: ```bash openclaw googlemeet doctor --oauth --meeting https://meet.google.com/abc-defg-hij --json openclaw googlemeet resolve-space --meeting https://meet.google.com/abc-defg-hij ``` -`doctor --oauth --meeting` 和 `resolve-space` 会证明对授权 Google 账号可访问的现有空间具有读取访问权限。这些检查返回 `403` 通常表示 Google Meet REST API 已停用、已同意授权的刷新令牌缺少所需范围,或该 Google 账号无法访问该 Meet 空间。刷新令牌错误表示需要重新运行 `openclaw googlemeet auth login --json` 并存储新的 `oauth` 块。 +`doctor --oauth --meeting` 和 `resolve-space` 会证明对已授权 Google 账户可访问的现有空间具有读取权限。这些检查返回 `403` 通常表示 Google Meet REST API 已禁用、已同意授权的刷新令牌缺少所需作用域,或该 Google 账户无法访问该 Meet 空间。刷新令牌错误表示需要重新运行 `openclaw googlemeet auth login +--json`,并存储新的 `oauth` 块。 -浏览器回退不需要 OAuth 凭证。在该模式下,Google 认证来自所选节点上已登录的 Chrome 个人资料,而不是来自 OpenClaw 配置。 +浏览器回退不需要 OAuth 凭据。在该模式下,Google 身份验证来自所选节点上已登录的 Chrome 配置文件,而不是 OpenClaw 配置。 -以下环境变量可作为回退使用: +这些环境变量可作为回退使用: - `OPENCLAW_GOOGLE_MEET_CLIENT_ID` 或 `GOOGLE_MEET_CLIENT_ID` - `OPENCLAW_GOOGLE_MEET_CLIENT_SECRET` 或 `GOOGLE_MEET_CLIENT_SECRET` @@ -558,7 +555,7 @@ openclaw googlemeet resolve-space --meeting https://meet.google.com/abc-defg-hij openclaw googlemeet preflight --meeting https://meet.google.com/abc-defg-hij ``` -在 Meet 创建会议记录后列出会议工件和出席情况: +在 Meet 创建会议记录后列出会议产物和出席情况: ```bash openclaw googlemeet artifacts --meeting https://meet.google.com/abc-defg-hij @@ -566,9 +563,9 @@ openclaw googlemeet attendance --meeting https://meet.google.com/abc-defg-hij openclaw googlemeet export --meeting https://meet.google.com/abc-defg-hij --output ./meet-export ``` -带 `--meeting` 时,`artifacts` 和 `attendance` 默认使用最新的会议记录。当你想要该会议的每条保留记录时,传入 `--all-conference-records`。 +使用 `--meeting` 时,`artifacts` 和 `attendance` 默认使用最新的会议记录。当你想要该会议保留的每条记录时,传入 `--all-conference-records`。 -日历查找可以先从 Google Calendar 解析会议 URL,再读取 Meet 工件: +Calendar 查找可以先从 Google Calendar 解析会议 URL,然后再读取 Meet 产物: ```bash openclaw googlemeet latest --today @@ -577,7 +574,8 @@ openclaw googlemeet artifacts --event "Weekly sync" openclaw googlemeet attendance --today --format csv --output attendance.csv ``` -`--today` 会在今天的 `primary` 日历中搜索带有 Google Meet 链接的 Calendar 事件。使用 `--event ` 搜索匹配的事件文本,使用 `--calendar ` 指定非主日历。日历查找需要一次新的 OAuth 登录,并包含 Calendar events readonly 范围。`calendar-events` 会预览匹配的 Meet 事件,并标记 `latest`、`artifacts`、`attendance` 或 `export` 将选择的事件。 +`--today` 会在今天的 `primary` 日历中搜索带有 Google Meet 链接的 Calendar 事件。使用 `--event ` 搜索匹配的事件文本,使用 `--calendar ` 指定非主日历。Calendar 查找需要一次新的 OAuth 登录,并包含 Calendar events readonly 作用域。 +`calendar-events` 会预览匹配的 Meet 事件,并标记 `latest`、`artifacts`、`attendance` 或 `export` 将选择的事件。 如果你已经知道会议记录 ID,可以直接指定它: @@ -593,7 +591,8 @@ openclaw googlemeet attendance --conference-record conferenceRecords/abc123 --js openclaw googlemeet end-active-conference https://meet.google.com/abc-defg-hij ``` -这会调用 Google Meet `spaces.endActiveConference`,并且需要 OAuth,对授权账号可管理的空间具备 `meetings.space.created` 范围。OpenClaw 接受 Meet URL、会议代码或 `spaces/{id}` 输入,并在结束活跃会议前将其解析为 API 空间资源。它与 `googlemeet leave` 是分开的:`leave` 会停止 OpenClaw 的本地/会话参与,而 `end-active-conference` 会请求 Google Meet 结束该空间的活跃会议。 +这会调用 Google Meet `spaces.endActiveConference`,并且对于已授权账户可管理的空间,需要具备 `meetings.space.created` 作用域的 OAuth。OpenClaw 接受 Meet URL、会议代码或 `spaces/{id}` 输入,并在结束活跃会议之前将其解析为 API 空间资源。 +它与 `googlemeet leave` 是分开的:`leave` 会停止 OpenClaw 的本地/会话参与,而 `end-active-conference` 会请求 Google Meet 结束该空间的活跃会议。 写入可读报告: @@ -610,9 +609,11 @@ openclaw googlemeet export --conference-record conferenceRecords/abc123 \ --include-doc-bodies --dry-run ``` -当 Google 为会议公开这些数据时,`artifacts` 会返回会议记录元数据,以及参与者、录制、转录、结构化转录条目和智能笔记资源元数据。对大型会议使用 `--no-transcript-entries` 可跳过条目查找。`attendance` 会将参与者展开为参与者会话行,包含首次/最后出现时间、总会话时长、迟到/提前离开标志,并按已登录用户或显示名称合并重复参与者资源。传入 `--no-merge-duplicates` 可让原始参与者资源保持分开,传入 `--late-after-minutes` 可调整迟到检测,传入 `--early-before-minutes` 可调整提前离开检测。 +当 Google 为该会议公开相关信息时,`artifacts` 会返回会议记录元数据,以及参与者、录制、转录、结构化转录条目和智能笔记资源元数据。对于大型会议,使用 `--no-transcript-entries` 跳过条目查找。`attendance` 会将参与者展开为参与者会话行,其中包含首次/最后一次出现时间、总会话时长、迟到/提前离开标记,并按已登录用户或显示名称合并重复的参与者资源。传入 `--no-merge-duplicates` 可让原始参与者资源保持分离,传入 `--late-after-minutes` 可调整迟到检测,传入 `--early-before-minutes` 可调整提前离开检测。 -`export` 会写入一个文件夹,其中包含 `summary.md`、`attendance.csv`、`transcript.md`、`artifacts.json`、`attendance.json` 和 `manifest.json`。`manifest.json` 会记录所选输入、导出选项、会议记录、输出文件、计数、令牌来源、使用过的 Calendar 事件,以及任何部分检索警告。传入 `--zip` 还会在该文件夹旁边写入一个可移植归档。传入 `--include-doc-bodies` 可通过 Google Drive `files.export` 导出链接的转录和智能笔记 Google Docs 文本;这需要一次新的 OAuth 登录,并包含 Drive Meet readonly 范围。没有 `--include-doc-bodies` 时,导出只包含 Meet 元数据和结构化转录条目。如果 Google 返回部分工件失败,例如智能笔记列表、转录条目或 Drive 文档正文错误,摘要和清单会保留警告,而不是让整个导出失败。使用 `--dry-run` 可获取相同的工件/出席数据并打印清单 JSON,而不创建文件夹或 ZIP。这在写入大型导出前,或智能体只需要计数、所选记录和警告时很有用。 +`export` 会写入一个文件夹,其中包含 `summary.md`、`attendance.csv`、`transcript.md`、`artifacts.json`、`attendance.json` 和 `manifest.json`。 +`manifest.json` 会记录所选输入、导出选项、会议记录、输出文件、计数、令牌来源、使用过的 Calendar 事件,以及任何部分检索警告。传入 `--zip` 还会在文件夹旁边写入一个便携归档。传入 `--include-doc-bodies` 会通过 Google Drive `files.export` 导出链接的转录和智能笔记 Google Docs 文本;这需要一次新的 OAuth 登录,并包含 Drive Meet readonly 作用域。不使用 `--include-doc-bodies` 时,导出仅包含 Meet 元数据和结构化转录条目。如果 Google 返回部分产物失败,例如智能笔记列表、转录条目或 Drive 文档正文错误,摘要和清单会保留警告,而不是让整个导出失败。 +使用 `--dry-run` 可获取相同的产物/出席数据并打印清单 JSON,而不创建文件夹或 ZIP。这在写入大型导出之前,或当智能体只需要计数、所选记录和警告时很有用。 智能体也可以通过 `google_meet` 工具创建相同的包: @@ -626,7 +627,7 @@ openclaw googlemeet export --conference-record conferenceRecords/abc123 \ } ``` -设置 `"dryRun": true` 可只返回导出清单并跳过文件写入。 +设置 `"dryRun": true` 可仅返回导出清单并跳过文件写入。 智能体也可以使用显式访问策略创建 API 支持的房间: @@ -639,7 +640,7 @@ openclaw googlemeet export --conference-record conferenceRecords/abc123 \ } ``` -并且它们可以结束已知房间的活跃会议: +它们还可以结束已知房间的活跃会议: ```json { @@ -648,7 +649,7 @@ openclaw googlemeet export --conference-record conferenceRecords/abc123 \ } ``` -对于先监听验证,智能体应在声称会议有用之前使用 `test_listen`: +对于先听后验的验证,智能体应在声明会议可用之前使用 `test_listen`: ```json { @@ -667,22 +668,32 @@ OPENCLAW_GOOGLE_MEET_LIVE_MEETING=https://meet.google.com/abc-defg-hij \ pnpm test:live -- extensions/google-meet/google-meet.live.test.ts ``` -针对有人会发言且 Meet 字幕可用的会议,运行实时先监听浏览器探测: +针对有人会发言且 Meet 字幕可用的会议,运行实时的先听后验浏览器探测: ```bash openclaw googlemeet setup --transport chrome-node --mode transcribe openclaw googlemeet test-listen https://meet.google.com/abc-defg-hij --transport chrome-node --timeout-ms 30000 ``` -实时冒烟环境: +实时冒烟测试环境: - `OPENCLAW_LIVE_TEST=1` 启用受保护的实时测试。 -- `OPENCLAW_GOOGLE_MEET_LIVE_MEETING` 指向保留的 Meet URL、代码或 `spaces/{id}`。 -- `OPENCLAW_GOOGLE_MEET_CLIENT_ID` 或 `GOOGLE_MEET_CLIENT_ID` 提供 OAuth 客户端 ID。 -- `OPENCLAW_GOOGLE_MEET_REFRESH_TOKEN` 或 `GOOGLE_MEET_REFRESH_TOKEN` 提供刷新令牌。 -- 可选:`OPENCLAW_GOOGLE_MEET_CLIENT_SECRET`、`OPENCLAW_GOOGLE_MEET_ACCESS_TOKEN` 和 `OPENCLAW_GOOGLE_MEET_ACCESS_TOKEN_EXPIRES_AT` 使用没有 `OPENCLAW_` 前缀的相同回退名称。 +- `OPENCLAW_GOOGLE_MEET_LIVE_MEETING` 指向保留的 Meet URL、代码或 + `spaces/{id}`。 +- `OPENCLAW_GOOGLE_MEET_CLIENT_ID` 或 `GOOGLE_MEET_CLIENT_ID` 提供 OAuth + 客户端 ID。 +- `OPENCLAW_GOOGLE_MEET_REFRESH_TOKEN` 或 `GOOGLE_MEET_REFRESH_TOKEN` 提供 + 刷新令牌。 +- 可选:`OPENCLAW_GOOGLE_MEET_CLIENT_SECRET`、 + `OPENCLAW_GOOGLE_MEET_ACCESS_TOKEN` 和 + `OPENCLAW_GOOGLE_MEET_ACCESS_TOKEN_EXPIRES_AT` 使用不带 `OPENCLAW_` 前缀的相同回退名称。 -基础工件/出席实时冒烟测试需要 `https://www.googleapis.com/auth/meetings.space.readonly` 和 `https://www.googleapis.com/auth/meetings.conference.media.readonly`。Calendar 查找需要 `https://www.googleapis.com/auth/calendar.events.readonly`。Drive 文档正文导出需要 `https://www.googleapis.com/auth/drive.meet.readonly`。 +基础产物/出席实时冒烟测试需要 +`https://www.googleapis.com/auth/meetings.space.readonly` 和 +`https://www.googleapis.com/auth/meetings.conference.media.readonly`。Calendar +查找需要 `https://www.googleapis.com/auth/calendar.events.readonly`。Drive +文档正文导出需要 +`https://www.googleapis.com/auth/drive.meet.readonly`。 创建新的 Meet 空间: @@ -690,9 +701,9 @@ openclaw googlemeet test-listen https://meet.google.com/abc-defg-hij --transport openclaw googlemeet create ``` -该命令会打印新的 `meeting uri`、来源和加入会话。带 OAuth 凭证时,它使用官方 Google Meet API。没有 OAuth 凭证时,它会使用固定 Chrome 节点的已登录浏览器个人资料作为回退。智能体可以使用 `google_meet` 工具并带 `action: "create"` 来一步创建并加入。对于仅创建 URL,传入 `"join": false`。 +该命令会打印新的 `meeting uri`、来源和加入会话。使用 OAuth 凭据时,它会使用官方 Google Meet API。没有 OAuth 凭据时,它会回退使用固定 Chrome 节点上已登录的浏览器配置文件。智能体可以使用带有 `action: "create"` 的 `google_meet` 工具一步完成创建并加入。对于仅创建 URL 的场景,传入 `"join": false`。 -来自浏览器回退的 JSON 输出示例: +浏览器回退的 JSON 输出示例: ```json { @@ -712,7 +723,7 @@ openclaw googlemeet create } ``` -如果浏览器回退在创建 URL 之前遇到 Google 登录或 Meet 权限阻断,Gateway 网关方法会返回失败响应,`google_meet` 工具会返回结构化详情,而不是纯字符串: +如果浏览器回退在创建 URL 之前遇到 Google 登录或 Meet 权限阻碍,Gateway 网关方法会返回失败响应,`google_meet` 工具会返回结构化详情,而不是普通字符串: ```json { @@ -730,9 +741,9 @@ openclaw googlemeet create } ``` -当智能体看到 `manualActionRequired: true` 时,应报告 `manualActionMessage` 加浏览器节点/标签页上下文,并停止打开新的 Meet 标签页,直到操作员完成浏览器步骤。 +当智能体看到 `manualActionRequired: true` 时,应报告 `manualActionMessage` 以及浏览器节点/标签页上下文,并停止打开新的 Meet 标签页,直到操作员完成浏览器步骤。 -来自 API 创建的 JSON 输出示例: +API 创建的 JSON 输出示例: ```json { @@ -753,13 +764,13 @@ openclaw googlemeet create } ``` -创建 Meet 默认会加入会议。Chrome 或 Chrome-node 传输协议仍然需要已登录的 Google Chrome 配置文件,才能通过浏览器加入。如果配置文件已退出登录,OpenClaw 会报告 `manualActionRequired: true` 或浏览器回退错误,并要求操作者先完成 Google 登录后再重试。 +创建 Meet 默认会加入会议。Chrome 或 Chrome-node 传输仍然需要已登录的 Google Chrome 个人资料才能通过浏览器加入。如果个人资料已退出登录,OpenClaw 会报告 `manualActionRequired: true` 或浏览器回退错误,并要求操作员先完成 Google 登录再重试。 -只有在确认你的 Cloud 项目、OAuth 主体和会议参与者都已加入 Google Workspace Developer Preview Program for Meet media APIs 后,才设置 `preview.enrollmentAcknowledged: true`。 +仅在确认你的 Cloud 项目、OAuth 主体和会议参与者都已加入适用于 Meet 媒体 API 的 Google Workspace Developer Preview Program 后,才设置 `preview.enrollmentAcknowledged: true`。 ## 配置 -通用 Chrome 智能体路径只需要启用插件、BlackHole、SoX、一个实时转录提供商密钥,以及一个已配置的 OpenClaw TTS 提供商。OpenAI 是默认转录提供商;将 `realtime.voiceProvider` 设为 `"google"`,并设置 `realtime.model`,即可在 `bidi` 模式下使用 Google Gemini Live,而无需更改默认智能体模式转录提供商: +通用 Chrome 智能体路径只需要启用插件、BlackHole、SoX、实时转写提供商密钥,以及已配置的 OpenClaw TTS 提供商。OpenAI 是默认转写提供商;将 `realtime.voiceProvider` 设置为 `"google"`,并设置 `realtime.model`,即可在不更改默认智能体模式转写提供商的情况下,为 `bidi` 模式使用 Google Gemini Live: ```bash brew install blackhole-2ch sox @@ -787,32 +798,32 @@ export GEMINI_API_KEY=... - `defaultTransport: "chrome"` - `defaultMode: "agent"`(`"realtime"` 仅作为 `"agent"` 的旧版兼容别名被接受;新的工具调用应使用 `"agent"`) -- `chromeNode.node`:用于 `chrome-node` 的可选节点 ID、名称或 IP +- `chromeNode.node`:用于 `chrome-node` 的可选节点 ID/名称/IP - `chrome.audioBackend: "blackhole-2ch"` -- `chrome.guestName: "OpenClaw Agent"`:在已退出登录的 Meet 访客界面上使用的名称 -- `chrome.autoJoin: true`:通过 `chrome-node` 上的 OpenClaw 浏览器自动化,尽力填写访客名称并点击 Join Now -- `chrome.reuseExistingTab: true`:激活现有 Meet 标签页,而不是打开重复标签页 -- `chrome.waitForInCallMs: 20000`:在触发回话介绍前,等待 Meet 标签页报告已在通话中 -- `chrome.audioFormat: "pcm16-24khz"`:命令对音频格式。只有仍会发出电话音频的旧版或自定义命令对才使用 `"g711-ulaw-8khz"`。 -- `chrome.audioBufferBytes: 4096`:用于生成的 Chrome 命令对音频命令的 SoX 处理缓冲区。这是 SoX 默认 8192 字节缓冲区的一半,可降低默认管道延迟,同时为繁忙主机保留上调空间。低于 SoX 最小值的值会被钳制为 17 字节。 +- `chrome.guestName: "OpenClaw Agent"`:在未登录的 Meet 访客屏幕上使用的名称 +- `chrome.autoJoin: true`:通过 `chrome-node` 上的 OpenClaw 浏览器自动化,尽力填充访客名称并点击 Join Now +- `chrome.reuseExistingTab: true`:激活已有的 Meet 标签页,而不是打开重复标签页 +- `chrome.waitForInCallMs: 20000`:在触发回话开场白之前,等待 Meet 标签页报告已进入通话 +- `chrome.audioFormat: "pcm16-24khz"`:命令对音频格式。仅对仍输出电话音频的旧版/自定义命令对使用 `"g711-ulaw-8khz"`。 +- `chrome.audioBufferBytes: 4096`:用于生成的 Chrome 命令对音频命令的 SoX 处理缓冲区。这是 SoX 默认 8192 字节缓冲区的一半,可降低默认管道延迟,同时在繁忙主机上保留调高空间。低于 SoX 最小值的值会被钳制为 17 字节。 - `chrome.audioInputCommand`:从 CoreAudio `BlackHole 2ch` 读取并以 `chrome.audioFormat` 写入音频的 SoX 命令 - `chrome.audioOutputCommand`:以 `chrome.audioFormat` 读取音频并写入 CoreAudio `BlackHole 2ch` 的 SoX 命令 -- `chrome.bargeInInputCommand`:可选的本地麦克风命令,用于在助手播放处于活动状态时写入有符号 16 位小端单声道 PCM,以检测真人插话。目前这适用于由 Gateway 网关托管的 `chrome` 命令对桥接。 -- `chrome.bargeInRmsThreshold: 650`:在 `chrome.bargeInInputCommand` 上计为真人打断的 RMS 电平 -- `chrome.bargeInPeakThreshold: 2500`:在 `chrome.bargeInInputCommand` 上计为真人打断的峰值电平 -- `chrome.bargeInCooldownMs: 900`:重复清除真人打断之间的最小延迟 -- `mode: "agent"`:默认回话模式。参与者语音由配置的实时转录提供商转录,发送到每次会议子智能体会话中的已配置 OpenClaw 智能体,并通过常规 OpenClaw TTS 运行时回说。 -- `mode: "bidi"`:回退的直接双向实时模型模式。实时语音提供商直接回答参与者语音,并可调用 `openclaw_agent_consult` 获取更深入或由工具支持的答案。 -- `mode: "transcribe"`:不带回话桥接的仅观察模式。 +- `chrome.bargeInInputCommand`:可选的本地麦克风命令,在助手播放处于活动状态时,写入有符号 16 位小端单声道 PCM,用于检测人工插话。这目前适用于由 Gateway 网关托管的 `chrome` 命令对桥接。 +- `chrome.bargeInRmsThreshold: 650`:在 `chrome.bargeInInputCommand` 上计为人工打断的 RMS 音量级别 +- `chrome.bargeInPeakThreshold: 2500`:在 `chrome.bargeInInputCommand` 上计为人工打断的峰值级别 +- `chrome.bargeInCooldownMs: 900`:重复清除人工打断之间的最小延迟 +- `mode: "agent"`:默认回话模式。参与者语音由已配置的实时转写提供商转写,发送到每个会议子智能体会话中的已配置 OpenClaw 智能体,并通过常规 OpenClaw TTS 运行时读出。 +- `mode: "bidi"`:回退的直接双向实时模型模式。实时语音提供商会直接回答参与者语音,也可以调用 `openclaw_agent_consult` 获取更深入或工具支持的答案。 +- `mode: "transcribe"`:没有回话桥接的仅观察模式。 - `realtime.provider: "openai"`:当下面的作用域提供商字段未设置时使用的兼容性回退。 -- `realtime.transcriptionProvider: "openai"`:`agent` 模式用于实时转录的提供商 ID。 -- `realtime.voiceProvider`:`bidi` 模式用于直接实时语音的提供商 ID。将它设为 `"google"` 可使用 Gemini Live,同时让智能体模式转录保持在 OpenAI 上。 +- `realtime.transcriptionProvider: "openai"`:`agent` 模式用于实时转写的提供商 ID。 +- `realtime.voiceProvider`:`bidi` 模式用于直接实时语音的提供商 ID。将其设置为 `"google"` 可使用 Gemini Live,同时让智能体模式转写继续使用 OpenAI。 - `realtime.toolPolicy: "safe-read-only"` -- `realtime.instructions`:简短语音回复,并使用 `openclaw_agent_consult` 获取更深入答案 -- `realtime.introMessage`:实时桥接连接时的简短语音就绪检查;将它设为 `""` 可静默加入 -- `realtime.agentId`:用于 `openclaw_agent_consult` 的可选 OpenClaw 智能体 ID;默认值为 `main` +- `realtime.instructions`:简短的语音回复,并通过 `openclaw_agent_consult` 获取更深入的答案 +- `realtime.introMessage`:实时桥接连接时的简短语音就绪检查;将其设置为 `""` 可静默加入 +- `realtime.agentId`:用于 `openclaw_agent_consult` 的可选 OpenClaw 智能体 ID;默认为 `main` -可选覆盖项: +可选覆盖: ```json5 { @@ -865,7 +876,7 @@ export GEMINI_API_KEY=... } ``` -同时将 ElevenLabs 用于智能体模式的聆听和发声: +ElevenLabs 同时用于智能体模式的聆听和朗读: ```json5 { @@ -902,7 +913,7 @@ export GEMINI_API_KEY=... } ``` -持久的 Meet 语音来自 `messages.tts.providers.elevenlabs.voiceId`。启用 TTS 模型覆盖时,智能体回复也可以使用按回复设置的 `[[tts:voiceId=... model=eleven_v3]]` 指令,但配置是会议的确定性默认值。加入时,日志应显示 `transcriptionProvider=elevenlabs`,并且每条语音回复都应记录 `provider=elevenlabs model=eleven_v3 voice=`。 +持久 Meet 语音来自 `messages.tts.providers.elevenlabs.voiceId`。启用 TTS 模型覆盖后,智能体回复也可以使用按回复设置的 `[[tts:voiceId=... model=eleven_v3]]` 指令,但配置是会议的确定性默认值。加入时,日志应显示 `transcriptionProvider=elevenlabs`,且每条语音回复都应记录 `provider=elevenlabs model=eleven_v3 voice=`。 仅 Twilio 配置: @@ -919,7 +930,7 @@ export GEMINI_API_KEY=... } ``` -`voiceCall.enabled` 默认为 `true`;使用 Twilio 传输协议时,它会将实际的 PSTN 呼叫、DTMF 和介绍问候委托给 Voice Call 插件。Voice Call 会先播放 DTMF 序列,再打开实时媒体流,然后使用保存的介绍文本作为初始实时问候。如果未启用 `voice-call`,Google Meet 仍可校验并记录拨号计划,但无法发起 Twilio 呼叫。 +`voiceCall.enabled` 默认为 `true`;使用 Twilio 传输时,它会将实际的 PSTN 通话、DTMF 和开场问候委托给 Voice Call 插件。Voice Call 会先播放 DTMF 序列,再打开实时媒体流,然后使用已保存的开场文本作为初始实时问候。如果未启用 `voice-call`,Google Meet 仍可以验证并记录拨号计划,但无法发起 Twilio 通话。 ## 工具 @@ -934,20 +945,20 @@ export GEMINI_API_KEY=... } ``` -当 Chrome 在 Gateway 网关主机上运行时,使用 `transport: "chrome"`。当 Chrome 在配对节点(例如 Parallels VM)上运行时,使用 `transport: "chrome-node"`。两种情况下,模型提供商和 `openclaw_agent_consult` 都在 Gateway 网关主机上运行,因此模型凭证保留在那里。使用默认的 `mode: "agent"` 时,实时转录提供商负责聆听,配置的 OpenClaw 智能体生成答案,常规 OpenClaw TTS 将其说进 Meet。想让实时语音模型直接回答时,使用 `mode: "bidi"`。原始的 `mode: "realtime"` 仍作为 `mode: "agent"` 的旧版兼容别名被接受,但不再在智能体工具架构中公开。智能体模式日志会在桥接启动时包含解析后的转录提供商和模型,并在每次合成回复后包含 TTS 提供商、模型、语音、输出格式和采样率。 +当 Chrome 在 Gateway 网关主机上运行时,使用 `transport: "chrome"`。当 Chrome 在已配对节点(例如 Parallels VM)上运行时,使用 `transport: "chrome-node"`。在这两种情况下,模型提供商和 `openclaw_agent_consult` 都在 Gateway 网关主机上运行,因此模型凭据会保留在那里。使用默认的 `mode: "agent"` 时,实时转写提供商负责聆听,已配置的 OpenClaw 智能体生成答案,常规 OpenClaw TTS 将其读入 Meet。当你希望实时语音模型直接回答时,使用 `mode: "bidi"`。原始 `mode: "realtime"` 仍作为 `mode: "agent"` 的旧版兼容别名被接受,但不再在智能体工具 schema 中公开。智能体模式日志会在桥接启动时包含解析后的转写提供商/模型,并在每次合成回复后包含 TTS 提供商、模型、语音、输出格式和采样率。 -使用 `action: "status"` 列出活动会话或检查会话 ID。使用带有 `sessionId` 和 `message` 的 `action: "speak"` 让实时智能体立即说话。使用 `action: "test_speech"` 创建或复用会话、触发一个已知短语,并在 Chrome 主机可以报告时返回 `inCall` 健康状态。`test_speech` 始终强制使用 `mode: "agent"`;如果要求它在 `mode: "transcribe"` 中运行,它会失败,因为仅观察会话会有意禁止发出语音。它的 `speechOutputVerified` 结果基于本次测试调用期间实时音频输出字节数的增加,因此带有旧音频的复用会话不会计为新的成功语音检查。使用 `action: "leave"` 将会话标记为已结束。 +使用 `action: "status"` 列出活动会话或检查某个会话 ID。使用带有 `sessionId` 和 `message` 的 `action: "speak"`,让实时智能体立即说话。使用 `action: "test_speech"` 创建或复用会话,触发已知短语,并在 Chrome 主机可以报告时返回 `inCall` 健康状态。`test_speech` 始终强制使用 `mode: "agent"`,如果被要求在 `mode: "transcribe"` 中运行则会失败,因为仅观察会话有意不能发出语音。其 `speechOutputVerified` 结果基于本次测试调用期间实时音频输出字节数是否增加,因此复用的会话中已有的旧音频不算作新的成功语音检查。使用 `action: "leave"` 将会话标记为已结束。 `status` 会在可用时包含 Chrome 健康状态: -- `inCall`:Chrome 看起来已进入 Meet 通话 -- `micMuted`:尽力判断的 Meet 麦克风状态 -- `manualActionRequired` / `manualActionReason` / `manualActionMessage`:浏览器配置文件需要手动登录、Meet 主持人准入、权限,或浏览器控制修复后,语音才能工作 -- `speechReady` / `speechBlockedReason` / `speechBlockedMessage`:当前是否允许托管 Chrome 语音。`speechReady: false` 表示 OpenClaw 没有将介绍或测试短语发送到音频桥接。 +- `inCall`:Chrome 似乎位于 Meet 通话中 +- `micMuted`:尽力获取的 Meet 麦克风状态 +- `manualActionRequired` / `manualActionReason` / `manualActionMessage`:浏览器个人资料需要手动登录、Meet 主持人准入、权限或浏览器控制修复后,语音才能工作 +- `speechReady` / `speechBlockedReason` / `speechBlockedMessage`:托管 Chrome 语音现在是否被允许。`speechReady: false` 表示 OpenClaw 没有将开场白/测试短语发送到音频桥接。 - `providerConnected` / `realtimeReady`:实时语音桥接状态 -- `lastInputAt` / `lastOutputAt`:桥接最近收到或发送音频的时间 +- `lastInputAt` / `lastOutputAt`:从桥接看到或发送到桥接的最后音频 - `audioOutputRouted` / `audioOutputDeviceLabel`:Meet 标签页的媒体输出是否已主动路由到桥接使用的 BlackHole 设备 -- `lastSuppressedInputAt` / `suppressedInputBytes`:助手播放处于活动状态时被忽略的 local loopback 输入 +- `lastSuppressedInputAt` / `suppressedInputBytes`:助手播放处于活动状态时被忽略的 loopback 输入 ```json { @@ -959,36 +970,36 @@ export GEMINI_API_KEY=... ## 智能体和 Bidi 模式 -Chrome `agent` 模式针对“我的智能体在会议中”行为进行了优化。实时转录提供商会听取会议音频,最终参与者转录会路由到配置的 OpenClaw 智能体,答案则通过常规 OpenClaw TTS 运行时说出。想让实时语音模型直接回答时,设置 `mode: "bidi"`。相近的最终转录片段会在 consult 之前合并,因此一次发言不会产生多个陈旧的部分答案。排队的助手音频仍在播放时,也会抑制实时输入,并且在智能体 consult 之前会忽略最近类似助手的转录回声,以免 BlackHole local loopback 让智能体回答自己的语音。 +Chrome `agent` 模式针对“我的智能体在会议中”的行为进行了优化。实时转写提供商会听取会议音频,最终参与者转写会路由到已配置的 OpenClaw 智能体,答案则通过常规 OpenClaw TTS 运行时读出。当你希望实时语音模型直接回答时,设置 `mode: "bidi"`。相邻的最终转写片段会在咨询前合并,因此一个发言轮次不会产生多个过时的部分答案。实时输入还会在队列中的助手音频仍在播放时被抑制,并且最近类似助手的转写回声会在智能体咨询之前被忽略,避免 BlackHole loopback 让智能体回答自己的语音。 -| 模式 | 谁决定答案 | 语音输出路径 | 适用场景 | +| 模式 | 谁决定答案 | 语音输出路径 | 使用场景 | | ------- | ----------------------------- | -------------------------------------- | ----------------------------------------------------- | -| `agent` | 配置的 OpenClaw 智能体 | 常规 OpenClaw TTS 运行时 | 你想要“我的智能体在会议中”行为 | -| `bidi` | 实时语音模型 | 实时语音提供商音频响应 | 你想要最低延迟的对话式语音循环 | +| `agent` | 已配置的 OpenClaw 智能体 | 常规 OpenClaw TTS 运行时 | 你希望获得“我的智能体在会议中”的行为 | +| `bidi` | 实时语音模型 | 实时语音提供商音频响应 | 你希望获得最低延迟的对话式语音循环 | -在 `bidi` 模式中,当实时模型需要更深入的推理、当前信息或常规 OpenClaw 工具时,它可以调用 `openclaw_agent_consult`。 +在 `bidi` 模式下,当实时模型需要更深入推理、当前信息或常规 OpenClaw 工具时,可以调用 `openclaw_agent_consult`。 -consult 工具会在幕后运行常规 OpenClaw 智能体,带上近期会议转录上下文,并返回简洁的语音回答。在 `agent` 模式下,OpenClaw 会将该回答直接发送到 TTS 运行时;在 `bidi` 模式下,实时语音模型可以把 consult 结果说回会议中。它使用与 Voice Call 相同的共享 consult 机制。 +咨询工具会在幕后使用最近的会议转录上下文运行常规 OpenClaw 智能体,并返回简洁的口头回答。在 `agent` 模式下,OpenClaw 会将该回答直接发送到 TTS 运行时;在 `bidi` 模式下,实时语音模型可以把咨询结果说回会议中。它使用与语音通话相同的共享咨询机制。 -默认情况下,consult 会针对 `main` 智能体运行。当某个 Meet 通道需要 consult 专用的 OpenClaw Agent 工作区、模型默认值、工具策略、记忆和会话历史时,请设置 `realtime.agentId`。 +默认情况下,咨询会针对 `main` 智能体运行。当某个 Meet 通道需要咨询专用的 OpenClaw 智能体工作区、模型默认值、工具策略、记忆和会话历史时,请设置 `realtime.agentId`。 -智能体模式的 consult 使用按会议划分的 `agent::subagent:google-meet:` 会话键,因此后续问题可以保留会议上下文,同时继承已配置智能体的正常智能体策略。 +智能体模式咨询使用按会议划分的 `agent::subagent:google-meet:` 会话键,因此后续问题可以保留会议上下文,同时从配置的智能体继承常规智能体策略。 -`realtime.toolPolicy` 控制 consult 运行: +`realtime.toolPolicy` 控制咨询运行: -- `safe-read-only`:公开 consult 工具,并将常规智能体限制为 `read`、`web_search`、`web_fetch`、`x_search`、`memory_search` 和 `memory_get`。 -- `owner`:公开 consult 工具,并允许常规智能体使用正常的智能体工具策略。 -- `none`:不要向实时语音模型公开 consult 工具。 +- `safe-read-only`:暴露咨询工具,并将常规智能体限制为 `read`、`web_search`、`web_fetch`、`x_search`、`memory_search` 和 `memory_get`。 +- `owner`:暴露咨询工具,并允许常规智能体使用普通智能体工具策略。 +- `none`:不向实时语音模型暴露咨询工具。 -consult 会话键按 Meet 会话限定范围,因此后续 consult 调用可以在同一会议期间复用之前的 consult 上下文。 +咨询会话键按 Meet 会话限定范围,因此后续咨询调用可以在同一场会议期间复用先前的咨询上下文。 -要在 Chrome 完全加入通话后强制执行一次语音就绪检查: +要在 Chrome 完全加入通话后强制执行语音就绪检查: ```bash openclaw googlemeet speak meet_... "Say exactly: I'm here and listening." ``` -完整的加入并发声 smoke: +完整的加入并发言冒烟测试: ```bash openclaw googlemeet test-speech https://meet.google.com/abc-defg-hij \ @@ -998,7 +1009,7 @@ openclaw googlemeet test-speech https://meet.google.com/abc-defg-hij \ ## 实时测试清单 -在把会议交给无人值守的智能体之前,使用此序列: +在把会议交给无人值守智能体之前,请使用以下序列: ```bash openclaw googlemeet setup @@ -1011,12 +1022,12 @@ openclaw googlemeet test-speech https://meet.google.com/abc-defg-hij \ 预期的 Chrome-node 状态: - `googlemeet setup` 全部为绿色。 -- 当 Chrome-node 是默认传输协议或已固定某个节点时,`googlemeet setup` 包含 `chrome-node-connected`。 +- 当 Chrome-node 是默认传输协议或固定了某个节点时,`googlemeet setup` 包含 `chrome-node-connected`。 - `nodes status` 显示所选节点已连接。 -- 所选节点同时声明 `googlemeet.chrome` 和 `browser.proxy`。 -- Meet 标签页加入通话,并且 `test-speech` 返回 Chrome 健康状态,其中 `inCall: true`。 +- 所选节点同时公布 `googlemeet.chrome` 和 `browser.proxy`。 +- Meet 标签页加入通话,并且 `test-speech` 返回 Chrome 健康状态,其中包含 `inCall: true`。 -对于 Parallels macOS VM 这样的远程 Chrome 主机,在更新 Gateway 网关或 VM 后,下面是最短的安全检查: +对于远程 Chrome 主机,例如 Parallels macOS VM,这是更新 Gateway 网关或 VM 后最短的安全检查: ```bash openclaw googlemeet setup @@ -1027,9 +1038,9 @@ openclaw nodes invoke \ --params '{"action":"setup"}' ``` -这可以证明 Gateway 网关插件已加载、VM 节点已使用当前令牌连接,并且 Meet 音频桥可用,然后智能体才会打开真实会议标签页。 +这会证明 Gateway 网关插件已加载、VM 节点已使用当前令牌连接,并且 Meet 音频桥可用,然后智能体才会打开真实会议标签页。 -对于 Twilio smoke,请使用公开电话拨入详情的会议: +对于 Twilio 冒烟测试,请使用暴露电话拨入详细信息的会议: ```bash openclaw googlemeet setup @@ -1042,10 +1053,10 @@ openclaw googlemeet join https://meet.google.com/abc-defg-hij \ 预期的 Twilio 状态: - `googlemeet setup` 包含绿色的 `twilio-voice-call-plugin`、`twilio-voice-call-credentials` 和 `twilio-voice-call-webhook` 检查。 -- Gateway 网关重新加载后,CLI 中可用 `voicecall`。 +- Gateway 网关重新加载后,`voicecall` 在 CLI 中可用。 - 返回的会话包含 `transport: "twilio"` 和 `twilio.voiceCallId`。 -- `openclaw logs --follow` 显示先提供 DTMF TwiML,再提供实时 TwiML,然后是一个已排队初始问候语的实时桥。 -- `googlemeet leave ` 会挂断委派的语音通话。 +- `openclaw logs --follow` 显示在实时 TwiML 之前提供了 DTMF TwiML,然后显示一个已排队初始问候的实时桥。 +- `googlemeet leave ` 会挂断委托的语音通话。 ## 故障排除 @@ -1060,7 +1071,7 @@ openclaw googlemeet setup 如果你刚刚编辑了 `plugins.entries.google-meet`,请重启或重新加载 Gateway 网关。正在运行的智能体只能看到当前 Gateway 网关进程注册的插件工具。 -在非 macOS Gateway 网关主机上,面向智能体的 `google_meet` 工具仍保持可见,但本地 Chrome 回话动作会在到达音频桥之前被阻止。本地 Chrome 回话音频目前依赖 macOS `BlackHole 2ch`,因此 Linux 智能体应使用 `mode: "transcribe"`、Twilio 拨入,或 macOS `chrome-node` 主机,而不是默认的本地 Chrome 智能体路径。 +在非 macOS Gateway 网关主机上,面向智能体的 `google_meet` 工具仍然可见,但本地 Chrome 回话动作会在到达音频桥之前被阻止。本地 Chrome 回话音频目前依赖 macOS `BlackHole 2ch`,因此 Linux 智能体应使用 `mode: "transcribe"`、Twilio 拨入或 macOS `chrome-node` 主机,而不是默认的本地 Chrome 智能体路径。 ### 没有已连接且支持 Google Meet 的节点 @@ -1081,7 +1092,7 @@ openclaw devices approve openclaw nodes status ``` -节点必须已连接,并列出 `googlemeet.chrome` 加上 `browser.proxy`。Gateway 网关配置必须允许这些节点命令: +节点必须已连接,并列出 `googlemeet.chrome` 以及 `browser.proxy`。Gateway 网关配置必须允许这些节点命令: ```json5 { @@ -1104,7 +1115,7 @@ OPENCLAW_ALLOW_INSECURE_PRIVATE_WS=1 \ --force ``` -然后重新加载节点服务并重新运行: +然后重新加载节点服务并再次运行: ```bash openclaw googlemeet setup @@ -1113,30 +1124,30 @@ openclaw nodes status --connected ### 浏览器打开但智能体无法加入 -对仅观察加入运行 `googlemeet test-listen`,或对实时加入运行 `googlemeet test-speech`,然后检查返回的 Chrome 健康状态。如果任一探测报告 `manualActionRequired: true`,请向操作员显示 `manualActionMessage`,并在浏览器操作完成前停止重试。 +对仅观察加入运行 `googlemeet test-listen`,或对实时加入运行 `googlemeet test-speech`,然后检查返回的 Chrome 健康状态。如果任一探测报告 `manualActionRequired: true`,请向操作员显示 `manualActionMessage`,并在浏览器动作完成前停止重试。 -常见手动操作: +常见手动动作: -- 登录 Chrome 配置文件。 -- 从 Meet 主持账号批准访客加入。 -- 当 Chrome 的原生权限提示出现时,授予 Chrome 麦克风/摄像头权限。 +- 登录 Chrome 个人资料。 +- 从 Meet 主持账号准入访客。 +- 当 Chrome 原生权限提示出现时,授予 Chrome 麦克风/摄像头权限。 - 关闭或修复卡住的 Meet 权限对话框。 -不要仅仅因为 Meet 显示“Do you want people to hear you in the meeting?”就报告“未登录”。这是 Meet 的音频选择插页;OpenClaw 会在可用时通过浏览器自动化点击 **Use microphone**,并继续等待真实会议状态。对于仅创建的浏览器回退,OpenClaw 可能会点击 **Continue without microphone**,因为创建 URL 不需要实时音频路径。 +不要仅因为 Meet 显示 “Do you want people to hear you in the meeting?” 就报告“未登录”。这是 Meet 的音频选择插屏;OpenClaw 会在可用时通过浏览器自动化点击 **Use microphone**,并继续等待真实会议状态。对于仅创建的浏览器回退,OpenClaw 可能会点击 **Continue without microphone**,因为创建 URL 不需要实时音频路径。 ### 会议创建失败 -`googlemeet create` 首先在已配置 OAuth 凭据时使用 Google Meet API `spaces.create` 端点。没有 OAuth 凭据时,它会回退到固定的 Chrome 节点浏览器。请确认: +配置 OAuth 凭据时,`googlemeet create` 首先使用 Google Meet API `spaces.create` 端点。没有 OAuth 凭据时,它会回退到固定的 Chrome 节点浏览器。请确认: - 对于 API 创建:已配置 `oauth.clientId` 和 `oauth.refreshToken`,或存在匹配的 `OPENCLAW_GOOGLE_MEET_*` 环境变量。 -- 对于 API 创建:刷新令牌是在添加创建支持之后签发的。较旧的令牌可能缺少 `meetings.space.created` 作用域;请重新运行 `openclaw googlemeet auth login --json` 并更新插件配置。 -- 对于浏览器回退:`defaultTransport: "chrome-node"` 且 `chromeNode.node` 指向一个已连接、带有 `browser.proxy` 和 `googlemeet.chrome` 的节点。 -- 对于浏览器回退:该节点上的 OpenClaw Chrome 配置文件已登录 Google,并且可以打开 `https://meet.google.com/new`。 -- 对于浏览器回退:重试会在打开新标签页之前复用已有的 `https://meet.google.com/new` 或 Google 账号提示标签页。如果智能体超时,请重试工具调用,而不是手动打开另一个 Meet 标签页。 -- 对于浏览器回退:如果工具返回 `manualActionRequired: true`,请使用返回的 `browser.nodeId`、`browser.targetId`、`browserUrl` 和 `manualActionMessage` 指导操作员。在该操作完成前不要循环重试。 -- 对于浏览器回退:如果 Meet 显示“Do you want people to hear you in the meeting?”,请保持标签页打开。OpenClaw 应通过浏览器自动化点击 **Use microphone**,或在仅创建回退时点击 **Continue without microphone**,并继续等待生成的 Meet URL。如果无法做到,错误应提及 `meet-audio-choice-required`,而不是 `google-login-required`。 +- 对于 API 创建:刷新令牌是在添加创建支持之后签发的。较旧的令牌可能缺少 `meetings.space.created` 范围;请重新运行 `openclaw googlemeet auth login --json` 并更新插件配置。 +- 对于浏览器回退:`defaultTransport: "chrome-node"` 且 `chromeNode.node` 指向一个已连接的节点,该节点具有 `browser.proxy` 和 `googlemeet.chrome`。 +- 对于浏览器回退:该节点上的 OpenClaw Chrome 个人资料已登录 Google,并且可以打开 `https://meet.google.com/new`。 +- 对于浏览器回退:重试会在打开新标签页之前复用现有的 `https://meet.google.com/new` 或 Google 账号提示标签页。如果智能体超时,请重试工具调用,而不是手动打开另一个 Meet 标签页。 +- 对于浏览器回退:如果工具返回 `manualActionRequired: true`,请使用返回的 `browser.nodeId`、`browser.targetId`、`browserUrl` 和 `manualActionMessage` 指导操作员。在该动作完成前,不要循环重试。 +- 对于浏览器回退:如果 Meet 显示 “Do you want people to hear you in the meeting?”,请让标签页保持打开。OpenClaw 应通过浏览器自动化点击 **Use microphone**,或对于仅创建回退点击 **Continue without microphone**,并继续等待生成的 Meet URL。如果无法做到,错误应提到 `meet-audio-choice-required`,而不是 `google-login-required`。 -### 智能体加入但不说话 +### 智能体已加入但不说话 检查实时路径: @@ -1145,33 +1156,33 @@ openclaw googlemeet setup openclaw googlemeet doctor ``` -对正常的 STT -> OpenClaw 智能体 -> TTS 回话路径使用 `mode: "agent"`,或对直接实时语音回退使用 `mode: "bidi"`。`mode: "transcribe"` 会有意不启动回话桥。对于仅观察调试,请在参与者发言后运行 `openclaw googlemeet status --json `,并检查 `captioning`、`transcriptLines` 和 `lastCaptionText`。如果 `inCall` 为 true 但 `transcriptLines` 一直为 `0`,可能是 Meet 字幕已禁用、自观察器安装后无人发言、Meet UI 已变化,或该会议语言/账号不支持实时字幕。 +普通 STT -> OpenClaw 智能体 -> TTS 回话路径请使用 `mode: "agent"`,直接实时语音回退请使用 `mode: "bidi"`。`mode: "transcribe"` 会有意不启动回话桥。对于仅观察调试,请在参与者说话后运行 `openclaw googlemeet status --json `,并检查 `captioning`、`transcriptLines` 和 `lastCaptionText`。如果 `inCall` 为 true 但 `transcriptLines` 一直为 `0`,可能是 Meet 字幕已禁用、观察器安装后无人说话、Meet UI 已更改,或该会议语言/账号无法使用实时字幕。 -`googlemeet test-speech` 始终检查实时路径,并报告该次调用是否观察到桥输出字节。如果 `speechOutputVerified` 为 false 且 `speechOutputTimedOut` 为 true,实时提供商可能已接受该话语,但 OpenClaw 没有看到新的输出字节到达 Chrome 音频桥。 +`googlemeet test-speech` 始终检查实时路径,并报告是否观察到该次调用的桥输出字节。如果 `speechOutputVerified` 为 false 且 `speechOutputTimedOut` 为 true,实时提供商可能已经接受了话语,但 OpenClaw 没有看到新的输出字节到达 Chrome 音频桥。 还要验证: -- Gateway 网关主机上可用实时提供商密钥,例如 `OPENAI_API_KEY` 或 `GEMINI_API_KEY`。 -- Chrome 主机上可见 `BlackHole 2ch`。 -- Chrome 主机上存在 `sox`。 +- Gateway 网关主机上有可用的实时提供商密钥,例如 `OPENAI_API_KEY` 或 `GEMINI_API_KEY`。 +- `BlackHole 2ch` 在 Chrome 主机上可见。 +- `sox` 存在于 Chrome 主机上。 - Meet 麦克风和扬声器通过 OpenClaw 使用的虚拟音频路径路由。对于本地 Chrome 实时加入,`doctor` 应显示 `meet output routed: yes`。 -`googlemeet doctor [session-id]` 会打印会话、节点、通话中状态、手动操作原因、实时提供商连接、`realtimeReady`、音频输入/输出活动、最近音频时间戳、字节计数器和浏览器 URL。需要原始 JSON 时,使用 `googlemeet status [session-id] --json`。需要在不暴露令牌的情况下验证 Google Meet OAuth 刷新时,使用 `googlemeet doctor --oauth`;还需要 Google Meet API 证明时,添加 `--meeting` 或 `--create-space`。 +`googlemeet doctor [session-id]` 会打印会话、节点、通话中状态、手动动作原因、实时提供商连接、`realtimeReady`、音频输入/输出活动、最新音频时间戳、字节计数器和浏览器 URL。需要原始 JSON 时,请使用 `googlemeet status [session-id] --json`。需要在不暴露令牌的情况下验证 Google Meet OAuth 刷新时,请使用 `googlemeet doctor --oauth`;当你还需要 Google Meet API 证明时,添加 `--meeting` 或 `--create-space`。 -如果智能体超时,而你能看到已经打开的 Meet 标签页,请检查该标签页,而不要打开另一个: +如果智能体已超时,而你能看到一个 Meet 标签页已经打开,请检查该标签页,不要再打开另一个: ```bash openclaw googlemeet recover-tab openclaw googlemeet recover-tab https://meet.google.com/abc-defg-hij ``` -等效的工具动作是 `recover_current_tab`。它会聚焦并检查所选传输协议的现有 Meet 标签页。使用 `chrome` 时,它通过 Gateway 网关使用本地浏览器控制;使用 `chrome-node` 时,它使用已配置的 Chrome 节点。它不会打开新标签页或创建新会话;它会报告当前阻塞点,例如登录、准入、权限或音频选择状态。CLI 命令会与已配置的 Gateway 网关通信,因此 Gateway 网关必须正在运行;`chrome-node` 还要求 Chrome 节点已连接。 +等效的工具动作是 `recover_current_tab`。它会聚焦并检查所选传输协议的现有 Meet 标签页。使用 `chrome` 时,它通过 Gateway 网关使用本地浏览器控制;使用 `chrome-node` 时,它使用配置的 Chrome 节点。它不会打开新标签页或创建新会话;它会报告当前阻塞项,例如登录、准入、权限或音频选择状态。CLI 命令会与配置的 Gateway 网关通信,因此 Gateway 网关必须正在运行;`chrome-node` 还要求 Chrome 节点已连接。 ### Twilio 设置检查失败 -当 `voice-call` 未被允许或未启用时,`twilio-voice-call-plugin` 会失败。将其添加到 `plugins.allow`,启用 `plugins.entries.voice-call`,并重新加载 Gateway 网关。 +当 `voice-call` 未被允许或未启用时,`twilio-voice-call-plugin` 会失败。将它添加到 `plugins.allow`,启用 `plugins.entries.voice-call`,然后重新加载 Gateway 网关。 -当 Twilio 后端缺少账号 SID、认证令牌或主叫号码时,`twilio-voice-call-credentials` 会失败。在 Gateway 网关主机上设置这些变量: +当 Twilio 后端缺少账号 SID、身份验证令牌或主叫号码时,`twilio-voice-call-credentials` 会失败。在 Gateway 网关主机上设置这些值: ```bash export TWILIO_ACCOUNT_SID=AC... @@ -1179,9 +1190,9 @@ export TWILIO_AUTH_TOKEN=... export TWILIO_FROM_NUMBER=+15550001234 ``` -当 `voice-call` 没有公网 webhook 暴露,或 `publicUrl` 指向 local loopback 或私有网络空间时,`twilio-voice-call-webhook` 会失败。将 `plugins.entries.voice-call.config.publicUrl` 设置为公共提供商 URL,或配置 `voice-call` 隧道/Tailscale 暴露。 +当 `voice-call` 没有公共 webhook 暴露,或 `publicUrl` 指向 loopback 或私有网络空间时,`twilio-voice-call-webhook` 会失败。将 `plugins.entries.voice-call.config.publicUrl` 设置为公共提供商 URL,或配置 `voice-call` 隧道/Tailscale 暴露。 -Loopback 和私有 URL 不适用于运营商回调。不要将 `localhost`、`127.0.0.1`、`0.0.0.0`、`10.x`、`172.16.x`-`172.31.x`、`192.168.x`、`169.254.x`、`fc00::/7` 或 `fd00::/8` 用作 `publicUrl`。 +Loopback 和私有 URL 对运营商回调无效。不要使用 `localhost`、`127.0.0.1`、`0.0.0.0`、`10.x`、`172.16.x`-`172.31.x`、`192.168.x`、`169.254.x`、`fc00::/7` 或 `fd00::/8` 作为 `publicUrl`。 对于稳定的公共 URL: @@ -1228,13 +1239,13 @@ openclaw voicecall setup openclaw voicecall smoke ``` -默认情况下,`voicecall smoke` 仅检查就绪状态。要对特定号码进行试运行: +`voicecall smoke` 默认只检查就绪状态。要试运行特定号码: ```bash openclaw voicecall smoke --to "+15555550123" ``` -只有当你有意要发起实时出站通知通话时,才添加 `--yes`: +只有在你确实想发起实时外呼通知电话时,才添加 `--yes`: ```bash openclaw voicecall smoke --to "+15555550123" --yes @@ -1251,40 +1262,40 @@ openclaw googlemeet join https://meet.google.com/abc-defg-hij \ --dtmf-sequence ww123456# ``` -如果提供商需要在输入 PIN 前暂停,请在 `--dtmf-sequence` 中使用前导 `w` 或逗号。 +如果提供商在输入 PIN 前需要暂停,请在 `--dtmf-sequence` 中使用前导 `w` 或逗号。 -如果电话通话已创建,但 Meet 名单始终未显示拨入参会者: +如果电话通话已创建,但 Meet 名单中始终未显示拨入参与者: -- 运行 `openclaw googlemeet doctor `,确认委托的 Twilio 通话 ID、DTMF 是否已排队,以及是否已请求开场问候。 +- 运行 `openclaw googlemeet doctor `,确认委托的 Twilio 通话 ID、DTMF 是否已排队,以及是否请求了开场问候。 - 运行 `openclaw voicecall status --call-id `,并确认通话仍处于活动状态。 - 运行 `openclaw voicecall tail`,检查 Twilio webhook 是否到达 Gateway 网关。 -- 运行 `openclaw logs --follow`,查找 Twilio Meet 序列:Google Meet 委托加入,Voice Call 启动电话链路,Google Meet 等待 `voiceCall.dtmfDelayMs`,通过 `voicecall.dtmf` 发送 DTMF,等待 `voiceCall.postDtmfSpeechDelayMs`,然后通过 `voicecall.speak` 请求开场语音。 -- 重新运行 `openclaw googlemeet setup --transport twilio`;需要绿色设置检查通过,但这不能证明会议 PIN 序列正确。 -- 确认拨入号码与 PIN 属于同一个 Meet 邀请和地区。 -- 如果 Meet 接听较慢,或通话转录在发送 DTMF 后仍显示要求输入 PIN 的提示,请增加 `voiceCall.dtmfDelayMs`。 -- 如果参会者已加入但你听不到问候,请检查 `openclaw logs --follow` 中 DTMF 之后的 `voicecall.speak` 请求,以及媒体流 TTS 播放或 Twilio `` 回退。如果通话转录仍包含 “enter the meeting PIN”,说明电话链路尚未加入 Meet 房间,因此会议参会者不会听到语音。 +- 运行 `openclaw logs --follow`,查找 Twilio Meet 序列:Google Meet 委托加入,Voice Call 存储并提供预连接 DTMF TwiML,Voice Call 为 Twilio 通话提供实时 TwiML,然后 Google Meet 使用 `voicecall.speak` 请求开场语音。 +- 重新运行 `openclaw googlemeet setup --transport twilio`;绿色设置检查是必需的,但不能证明会议 PIN 序列正确。 +- 确认拨入号码与 PIN 属于同一 Meet 邀请和区域。 +- 如果 Meet 接听较慢,或者发送预连接 DTMF 后通话转录仍显示要求输入 PIN 的提示,请将 `voiceCall.dtmfDelayMs` 从默认的 12 秒调高。 +- 如果参与者已加入但你听不到问候,请在 `openclaw logs --follow` 中检查 DTMF 之后的 `voicecall.speak` 请求,以及媒体流 TTS 播放或 Twilio `` 回退。如果通话转录仍包含 “enter the meeting PIN”,则电话线路尚未加入 Meet 房间,因此会议参与者不会听到语音。 -如果 webhook 未到达,请先调试 Voice Call 插件:提供商必须能够访问 `plugins.entries.voice-call.config.publicUrl` 或已配置的隧道。参见[语音通话故障排除](/zh-CN/plugins/voice-call#troubleshooting)。 +如果 webhook 未到达,请先调试 Voice Call 插件:提供商必须能够访问 `plugins.entries.voice-call.config.publicUrl` 或配置的隧道。请参阅 [Voice Call 故障排除](/zh-CN/plugins/voice-call#troubleshooting)。 ## 备注 -Google Meet 的官方媒体 API 以接收为主,因此向 Meet 通话中说话仍需要一条参会者路径。此插件让该边界保持可见:Chrome 处理浏览器参会和本地音频路由;Twilio 处理电话拨入参会。 +Google Meet 的官方媒体 API 以接收为主,因此要向 Meet 通话中讲话,仍然需要一条参与者路径。此插件让这个边界保持清晰可见:Chrome 负责浏览器参与和本地音频路由;Twilio 负责电话拨入参与。 -Chrome 回话模式需要 `BlackHole 2ch`,并搭配以下任一项: +Chrome 回话模式需要 `BlackHole 2ch`,并且还需要以下任一项: -- `chrome.audioInputCommand` 加 `chrome.audioOutputCommand`:OpenClaw 拥有桥接,并在这些命令与所选提供商之间以 `chrome.audioFormat` 传输音频。智能体模式使用实时转录加常规 TTS;bidi 模式使用实时语音提供商。默认 Chrome 路径是 24 kHz PCM16,并使用 `chrome.audioBufferBytes: 4096`;8 kHz G.711 mu-law 仍可用于旧版命令对。 -- `chrome.audioBridgeCommand`:外部桥接命令拥有整个本地音频路径,并且必须在启动或验证其守护进程后退出。这仅对 `bidi` 有效,因为 `agent` 模式需要直接访问命令对以用于 TTS。 +- `chrome.audioInputCommand` 加 `chrome.audioOutputCommand`:OpenClaw 拥有该桥接,并在这些命令与所选提供商之间以 `chrome.audioFormat` 管道传输音频。智能体模式使用实时转录加常规 TTS;bidi 模式使用实时语音提供商。默认 Chrome 路径是 24 kHz PCM16,`chrome.audioBufferBytes: 4096`;8 kHz G.711 mu-law 仍可用于旧版命令对。 +- `chrome.audioBridgeCommand`:外部桥接命令拥有整个本地音频路径,并且必须在启动或验证其守护进程后退出。这只适用于 `bidi`,因为 `agent` 模式需要直接访问命令对来执行 TTS。 -当智能体在智能体模式下调用 `google_meet` 工具时,会议顾问会话会在回答参会者语音前 fork 调用方当前的转录。Meet 会话仍保持独立(`agent::subagent:google-meet:`),因此会议后续跟进不会直接改变调用方转录。 +当智能体在智能体模式中调用 `google_meet` 工具时,会议顾问会话会在回答参与者语音之前分叉调用者的当前转录。Meet 会话仍保持独立(`agent::subagent:google-meet:`),因此会议后续消息不会直接改变调用者转录。 -为了获得干净的双工音频,请将 Meet 输出和 Meet 麦克风路由到不同的虚拟设备,或路由到 Loopback 风格的虚拟设备图。单个共享 BlackHole 设备可能会把其他参会者的声音回声回通话中。 +为了获得干净的双工音频,请通过单独的虚拟设备或 Loopback 风格的虚拟设备图来路由 Meet 输出和 Meet 麦克风。单个共享 BlackHole 设备可能会把其他参与者的声音回传到通话中。 -使用命令对 Chrome 桥接时,`chrome.bargeInInputCommand` 可以监听单独的本地麦克风,并在真人开始说话时清除助手播放。即使共享的 BlackHole loopback 输入在助手播放期间被临时抑制,这也能让真人语音优先于助手输出。与 `chrome.audioInputCommand` 和 `chrome.audioOutputCommand` 一样,它是由操作者配置的本地命令。请使用明确可信的命令路径或参数列表,不要将其指向不受信任位置的脚本。 +使用命令对 Chrome 桥接时,`chrome.bargeInInputCommand` 可以监听单独的本地麦克风,并在真人开始讲话时清除助手播放。这样即使共享的 BlackHole loopback 输入在助手播放期间被暂时抑制,也能让真人语音优先于助手输出。和 `chrome.audioInputCommand`、`chrome.audioOutputCommand` 一样,它是由操作员配置的本地命令。请使用明确可信的命令路径或参数列表,不要将其指向不可信位置中的脚本。 -`googlemeet speak` 会触发 Chrome 会话的活动回话音频桥接。`googlemeet leave` 会停止该桥接。对于通过 Voice Call 插件委托的 Twilio 会话,`leave` 还会挂断底层语音通话。当你还想关闭由 API 管理空间中的活动 Google Meet 会议时,请使用 `googlemeet end-active-conference`。 +`googlemeet speak` 会触发 Chrome 会话的活动回话音频桥接。`googlemeet leave` 会停止该桥接。对于通过 Voice Call 插件委托的 Twilio 会话,`leave` 也会挂断底层语音通话。如果你还想关闭 API 托管空间中的活动 Google Meet 会议,请使用 `googlemeet end-active-conference`。 -## 相关 +## 相关内容 - [Voice Call 插件](/zh-CN/plugins/voice-call) -- [通话模式](/zh-CN/nodes/talk) +- [Talk 模式](/zh-CN/nodes/talk) - [构建插件](/zh-CN/plugins/building-plugins) diff --git a/docs/zh-CN/plugins/voice-call.md b/docs/zh-CN/plugins/voice-call.md index dd7efec99..5954e33f0 100644 --- a/docs/zh-CN/plugins/voice-call.md +++ b/docs/zh-CN/plugins/voice-call.md @@ -1,26 +1,26 @@ --- read_when: - 你想从 OpenClaw 发起外拨语音通话 - - 你正在配置或开发语音通话插件 + - 你正在配置或开发 voice-call 插件 - 你需要在电话通信中使用实时语音或流式转录 sidebarTitle: Voice call -summary: 通过 Twilio、Telnyx 或 Plivo 发起外呼并接听呼入语音通话,可选择启用实时语音和流式转写 +summary: 通过 Twilio、Telnyx 或 Plivo 拨打出站语音电话并接听入站语音电话,可选启用实时语音和流式转录 title: 语音通话插件 x-i18n: - generated_at: "2026-05-05T20:01:14Z" + generated_at: "2026-05-06T08:29:35Z" model: gpt-5.5 provider: openai - source_hash: cc608883e8f36cdd2075c3a8c7ab002d89d0616e119f488437bd18c995f066f9 + source_hash: aba168696481ef0cc3c55ac8fd8be4382cb36889a12ed6d881fe6b29a2b0a54c source_path: plugins/voice-call.md workflow: 16 --- -OpenClaw 的语音通话通过一个插件实现。支持外拨通知、多轮对话、全双工实时语音、流式转录,以及带允许列表策略的来电。 +OpenClaw 的语音通话通过插件提供。支持出站通知、多轮对话、全双工实时语音、流式转录,以及带有允许列表策略的入站通话。 **当前提供商:** `twilio`(Programmable Voice + Media Streams)、`telnyx`(Call Control v2)、`plivo`(Voice API + XML transfer + GetInput speech)、`mock`(开发/无网络)。 -语音通话插件在 **Gateway 网关进程内** 运行。如果你使用远程 Gateway 网关,请在运行 Gateway 网关的机器上安装并配置该插件,然后重启 Gateway 网关以加载它。 +Voice Call 插件在 **Gateway 网关进程内**运行。如果你使用远程 Gateway 网关,请在运行 Gateway 网关的机器上安装并配置该插件,然后重启 Gateway 网关以加载它。 ## 快速开始 @@ -42,21 +42,21 @@ OpenClaw 的语音通话通过一个插件实现。支持外拨通知、多轮 - 使用裸包名以跟随当前官方发布标签。只有在需要可复现安装时,才固定到精确版本。 + 使用裸包以跟随当前官方发布标签。仅在需要可复现安装时固定精确版本。 - 随后重启 Gateway 网关,以便加载插件。 + 随后重启 Gateway 网关,以便插件加载。 - 在 `plugins.entries.voice-call.config` 下设置配置(完整结构见下方 - [配置](#configuration))。至少需要:`provider`、提供商凭证、`fromNumber`,以及一个公网可访问的 webhook URL。 + 在 `plugins.entries.voice-call.config` 下设置配置(完整结构见下方的[配置](#configuration))。至少需要: + `provider`、提供商凭证、`fromNumber`,以及一个可公开访问的 webhook URL。 ```bash openclaw voicecall setup ``` - 默认输出便于在聊天日志和终端中阅读。它会检查插件启用状态、提供商凭证、webhook 暴露情况,以及是否只启用了一个音频模式(`streaming` 或 `realtime`)。脚本可使用 `--json`。 + 默认输出在聊天日志和终端中都易于阅读。它会检查插件是否启用、提供商凭证、webhook 暴露情况,以及是否只有一种音频模式(`streaming` 或 `realtime`)处于启用状态。脚本可使用 `--json`。 @@ -65,7 +65,7 @@ OpenClaw 的语音通话通过一个插件实现。支持外拨通知、多轮 openclaw voicecall smoke --to "+15555550123" ``` - 两者默认都是空运行。添加 `--yes` 才会实际发起一个简短的外拨通知电话: + 默认情况下两者都是空运行。添加 `--yes` 才会实际拨出一个简短的出站通知通话: ```bash openclaw voicecall smoke --to "+15555550123" --yes @@ -75,15 +75,15 @@ OpenClaw 的语音通话通过一个插件实现。支持外拨通知、多轮 -对于 Twilio、Telnyx 和 Plivo,设置必须解析到一个**公开的 webhook URL**。如果 `publicUrl`、隧道 URL、Tailscale URL 或 serve fallback 解析到 loopback 或私有网络空间,设置会失败,而不是启动一个无法接收运营商 webhook 的提供商。 +对于 Twilio、Telnyx 和 Plivo,设置必须解析为一个**公共 webhook URL**。如果 `publicUrl`、隧道 URL、Tailscale URL 或 serve 回退解析到 loopback 或私有网络空间,设置会失败,而不是启动一个无法接收运营商 webhook 的提供商。 ## 配置 -如果 `enabled: true`,但所选提供商缺少凭证,Gateway 网关启动时会记录一条设置未完成警告,其中包含缺失的键名,并跳过启动运行时。命令、RPC 调用和智能体工具在使用时仍会返回确切缺失的提供商配置。 +如果 `enabled: true` 但所选提供商缺少凭证,Gateway 网关启动会记录一条设置未完成警告,包含缺失键名,并跳过启动运行时。命令、RPC 调用和智能体工具在使用时仍会返回确切缺失的提供商配置。 -语音通话凭证支持 SecretRefs。`plugins.entries.voice-call.config.twilio.authToken`、`plugins.entries.voice-call.config.realtime.providers.*.apiKey`、`plugins.entries.voice-call.config.streaming.providers.*.apiKey` 和 `plugins.entries.voice-call.config.tts.providers.*.apiKey` 会通过标准 SecretRef surface 解析;参见 [SecretRef 凭证 surface](/zh-CN/reference/secretref-credential-surface)。 +语音通话凭证接受 SecretRefs。`plugins.entries.voice-call.config.twilio.authToken`、`plugins.entries.voice-call.config.realtime.providers.*.apiKey`、`plugins.entries.voice-call.config.streaming.providers.*.apiKey` 和 `plugins.entries.voice-call.config.tts.providers.*.apiKey` 会通过标准 SecretRef 表面解析;请参阅 [SecretRef 凭证表面](/zh-CN/reference/secretref-credential-surface)。 ```json5 @@ -157,26 +157,26 @@ OpenClaw 的语音通话通过一个插件实现。支持外拨通知、多轮 - - Twilio、Telnyx 和 Plivo 都要求 webhook URL **公网可访问**。 - - `mock` 是本地开发提供商(无网络调用)。 - - Telnyx 需要 `telnyx.publicKey`(或 `TELNYX_PUBLIC_KEY`),除非 `skipSignatureVerification` 为 true。 + - Twilio、Telnyx 和 Plivo 都需要一个**可公开访问**的 webhook URL。 + - `mock` 是本地开发提供商(不会发起网络调用)。 + - 除非 `skipSignatureVerification` 为 true,否则 Telnyx 需要 `telnyx.publicKey`(或 `TELNYX_PUBLIC_KEY`)。 - `skipSignatureVerification` 仅用于本地测试。 - - 在 ngrok 免费层级上,将 `publicUrl` 设置为确切的 ngrok URL;签名验证始终强制执行。 - - `tunnel.allowNgrokFreeTierLoopbackBypass: true` 只在 `tunnel.provider="ngrok"` 且 `serve.bind` 为 loopback(ngrok 本地代理)时,允许签名无效的 Twilio webhook。仅限本地开发。 - - Ngrok 免费层级 URL 可能会变化或添加中间页行为;如果 `publicUrl` 漂移,Twilio 签名会失败。生产环境:优先使用稳定域名或 Tailscale funnel。 + - 在 ngrok 免费层上,将 `publicUrl` 设置为确切的 ngrok URL;签名验证始终强制执行。 + - `tunnel.allowNgrokFreeTierLoopbackBypass: true` 仅在 `tunnel.provider="ngrok"` 且 `serve.bind` 为 loopback(ngrok 本地代理)时,允许带有无效签名的 Twilio webhook。仅限本地开发。 + - Ngrok 免费层 URL 可能会变化或增加插页行为;如果 `publicUrl` 漂移,Twilio 签名会失败。生产环境:优先使用稳定域名或 Tailscale funnel。 - - `streaming.preStartTimeoutMs` 会关闭从未发送有效 `start` 帧的套接字。 - - `streaming.maxPendingConnections` 限制未经认证的预启动套接字总数。 - - `streaming.maxPendingConnectionsPerIp` 限制每个来源 IP 未经认证的预启动套接字数量。 - - `streaming.maxConnections` 限制打开的媒体流套接字总数(待处理 + 活跃)。 + - `streaming.preStartTimeoutMs` 会关闭从未发送有效 `start` 帧的 socket。 + - `streaming.maxPendingConnections` 限制未认证的预启动 socket 总数。 + - `streaming.maxPendingConnectionsPerIp` 限制每个源 IP 的未认证预启动 socket 数量。 + - `streaming.maxConnections` 限制打开的媒体流 socket 总数(待处理 + 活跃)。 - 使用 `provider: "log"`、`twilio.from` 或旧版 `streaming.*` OpenAI 键的旧配置会由 `openclaw doctor --fix` 重写。运行时 fallback 目前仍接受旧的语音通话键,但重写路径是 `openclaw doctor --fix`,兼容 shim 是临时的。 + 使用 `provider: "log"`、`twilio.from` 或旧版 `streaming.*` OpenAI 键的旧配置会由 `openclaw doctor --fix` 重写。运行时回退目前仍接受旧的语音通话键,但重写路径是 `openclaw doctor --fix`,兼容 shim 是临时的。 - 自动迁移的流式键: + 自动迁移的流式传输键: - `streaming.sttProvider` → `streaming.provider` - `streaming.openaiApiKey` → `streaming.providers.openai.apiKey` @@ -189,50 +189,50 @@ OpenClaw 的语音通话通过一个插件实现。支持外拨通知、多轮 ## 会话范围 -默认情况下,语音通话使用 `sessionScope: "per-phone"`,因此来自同一来电方的重复通话会保留对话记忆。当每个运营商通话都应以全新上下文开始时,例如接待、预订、IVR,或同一电话号码可能代表不同会议的 Google Meet 桥接流程,请设置 `sessionScope: "per-call"`。 +默认情况下,Voice Call 使用 `sessionScope: "per-phone"`,因此同一来电者重复来电会保留对话记忆。当每次运营商通话都应以全新上下文开始时,请设置 `sessionScope: "per-call"`,例如前台接待、预订、IVR,或 Google Meet 桥接流程,其中同一个电话号码可能代表不同会议。 ## 实时语音对话 -`realtime` 为实时通话音频选择一个全双工实时语音提供商。它与 `streaming` 分离,后者只会将音频转发给实时转录提供商。 +`realtime` 会为实时通话音频选择一个全双工实时语音提供商。它与 `streaming` 分开,后者只会将音频转发给实时转录提供商。 -`realtime.enabled` 不能与 `streaming.enabled` 组合使用。每次通话只能选择一种音频模式。 +`realtime.enabled` 不能与 `streaming.enabled` 组合使用。每次通话选择一种音频模式。 当前运行时行为: - Twilio Media Streams 支持 `realtime.enabled`。 -- `realtime.provider` 是可选的。如果未设置,语音通话会使用第一个已注册的实时语音提供商。 +- `realtime.provider` 是可选的。如果未设置,Voice Call 会使用第一个注册的实时语音提供商。 - 内置实时语音提供商:Google Gemini Live(`google`)和 OpenAI(`openai`),由各自的提供商插件注册。 - 提供商拥有的原始配置位于 `realtime.providers.` 下。 -- 语音通话默认暴露共享的 `openclaw_agent_consult` 实时工具。当来电方请求更深入的推理、当前信息或普通 OpenClaw 工具时,实时模型可以调用它。 -- `realtime.consultPolicy` 可选择性地添加指导,说明实时模型应在何时调用 `openclaw_agent_consult`。 -- `realtime.agentContext.enabled` 默认关闭。启用后,语音通话会在会话设置时将有界的智能体身份、系统提示覆盖,以及所选工作区文件胶囊注入实时提供商指令。 -- `realtime.fastContext.enabled` 默认关闭。启用后,语音通话会先搜索已索引的记忆/会话上下文以回答 consult 问题,并在 `realtime.fastContext.timeoutMs` 内将这些片段返回给实时模型;只有在 `realtime.fastContext.fallbackToConsult` 为 true 时,才回退到完整 consult 智能体。 -- 如果 `realtime.provider` 指向未注册的提供商,或者根本没有注册实时语音提供商,语音通话会记录一条警告并跳过实时媒体,而不是让整个插件失败。 -- Consult 会话键会在可用时复用已存储的通话会话,然后回退到配置的 `sessionScope`(默认 `per-phone`,隔离通话则为 `per-call`)。 +- Voice Call 默认暴露共享的 `openclaw_agent_consult` 实时工具。当来电者请求更深入的推理、当前信息或常规 OpenClaw 工具时,实时模型可以调用它。 +- `realtime.consultPolicy` 可选地添加指导,说明实时模型何时应调用 `openclaw_agent_consult`。 +- `realtime.agentContext.enabled` 默认关闭。启用后,Voice Call 会在会话设置时向实时提供商指令中注入有边界的智能体身份、系统提示覆盖,以及选定的工作区文件胶囊。 +- `realtime.fastContext.enabled` 默认关闭。启用后,Voice Call 会先搜索已索引的记忆/会话上下文来回答 consult 问题,并在 `realtime.fastContext.timeoutMs` 内将这些片段返回给实时模型;仅当 `realtime.fastContext.fallbackToConsult` 为 true 时,才回退到完整的 consult 智能体。 +- 如果 `realtime.provider` 指向未注册的提供商,或者根本没有注册任何实时语音提供商,Voice Call 会记录警告并跳过实时媒体,而不是让整个插件失败。 +- Consult 会话键会在可用时复用已存储的通话会话,然后回退到配置的 `sessionScope`(默认 `per-phone`,隔离通话为 `per-call`)。 ### 工具策略 `realtime.toolPolicy` 控制 consult 运行: -| 策略 | 行为 | +| 策略 | 行为 | | ---------------- | ---------------------------------------------------------------------------------------------------------------------------------------- | -| `safe-read-only` | 暴露 consult 工具,并将常规智能体限制为 `read`、`web_search`、`web_fetch`、`x_search`、`memory_search` 和 `memory_get`。 | -| `owner` | 暴露 consult 工具,并允许常规智能体使用普通智能体工具策略。 | -| `none` | 不暴露 consult 工具。自定义 `realtime.tools` 仍会传递给实时提供商。 | +| `safe-read-only` | 暴露 consult 工具,并将常规智能体限制为 `read`、`web_search`、`web_fetch`、`x_search`、`memory_search` 和 `memory_get`。 | +| `owner` | 暴露 consult 工具,并允许常规智能体使用正常的智能体工具策略。 | +| `none` | 不暴露 consult 工具。自定义 `realtime.tools` 仍会透传给实时提供商。 | -`realtime.consultPolicy` 只控制实时模型指令: +`realtime.consultPolicy` 仅控制实时模型指令: -| 策略 | 指导 | -| ------------- | ----------------------------------------------------------------------------------------------- | -| `auto` | 保留默认提示,并让提供商决定何时调用 consult 工具。 | -| `substantive` | 直接回答简单的对话衔接内容,并在事实、记忆、工具或上下文相关回答前进行 consult。 | -| `always` | 在每个实质性回答前进行 consult。 | +| 策略 | 指导 | +| ------------- | -------------------------------------------------------------------------------------------- | +| `auto` | 保留默认提示,并让提供商决定何时调用 consult 工具。 | +| `substantive` | 直接回答简单的对话衔接内容,并在涉及事实、记忆、工具或上下文前进行 consult。 | +| `always` | 在每个实质性回答前进行 consult。 | ### 智能体语音上下文 -当语音桥接需要听起来像配置的 OpenClaw 智能体,但又不想在普通轮次上支付完整 agent-consult 往返成本时,启用 `realtime.agentContext`。上下文胶囊会在创建实时会话时添加一次,因此不会增加每轮延迟。对 `openclaw_agent_consult` 的调用仍会运行完整的 OpenClaw 智能体,并应用于工具工作、当前信息、记忆查找或工作区状态。 +当语音桥接应听起来像已配置的 OpenClaw 智能体,而普通轮次又不想支付完整智能体 consult 往返成本时,请启用 `realtime.agentContext`。上下文胶囊会在创建实时会话时添加一次,因此不会增加每轮延迟。对 `openclaw_agent_consult` 的调用仍会运行完整的 OpenClaw 智能体,并应用于工具工作、当前信息、记忆查找或工作区状态。 ```json5 { @@ -267,11 +267,11 @@ OpenClaw 的语音通话通过一个插件实现。支持外拨通知、多轮 默认值:API key 来自 `realtime.providers.google.apiKey`、 - `GEMINI_API_KEY` 或 `GOOGLE_GENERATIVE_AI_API_KEY`;模型为 - `gemini-2.5-flash-native-audio-preview-12-2025`;语音为 `Kore`。 - 对于更长、可重新连接的通话,`sessionResumption` 和 `contextWindowCompression` + `GEMINI_API_KEY` 或 `GOOGLE_GENERATIVE_AI_API_KEY`;模型 + `gemini-2.5-flash-native-audio-preview-12-2025`;语音 `Kore`。 + 对于更长、可重连的通话,`sessionResumption` 和 `contextWindowCompression` 默认开启。使用 `silenceDurationMs`、`startSensitivity` 和 - `endSensitivity` 调整电话音频上的更快轮次切换。 + `endSensitivity` 来针对电话音频调优更快的轮次切换。 ```json5 { @@ -336,22 +336,22 @@ OpenClaw 的语音通话通过一个插件实现。支持外拨通知、多轮 ## 流式转录 -`streaming` 会为实时通话音频选择一个实时转录提供商。 +`streaming` 为实时通话音频选择实时转录提供商。 当前运行时行为: - `streaming.provider` 是可选的。如果未设置,Voice Call 会使用第一个已注册的实时转录提供商。 -- 内置实时转录提供商:Deepgram(`deepgram`)、ElevenLabs(`elevenlabs`)、Mistral(`mistral`)、OpenAI(`openai`)和 xAI(`xai`),由它们的提供商插件注册。 +- 内置实时转录提供商:Deepgram(`deepgram`)、ElevenLabs(`elevenlabs`)、Mistral(`mistral`)、OpenAI(`openai`)和 xAI(`xai`),由各自的提供商插件注册。 - 提供商拥有的原始配置位于 `streaming.providers.` 下。 -- Twilio 发送已接受的流 `start` 消息后,Voice Call 会立即注册该流,在提供商连接期间通过转录提供商排队入站媒体,并且仅在实时转录就绪后启动初始问候。 -- 如果 `streaming.provider` 指向未注册的提供商,或没有任何提供商已注册,Voice Call 会记录警告并跳过媒体流式传输,而不是让整个插件失败。 +- Twilio 发送已接受的流 `start` 消息后,Voice Call 会立即注册该流,在提供商连接期间通过转录提供商排队入站媒体,并且只会在实时转录就绪后才开始初始问候。 +- 如果 `streaming.provider` 指向未注册的提供商,或者没有任何提供商已注册,Voice Call 会记录警告并跳过媒体流式传输,而不是让整个插件失败。 ### 流式提供商示例 - 默认值:API key 为 `streaming.providers.openai.apiKey` 或 - `OPENAI_API_KEY`;模型为 `gpt-4o-transcribe`;`silenceDurationMs: 800`; + 默认值:API key `streaming.providers.openai.apiKey` 或 + `OPENAI_API_KEY`;模型 `gpt-4o-transcribe`;`silenceDurationMs: 800`; `vadThreshold: 0.5`。 ```json5 @@ -382,8 +382,8 @@ OpenClaw 的语音通话通过一个插件实现。支持外拨通知、多轮 - 默认值:API key 为 `streaming.providers.xai.apiKey` 或 `XAI_API_KEY`; - 端点为 `wss://api.x.ai/v1/stt`;编码为 `mulaw`;采样率为 `8000`; + 默认值:API key `streaming.providers.xai.apiKey` 或 `XAI_API_KEY`; + 端点 `wss://api.x.ai/v1/stt`;编码 `mulaw`;采样率 `8000`; `endpointingMs: 800`;`interimResults: true`。 ```json5 @@ -414,9 +414,9 @@ OpenClaw 的语音通话通过一个插件实现。支持外拨通知、多轮 -## 通话的 TTS +## 通话 TTS -Voice Call 使用核心 `messages.tts` 配置进行通话中的流式 +Voice Call 使用核心 `messages.tts` 配置进行通话上的流式 语音。你可以在插件配置下用**相同结构**覆盖它——它会与 `messages.tts` 深度合并。 @@ -436,16 +436,16 @@ Voice Call 使用核心 `messages.tts` 配置进行通话中的流式 **语音通话会忽略 Microsoft speech。** 电话音频需要 PCM; -当前 Microsoft 传输不会暴露电话 PCM 输出。 +当前 Microsoft 传输不公开电话 PCM 输出。 行为说明: - 插件配置中的旧版 `tts.` 键(`openai`、`elevenlabs`、`microsoft`、`edge`)会由 `openclaw doctor --fix` 修复;提交的配置应使用 `tts.providers.`。 - 启用 Twilio 媒体流式传输时会使用核心 TTS;否则通话会回退到提供商原生语音。 -- 如果 Twilio 媒体流已处于活动状态,Voice Call 不会回退到 TwiML ``。如果该状态下电话 TTS 不可用,播放请求会失败,而不是混合两条播放路径。 -- 当电话 TTS 回退到次级提供商时,Voice Call 会记录包含提供商链(`from`、`to`、`attempts`)的警告,便于调试。 -- 当 Twilio 打断或流拆除清空待处理 TTS 队列时,已排队的播放请求会结算,而不是让呼叫者一直等待播放完成。 +- 如果 Twilio 媒体流已经处于活动状态,Voice Call 不会回退到 TwiML ``。如果在该状态下电话 TTS 不可用,播放请求会失败,而不是混用两条播放路径。 +- 当电话 TTS 回退到辅助提供商时,Voice Call 会记录一条警告,其中包含提供商链(`from`、`to`、`attempts`),用于调试。 +- 当 Twilio 插话或流拆除清空待处理 TTS 队列时,已排队的播放请求会完成结算,而不是让等待播放完成的来电者一直挂起。 ### TTS 示例 @@ -514,7 +514,7 @@ Voice Call 使用核心 `messages.tts` 配置进行通话中的流式 ## 入站通话 -入站策略默认值为 `disabled`。要启用入站通话,请设置: +入站策略默认值为 `disabled`。要启用入站呼叫,请设置: ```json5 { @@ -525,33 +525,32 @@ Voice Call 使用核心 `messages.tts` 配置进行通话中的流式 ``` -`inboundPolicy: "allowlist"` 是低保证级别的来电显示筛选。该 +`inboundPolicy: "allowlist"` 是低保证程度的来电显示号码筛选。该 插件会规范化提供商提供的 `From` 值,并将其与 `allowFrom` 比较。Webhook 验证会认证提供商投递和 -载荷完整性,但它**不能**证明 PSTN/VoIP 来电号码 -所有权。将 `allowFrom` 视为来电显示过滤,而不是强来电者 -身份验证。 +载荷完整性,但它**不会**证明 PSTN/VoIP 主叫号码 +所有权。请将 `allowFrom` 视为来电显示号码过滤,而不是强主叫 +身份。 -自动回复使用智能体系统。可通过 `responseModel`、 +自动响应使用智能体系统。可通过 `responseModel`、 `responseSystemPrompt` 和 `responseTimeoutMs` 调整。 ### 按号码路由 -当一个 Voice Call 插件接收多个电话号码的来电,并且每个号码 -应表现得像不同线路时,请使用 `numbers`。例如,一个 -号码可以使用随意的个人助手,而另一个号码使用业务 -人设、不同的响应智能体以及不同的 TTS 语音。 +当一个 Voice Call 插件接收多个电话号码的呼叫,并且每个号码都应像不同线路一样工作时,请使用 `numbers`。例如,一个 +号码可以使用休闲的个人助理,而另一个号码可以使用商务 +人设、不同的响应智能体和不同的 TTS 语音。 -路由会从提供商提供的拨入 `To` 号码中选择。键必须是 -E.164 号码。来电到达时,Voice Call 会解析匹配路由一次, +路由根据提供商提供的被拨 `To` 号码选择。键必须是 +E.164 号码。呼叫到达时,Voice Call 会解析一次匹配的路由, 将匹配的路由存储到通话记录上,并将该有效配置复用于 -问候、经典自动回复路径、实时咨询路径和 TTS +问候语、经典自动响应路径、实时咨询路径和 TTS 播放。如果没有路由匹配,则使用全局 Voice Call 配置。 -出站通话不使用 `numbers`;发起通话时请显式传入出站目标、消息和 +出站呼叫不使用 `numbers`;发起呼叫时请显式传入出站目标、消息和 会话。 -路由覆盖当前支持: +路由覆盖目前支持: - `inboundGreeting` - `tts` @@ -587,52 +586,52 @@ E.164 号码。来电到达时,Voice Call 会解析匹配路由一次, } ``` -### 语音输出契约 +### 口语输出契约 -对于自动回复,Voice Call 会向系统提示词追加严格的语音输出契约: +对于自动响应,Voice Call 会向系统提示追加严格的口语输出契约: ```text {"spoken":"..."} ``` -Voice Call 会防御式提取语音文本: +Voice Call 会防御性地提取语音文本: - 忽略标记为推理/错误内容的载荷。 - 解析直接 JSON、围栏 JSON 或内联 `"spoken"` 键。 -- 回退到纯文本,并移除疑似计划/元信息引导段落。 +- 回退到纯文本,并移除看起来像规划/元信息开头的段落。 这会让语音播放聚焦于面向来电者的文本,并避免 -将计划文本泄露到音频中。 +将规划文本泄漏到音频中。 ### 对话启动行为 -对于出站 `conversation` 通话,第一条消息处理与实时 -播放状态绑定: +对于出站 `conversation` 呼叫,首条消息处理会绑定到实时 +播放状态: -- 仅在初始问候正在主动说话时,才会抑制打断队列清空和自动回复。 -- 如果初始播放失败,通话会回到 `listening`,且初始消息仍会排队等待重试。 -- Twilio 流式传输的初始播放会在流连接时启动,没有额外延迟。 -- 打断会中止活动播放,并清空已排队但尚未播放的 Twilio TTS 条目。清空的条目会解析为已跳过,因此后续响应逻辑可以继续,而无需等待永远不会播放的音频。 -- 实时语音对话使用实时流自己的开场轮次。Voice Call **不会**为该初始消息发布旧版 `` TwiML 更新,因此出站 `` 会话会保持连接。 +- 仅当初始问候语正在主动朗读时,才会抑制插话队列清空和自动响应。 +- 如果初始播放失败,通话会返回 `listening`,并且初始消息会保持排队以供重试。 +- Twilio 流式传输的初始播放会在流连接时开始,不会额外延迟。 +- 插话会中止正在进行的播放,并清除已排队但尚未播放的 Twilio TTS 条目。被清除的条目会解析为已跳过,因此后续响应逻辑可以继续,而无需等待永远不会播放的音频。 +- 实时语音对话使用实时流自己的开场轮次。Voice Call **不会**为该初始消息发布旧版 `` TwiML 更新,因此出站 `` 会话会保持附加状态。 ### Twilio 流断开宽限期 -当 Twilio 媒体流断开时,Voice Call 会等待 **2000 ms** 后 +当 Twilio 媒体流断开时,Voice Call 会等待 **2000 ms**,然后 自动结束通话: -- 如果流在该窗口内重新连接,自动结束会被取消。 -- 如果宽限期后没有流重新注册,则会结束通话,以防止活动通话卡住。 +- 如果流在该窗口期内重新连接,则取消自动结束。 +- 如果宽限期后没有流重新注册,则结束通话以防止活动通话卡住。 -## 陈旧通话清理器 +## 过期通话清理器 使用 `staleCallReaperSeconds` 结束从未收到终止 -webhook 的通话(例如从未完成的通知模式通话)。默认值 +webhook 的通话(例如,永不完成的通知模式通话)。默认值 为 `0`(禁用)。 建议范围: -- **生产环境:** 用于通知式流程时为 `120`–`300` 秒。 -- 将此值保持为**高于 `maxDurationSeconds`**,让正常调用可以完成。一个好的起点是 `maxDurationSeconds + 30–60` 秒。 +- **生产环境:** 通知类流程使用 `120`–`300` 秒。 +- 保持此值**高于 `maxDurationSeconds`**,这样正常调用才能完成。一个好的起点是 `maxDurationSeconds + 30–60` 秒。 ```json5 { @@ -649,26 +648,26 @@ webhook 的通话(例如从未完成的通知模式通话)。默认值 } ``` -## Webhook 安全 +## 网络钩子安全性 -当代理或隧道位于 Gateway 网关前方时,该插件会重建用于签名验证的公开 URL。这些选项控制信任哪些转发标头: +当代理或隧道位于 Gateway 网关前面时,插件会重建用于签名验证的公开 URL。这些选项控制信任哪些转发头: - 允许来自转发标头的主机列表。 + 允许来自转发头的主机列表。 - 在没有允许列表的情况下信任转发标头。 + 在没有允许列表的情况下信任转发头。 - 仅当请求远程 IP 与列表匹配时,才信任转发标头。 + 仅当请求远程 IP 与列表匹配时才信任转发头。 其他保护措施: -- Twilio 和 Plivo 启用了 Webhook **重放保护**。重放的有效 webhook 请求会被确认,但会跳过副作用。 +- Twilio 和 Plivo 已启用网络钩子**重放保护**。重放的有效网络钩子请求会被确认,但会跳过副作用。 - Twilio 对话轮次在 `` 回调中包含每轮令牌,因此过期或重放的语音回调无法满足较新的待处理转录轮次。 -- 当缺少提供商要求的签名标头时,未认证的 webhook 请求会在读取正文之前被拒绝。 -- voice-call webhook 使用共享的预认证正文配置(64 KB / 5 秒),并在签名验证之前按 IP 限制正在处理的请求数量。 +- 当缺少提供商要求的签名头时,未认证的网络钩子请求会在读取正文之前被拒绝。 +- voice-call 网络钩子使用共享的预认证正文配置(64 KB / 5 秒),并在签名验证前施加按 IP 的并发上限。 使用稳定公开主机的示例: @@ -704,52 +703,52 @@ openclaw voicecall latency # summarize turn latency from lo openclaw voicecall expose --mode funnel ``` -当 Gateway 网关已在运行时,操作类 `voicecall` 命令会委托给 Gateway 网关拥有的 voice-call 运行时,因此 CLI 不会绑定第二个 webhook 服务器。如果无法访问 Gateway 网关,这些命令会回退到独立 CLI 运行时。 +当 Gateway 网关已在运行时,操作性 `voicecall` 命令会委托给 Gateway 网关拥有的 voice-call 运行时,因此 CLI 不会绑定第二个网络钩子服务器。如果无法访问 Gateway 网关,这些命令会回退到独立的 CLI 运行时。 -`latency` 会从默认 voice-call 存储路径读取 `calls.jsonl`。使用 `--file ` 指向其他日志,并使用 `--last ` 将分析限制为最后 N 条记录(默认 200)。输出包含轮次延迟和监听等待时间的 p50/p90/p99。 +`latency` 会从默认 voice-call 存储路径读取 `calls.jsonl`。使用 `--file ` 指向不同的日志,并使用 `--last ` 将分析限制为最后 N 条记录(默认 200)。输出包含轮次延迟和监听等待时间的 p50/p90/p99。 ## 智能体工具 工具名称:`voice_call`。 -| 操作 | 参数 | +| 操作 | 参数 | | --------------- | ------------------------------------------ | | `initiate_call` | `message`, `to?`, `mode?`, `dtmfSequence?` | -| `continue_call` | `callId`, `message` | -| `speak_to_user` | `callId`, `message` | -| `send_dtmf` | `callId`, `digits` | -| `end_call` | `callId` | -| `get_status` | `callId` | +| `continue_call` | `callId`, `message` | +| `speak_to_user` | `callId`, `message` | +| `send_dtmf` | `callId`, `digits` | +| `end_call` | `callId` | +| `get_status` | `callId` | 此仓库在 `skills/voice-call/SKILL.md` 提供了匹配的技能文档。 ## Gateway 网关 RPC -| 方法 | 参数 | +| 方法 | 参数 | | -------------------- | ------------------------------------------ | | `voicecall.initiate` | `to?`, `message`, `mode?`, `dtmfSequence?` | -| `voicecall.continue` | `callId`, `message` | -| `voicecall.speak` | `callId`, `message` | -| `voicecall.dtmf` | `callId`, `digits` | -| `voicecall.end` | `callId` | -| `voicecall.status` | `callId` | +| `voicecall.continue` | `callId`, `message` | +| `voicecall.speak` | `callId`, `message` | +| `voicecall.dtmf` | `callId`, `digits` | +| `voicecall.end` | `callId` | +| `voicecall.status` | `callId` | -`dtmfSequence` 仅在 `mode: "conversation"` 下有效。通知模式呼叫如果需要在接通后发送数字,应在呼叫存在后使用 `voicecall.dtmf`。 +`dtmfSequence` 仅在 `mode: "conversation"` 时有效。通知模式调用如果需要连接后的数字,应在调用存在后使用 `voicecall.dtmf`。 ## 故障排除 -### 设置无法通过 webhook 暴露检查 +### 设置无法完成网络钩子暴露 -从运行 Gateway 网关的同一环境中运行设置: +从运行 Gateway 网关的同一环境运行设置: ```bash openclaw voicecall setup openclaw voicecall setup --json ``` -对于 `twilio`、`telnyx` 和 `plivo`,`webhook-exposure` 必须为绿色。已配置的 `publicUrl` 如果指向本地或专用网络空间,仍会失败,因为运营商无法回拨这些地址。不要将 `localhost`、`127.0.0.1`、`0.0.0.0`、`10.x`、`172.16.x`-`172.31.x`、`192.168.x`、`169.254.x`、`fc00::/7` 或 `fd00::/8` 用作 `publicUrl`。 +对于 `twilio`、`telnyx` 和 `plivo`,`webhook-exposure` 必须为绿色。当已配置的 `publicUrl` 指向本地或专用网络空间时仍会失败,因为运营商无法回拨这些地址。不要将 `localhost`、`127.0.0.1`、`0.0.0.0`、`10.x`、`172.16.x`-`172.31.x`、`192.168.x`、`169.254.x`、`fc00::/7` 或 `fd00::/8` 用作 `publicUrl`。 -Twilio 通知模式外呼会在创建呼叫请求中直接发送初始 `` TwiML,因此第一条播报消息不依赖 Twilio 获取 webhook TwiML。状态回调、对话呼叫、接通前 DTMF、实时流和接通后呼叫控制仍需要公开 webhook。 +Twilio 通知模式出站调用会在创建调用请求中直接发送初始 `` TwiML,因此第一条语音消息不依赖 Twilio 获取网络钩子 TwiML。状态回调、对话调用、连接前 DTMF、实时流和连接后调用控制仍然需要公开网络钩子。 使用一种公开暴露路径: @@ -778,21 +777,21 @@ openclaw voicecall setup openclaw voicecall smoke ``` -除非传入 `--yes`,否则 `voicecall smoke` 是一次空运行。 +除非你传入 `--yes`,否则 `voicecall smoke` 是一次空运行。 -### 提供商凭据失败 +### 提供商凭证失败 -检查所选提供商和必需的凭据字段: +检查所选提供商和必需的凭证字段: - Twilio:`twilio.accountSid`、`twilio.authToken` 和 `fromNumber`,或 `TWILIO_ACCOUNT_SID`、`TWILIO_AUTH_TOKEN` 和 `TWILIO_FROM_NUMBER`。 - Telnyx:`telnyx.apiKey`、`telnyx.connectionId`、`telnyx.publicKey` 和 `fromNumber`。 - Plivo:`plivo.authId`、`plivo.authToken` 和 `fromNumber`。 -凭据必须存在于 Gateway 网关主机上。编辑本地 shell 配置文件不会影响已在运行的 Gateway 网关,直到它重启或重新加载其环境。 +凭证必须存在于 Gateway 网关主机上。编辑本地 shell 配置文件不会影响已运行的 Gateway 网关,直到它重启或重新加载其环境。 -### 呼叫已开始但提供商 webhook 未到达 +### 调用已启动,但提供商网络钩子未到达 -确认提供商控制台指向准确的公开 webhook URL: +确认提供商控制台指向确切的公开网络钩子 URL: ```text https://voice.example.com/voice/webhook @@ -810,20 +809,20 @@ openclaw logs --follow - `publicUrl` 指向的路径与 `serve.path` 不同。 - 隧道 URL 在 Gateway 网关启动后发生了变化。 -- 代理转发了请求,但移除或重写了主机/协议标头。 -- 防火墙或 DNS 将公开主机名路由到 Gateway 网关以外的位置。 -- Gateway 网关在没有启用 Voice Call 插件的情况下重启。 +- 代理转发了请求,但剥离或重写了主机/协议头。 +- 防火墙或 DNS 将公开主机名路由到了 Gateway 网关以外的位置。 +- Gateway 网关重启时未启用 Voice Call 插件。 -当反向代理或隧道位于 Gateway 网关前方时,将 `webhookSecurity.allowedHosts` 设置为公开主机名,或为已知代理地址使用 `webhookSecurity.trustedProxyIPs`。仅当代理边界由你控制时,才使用 `webhookSecurity.trustForwardingHeaders`。 +当反向代理或隧道位于 Gateway 网关前面时,将 `webhookSecurity.allowedHosts` 设置为公开主机名,或对已知代理地址使用 `webhookSecurity.trustedProxyIPs`。仅当代理边界由你控制时才使用 `webhookSecurity.trustForwardingHeaders`。 ### 签名验证失败 提供商签名会根据 OpenClaw 从传入请求重建的公开 URL 进行检查。如果签名失败: -- 确认提供商 webhook URL 与 `publicUrl` 完全匹配,包括 scheme、host 和 path。 +- 确认提供商网络钩子 URL 与 `publicUrl` 完全匹配,包括协议、主机和路径。 - 对于 ngrok 免费层 URL,当隧道主机名变化时更新 `publicUrl`。 -- 确保代理保留原始主机和协议标头,或配置 `webhookSecurity.allowedHosts`。 -- 不要在本地测试之外启用 `skipSignatureVerification`。 +- 确保代理保留原始主机和协议头,或配置 `webhookSecurity.allowedHosts`。 +- 不要在本地测试以外启用 `skipSignatureVerification`。 ### Google Meet Twilio 加入失败 @@ -834,39 +833,39 @@ openclaw voicecall setup openclaw voicecall smoke --to "+15555550123" ``` -然后显式验证 Google Meet 传输协议: +然后显式验证 Google Meet 传输: ```bash openclaw googlemeet setup --transport twilio ``` -如果 Voice Call 正常但 Meet 参与者从未加入,请检查 Meet 拨入号码、PIN 和 `--dtmf-sequence`。电话呼叫本身可能正常,而会议会拒绝或忽略不正确的 DTMF 序列。 +如果 Voice Call 正常但 Meet 参会者从未加入,请检查 Meet 拨入号码、PIN 和 `--dtmf-sequence`。电话调用可能是健康的,而会议会拒绝或忽略不正确的 DTMF 序列。 -Google Meet 会将 Meet DTMF 序列和介绍文本传递给 `voicecall.start`。对于 Twilio 呼叫,Voice Call 会先提供 DTMF TwiML,重定向回 webhook,然后打开实时媒体流,因此保存的介绍会在电话参与者加入会议后生成。 +Google Meet 通过 `voicecall.start` 和连接前 DTMF 序列启动 Twilio 电话线路。由 PIN 派生的序列会将 Google Meet 插件的 `voiceCall.dtmfDelayMs` 作为前导 Twilio 等待数字包含进去。默认值为 12 秒,因为 Meet 拨入提示可能较晚到达。然后 Voice Call 会在请求介绍问候语之前重定向回实时处理。 -使用 `openclaw logs --follow` 查看实时阶段跟踪。健康的 Twilio Meet 加入会按此顺序记录日志: +使用 `openclaw logs --follow` 查看实时阶段跟踪。健康的 Twilio Meet 加入会按以下顺序记录日志: - Google Meet 将 Twilio 加入委托给 Voice Call。 -- Voice Call 存储接通前 DTMF TwiML。 -- Twilio 初始 TwiML 在实时处理前被消费并提供。 -- Voice Call 为 Twilio 呼叫提供实时 TwiML。 -- 实时桥接启动,并已将初始问候排队。 +- Voice Call 存储连接前 DTMF TwiML。 +- Twilio 初始 TwiML 在实时处理之前被消费并提供。 +- Voice Call 为 Twilio 调用提供实时 TwiML。 +- Google Meet 在 DTMF 后延迟之后通过 `voicecall.speak` 请求介绍语音。 -`openclaw voicecall tail` 仍会显示持久化的呼叫记录;它对呼叫状态和转录很有用,但并非每个 webhook/实时转换都会出现在其中。 +`openclaw voicecall tail` 仍会显示已持久化的调用记录;它对调用状态和转录很有用,但并非每个网络钩子/实时转换都会出现在那里。 -### 实时呼叫没有语音 +### 实时调用没有语音 确认只启用一种音频模式。`realtime.enabled` 和 `streaming.enabled` 不能同时为 true。 -对于实时 Twilio 呼叫,还要验证: +对于实时 Twilio 调用,还要验证: - 已加载并注册实时提供商插件。 -- `realtime.provider` 未设置,或命名了已注册的提供商。 +- `realtime.provider` 未设置,或命名了一个已注册的提供商。 - 提供商 API key 可供 Gateway 网关进程使用。 -- `openclaw logs --follow` 显示已提供实时 TwiML、实时桥接已启动,并且初始问候已排队。 +- `openclaw logs --follow` 显示已提供实时 TwiML、实时桥接已启动,并且初始问候语已排队。 ## 相关内容 -- [通话模式](/zh-CN/nodes/talk) +- [Talk 模式](/zh-CN/nodes/talk) - [文本转语音](/zh-CN/tools/tts) - [语音唤醒](/zh-CN/nodes/voicewake)