chore(i18n): refresh zh-CN translations
This commit is contained in:
parent
daee5d899d
commit
29a8abb77b
@ -2,38 +2,38 @@
|
||||
read_when:
|
||||
- 添加或修改 `openclaw infer` 命令
|
||||
- 设计稳定的无头能力自动化
|
||||
summary: 用于由提供商支持的模型、图像、音频、TTS、视频、网络和嵌入工作流的推理优先 CLI
|
||||
summary: 面向由提供商支持的模型、图像、音频、TTS、视频、Web 和嵌入工作流的推理优先 CLI
|
||||
title: 推理 CLI
|
||||
x-i18n:
|
||||
generated_at: "2026-05-01T20:36:37Z"
|
||||
generated_at: "2026-05-06T08:29:35Z"
|
||||
model: gpt-5.5
|
||||
provider: openai
|
||||
source_hash: 04f8b4aeb70e960835612eedcc0a22202957803ca4e5eeb3f1e107e8c736e458
|
||||
source_hash: 232bf8165ff74b19aaf84431519d9f9f99f20831420b73935f73ffd9412bd04a
|
||||
source_path: cli/infer.md
|
||||
workflow: 16
|
||||
---
|
||||
|
||||
`openclaw infer` 是 OpenClaw 中由提供商支持的推理工作流的规范无头接口。
|
||||
`openclaw infer` 是 OpenClaw 中由提供商支撑的推理工作流的规范无头界面。
|
||||
|
||||
它有意暴露能力族,而不是原始 Gateway 网关 RPC 名称,也不是原始智能体工具 ID。
|
||||
|
||||
## 将 infer 转成一个 Skill
|
||||
## 将 infer 转换为技能
|
||||
|
||||
将下面内容复制并粘贴给智能体:
|
||||
复制并粘贴这段内容给智能体:
|
||||
|
||||
```text
|
||||
Read https://docs.openclaw.ai/cli/infer, then create a skill that routes my common workflows to `openclaw infer`.
|
||||
Focus on model runs, image generation, video generation, audio transcription, TTS, web search, and embeddings.
|
||||
```
|
||||
|
||||
一个优秀的基于 infer 的 Skill 应该:
|
||||
一个优秀的基于 infer 的技能应该:
|
||||
|
||||
- 将常见用户意图映射到正确的 infer 子命令
|
||||
- 为它覆盖的工作流包含几个规范的 infer 示例
|
||||
- 在示例和建议中优先使用 `openclaw infer ...`
|
||||
- 避免在 Skill 正文中重新记录整个 infer 接口
|
||||
- 避免在技能正文中重新记录整个 infer 界面
|
||||
|
||||
典型的面向 infer 的 Skill 覆盖范围:
|
||||
典型的以 infer 为重点的技能覆盖范围:
|
||||
|
||||
- `openclaw infer model run`
|
||||
- `openclaw infer image generate`
|
||||
@ -44,17 +44,20 @@ Focus on model runs, image generation, video generation, audio transcription, TT
|
||||
|
||||
## 为什么使用 infer
|
||||
|
||||
`openclaw infer` 为 OpenClaw 内由提供商支持的推理任务提供一个一致的 CLI。
|
||||
`openclaw infer` 为 OpenClaw 内部由提供商支撑的推理任务提供一个一致的 CLI。
|
||||
|
||||
优点:
|
||||
优势:
|
||||
|
||||
- 使用 OpenClaw 中已经配置好的提供商和模型,而不是为每个后端接入一次性的包装器。
|
||||
- 将模型、图像、音频转录、TTS、视频、网页和嵌入工作流放在同一个命令树下。
|
||||
- 使用 OpenClaw 中已经配置的提供商和模型,而不是为每个后端连接一次性包装器。
|
||||
- 将模型、图像、音频转录、TTS、视频、Web 和嵌入工作流放在同一个命令树下。
|
||||
- 为脚本、自动化和智能体驱动的工作流使用稳定的 `--json` 输出结构。
|
||||
- 当任务本质上是“运行推理”时,优先使用 OpenClaw 的第一方接口。
|
||||
- 对大多数 infer 命令使用普通本地路径,无需 Gateway 网关。
|
||||
- 当任务本质上是“运行推理”时,优先使用 OpenClaw 的第一方界面。
|
||||
- 对大多数 infer 命令使用正常的本地路径,无需 Gateway 网关。
|
||||
|
||||
对于端到端提供商检查,较低层级的提供商测试通过后,优先使用 `openclaw infer ...`。它会在发起提供商请求之前,执行已发布的 CLI、配置加载、默认智能体解析、内置插件激活以及共享能力运行时。
|
||||
对于端到端提供商检查,请在较低层级的
|
||||
提供商测试通过后优先使用 `openclaw infer ...`。在发起提供商请求前,它会运行已发布的 CLI、配置加载、
|
||||
默认智能体解析、内置插件激活,以及共享能力
|
||||
运行时。
|
||||
|
||||
## 命令树
|
||||
|
||||
@ -111,39 +114,39 @@ Focus on model runs, image generation, video generation, audio transcription, TT
|
||||
|
||||
此表将常见推理任务映射到对应的 infer 命令。
|
||||
|
||||
| 任务 | 命令 | 备注 |
|
||||
| 任务 | 命令 | 说明 |
|
||||
| ---------------------------- | --------------------------------------------------------------------------------------------- | ----------------------------------------------------- |
|
||||
| 运行文本/模型提示词 | `openclaw infer model run --prompt "..." --json` | 默认使用普通本地路径 |
|
||||
| 运行文本/模型提示词 | `openclaw infer model run --prompt "..." --json` | 默认使用正常的本地路径 |
|
||||
| 在图像上运行模型提示词 | `openclaw infer model run --prompt "Describe this" --file ./image.png --model provider/model` | 对多个图像输入重复使用 `--file` |
|
||||
| 生成图像 | `openclaw infer image generate --prompt "..." --json` | 从现有文件开始时使用 `image edit` |
|
||||
| 描述图像文件 | `openclaw infer image describe --file ./image.png --prompt "..." --json` | `--model` 必须是支持图像的 `<provider/model>` |
|
||||
| 转录音频 | `openclaw infer audio transcribe --file ./memo.m4a --json` | `--model` 必须是 `<provider/model>` |
|
||||
| 合成语音 | `openclaw infer tts convert --text "..." --output ./speech.mp3 --json` | `tts status` 面向 Gateway 网关 |
|
||||
| 生成视频 | `openclaw infer video generate --prompt "..." --json` | 支持 `--resolution` 等提供商提示 |
|
||||
| 生成视频 | `openclaw infer video generate --prompt "..." --json` | 支持提供商提示,例如 `--resolution` |
|
||||
| 描述视频文件 | `openclaw infer video describe --file ./clip.mp4 --json` | `--model` 必须是 `<provider/model>` |
|
||||
| 搜索网页 | `openclaw infer web search --query "..." --json` | |
|
||||
| 搜索 Web | `openclaw infer web search --query "..." --json` | |
|
||||
| 获取网页 | `openclaw infer web fetch --url https://example.com --json` | |
|
||||
| 创建嵌入 | `openclaw infer embedding create --text "..." --json` | |
|
||||
|
||||
## 行为
|
||||
|
||||
- `openclaw infer ...` 是这些工作流的主要 CLI 接口。
|
||||
- 当输出会被另一个命令或脚本消费时,使用 `--json`。
|
||||
- `openclaw infer ...` 是这些工作流的主要 CLI 界面。
|
||||
- 当输出将由另一个命令或脚本消费时,使用 `--json`。
|
||||
- 当需要特定后端时,使用 `--provider` 或 `--model provider/model`。
|
||||
- 对于 `image describe`、`audio transcribe` 和 `video describe`,`--model` 必须使用 `<provider/model>` 形式。
|
||||
- 对于 `image describe`,显式 `--model` 会直接运行该提供商/模型。该模型必须在模型目录或提供商配置中支持图像。`codex/<model>` 会运行有边界的 Codex app-server 图像理解轮次;`openai-codex/<model>` 使用 OpenAI Codex OAuth 提供商路径。
|
||||
- 对于 `image describe`,显式的 `--model` 会直接运行该提供商/模型。该模型必须在模型目录或提供商配置中具备图像能力。`codex/<model>` 会运行一个有界的 Codex 应用服务器图像理解轮次;`openai-codex/<model>` 使用 OpenAI Codex OAuth 提供商路径。
|
||||
- 无状态执行命令默认使用本地。
|
||||
- Gateway 网关管理的状态命令默认使用 Gateway 网关。
|
||||
- 普通本地路径不要求 Gateway 网关正在运行。
|
||||
- 本地 `model run` 是精简的一次性提供商补全。它会解析已配置的智能体模型和凭证,但不会启动聊天智能体轮次、加载工具或打开内置 MCP 服务器。
|
||||
- `model run --file` 接受图像文件,检测它们的 MIME 类型,并将它们与提供的提示词一起发送到所选模型。对多个图像重复使用 `--file`。
|
||||
- Gateway 网关托管的状态命令默认使用 Gateway 网关。
|
||||
- 正常的本地路径不要求 Gateway 网关正在运行。
|
||||
- 本地 `model run` 是一个精简的一次性提供商补全。它会解析已配置的智能体模型和凭证,但不会启动聊天智能体轮次、加载工具,或打开内置 MCP 服务器。
|
||||
- `model run --file` 接受图像文件,检测其 MIME 类型,并将它们与提供的提示词一起发送到所选模型。对多个图像重复使用 `--file`。
|
||||
- `model run --file` 会拒绝非图像输入。对音频文件使用 `infer audio transcribe`,对视频文件使用 `infer video describe`。
|
||||
- `model run --gateway` 会执行 Gateway 网关路由、已保存凭证、提供商选择和嵌入式运行时,但仍作为原始模型探测运行:它会发送提供的提示词和任何图像附件,不包含先前的会话转录、bootstrap/AGENTS 上下文、上下文引擎装配、工具或内置 MCP 服务器。
|
||||
- `model run --gateway --model <provider/model>` 需要可信操作员 Gateway 网关凭据,因为该请求要求 Gateway 网关运行一次性提供商/模型覆盖。
|
||||
- `model run --gateway` 会运行 Gateway 网关路由、保存的凭证、提供商选择和嵌入式运行时,但仍作为原始模型探测运行:它会发送提供的提示词和任何图像附件,不包含先前会话转录、bootstrap/AGENTS 上下文、上下文引擎组装、工具或内置 MCP 服务器。
|
||||
- `model run --gateway --model <provider/model>` 需要受信任的操作员 Gateway 网关凭证,因为该请求要求 Gateway 网关运行一次性提供商/模型覆盖。
|
||||
|
||||
## 模型
|
||||
|
||||
使用 `model` 进行由提供商支持的文本推理以及模型/提供商检查。
|
||||
使用 `model` 执行由提供商支撑的文本推理以及模型/提供商检查。
|
||||
|
||||
```bash
|
||||
openclaw infer model run --prompt "Reply with exactly: smoke-ok" --json
|
||||
@ -153,7 +156,8 @@ openclaw infer model providers --json
|
||||
openclaw infer model inspect --name gpt-5.5 --json
|
||||
```
|
||||
|
||||
使用完整的 `<provider/model>` 引用来冒烟测试特定提供商,而无需启动 Gateway 网关或加载完整智能体工具接口:
|
||||
使用完整的 `<provider/model>` 引用来对特定提供商进行冒烟测试,而无需
|
||||
启动 Gateway 网关或加载完整的智能体工具界面:
|
||||
|
||||
```bash
|
||||
openclaw infer model run --local --model anthropic/claude-sonnet-4-6 --prompt "Reply with exactly: pong" --json
|
||||
@ -165,16 +169,17 @@ openclaw infer model run --local --model openai/gpt-4.1 --prompt "Reply with exa
|
||||
openclaw infer model run --local --model ollama/qwen2.5vl:7b --prompt "Describe this image." --file ./photo.jpg --json
|
||||
```
|
||||
|
||||
备注:
|
||||
说明:
|
||||
|
||||
- 本地 `model run` 是检查提供商/模型/凭证健康状态的最窄 CLI 冒烟测试,因为它只向所选模型发送提供的提示词。
|
||||
- 本地 `model run --file` 保持该精简路径,并将图像内容直接附加到单条用户消息。当 MIME 类型被检测为 `image/*` 时,PNG、JPEG 和 WebP 等常见图像文件可用;不受支持或无法识别的文件会在调用提供商之前失败。
|
||||
- 当你想直接测试所选多模态文本模型时,`model run --file` 最合适。当你想使用 OpenClaw 的图像理解提供商选择和默认图像模型路由时,使用 `infer image describe`。
|
||||
- 所选模型必须支持图像输入;纯文本模型可能会在提供商层拒绝请求。
|
||||
- 本地 `model run` 是用于检查提供商/模型/凭证健康状况的最窄 CLI 冒烟测试,因为对于非 Codex 提供商,它只会将提供的提示词发送到所选模型。
|
||||
- `openai-codex/*` 本地探测是一个很窄的例外:OpenClaw 会添加一条最小系统指令,以便 Codex Responses 传输可以填充其必需的 `instructions` 字段,而不会添加完整的智能体上下文、工具、记忆或会话转录。
|
||||
- 本地 `model run --file` 保持该精简路径,并将图像内容直接附加到单条用户消息。PNG、JPEG 和 WebP 等常见图像文件在其 MIME 类型被检测为 `image/*` 时可以工作;不支持或无法识别的文件会在调用提供商之前失败。
|
||||
- 当你想直接测试所选多模态文本模型时,`model run --file` 最合适。当你想使用 OpenClaw 的图像理解提供商选择和默认图像模型路由时,请使用 `infer image describe`。
|
||||
- 所选模型必须支持图像输入;纯文本模型可能会在提供商层拒绝该请求。
|
||||
- `model run --prompt` 必须包含非空白文本;空提示词会在调用本地提供商或 Gateway 网关之前被拒绝。
|
||||
- 当提供商没有返回文本输出时,本地 `model run` 会以非零状态退出,因此不可达的本地提供商和空补全不会看起来像成功探测。
|
||||
- 当你需要测试 Gateway 网关路由、智能体运行时设置或 Gateway 网关管理的提供商状态,同时保持模型输入为原始内容时,使用 `model run --gateway`。当你需要完整智能体上下文、工具、记忆和会话转录时,使用 `openclaw agent` 或聊天接口。
|
||||
- `model auth login`、`model auth logout` 和 `model auth status` 管理已保存的提供商凭证状态。
|
||||
- 当提供商未返回文本输出时,本地 `model run` 会以非零状态退出,因此不可达的本地提供商和空补全不会看起来像成功的探测。
|
||||
- 当你需要测试 Gateway 网关路由、智能体运行时设置或 Gateway 网关托管的提供商状态,同时保持原始模型输入时,使用 `model run --gateway`。当你想要完整的智能体上下文、工具、记忆和会话转录时,使用 `openclaw agent` 或聊天界面。
|
||||
- `model auth login`、`model auth logout` 和 `model auth status` 管理保存的提供商凭证状态。
|
||||
|
||||
## 图像
|
||||
|
||||
@ -194,13 +199,13 @@ openclaw infer image describe --file ./ui-screenshot.png --model openai/gpt-4.1-
|
||||
openclaw infer image describe --file ./photo.jpg --model ollama/qwen2.5vl:7b --prompt "Describe the image in one sentence" --timeout-ms 300000 --json
|
||||
```
|
||||
|
||||
备注:
|
||||
说明:
|
||||
|
||||
- 从现有输入文件开始时使用 `image edit`。
|
||||
- 对支持参考图像编辑几何提示的提供商/模型,将 `--size`、`--aspect-ratio` 或 `--resolution` 与 `image edit` 一起使用。
|
||||
- 将 `--output-format png --background transparent` 与 `--model openai/gpt-image-1.5` 一起使用,以获得透明背景的 OpenAI PNG 输出;`--openai-background` 仍可作为 OpenAI 专用别名使用。不声明背景支持的提供商会将该提示报告为被忽略的覆盖项。
|
||||
- 使用 `image providers --json` 验证哪些内置图像提供商可被发现、已配置、被选中,以及每个提供商暴露了哪些生成/编辑能力。
|
||||
- 使用 `image generate --model <provider/model> --json` 作为图像生成更改的最窄实时 CLI 冒烟测试。示例:
|
||||
- 从现有输入文件开始时,使用 `image edit`。
|
||||
- 对于在参考图像编辑中支持几何提示的提供商/模型,配合 `image edit` 使用 `--size`、`--aspect-ratio` 或 `--resolution`。
|
||||
- 使用 `--output-format png --background transparent` 和 `--model openai/gpt-image-1.5` 输出透明背景的 OpenAI PNG;`--openai-background` 仍可用作 OpenAI 专用别名。不声明背景支持的提供商会将该提示报告为被忽略的覆盖项。
|
||||
- 使用 `image providers --json` 验证哪些内置图像提供商可被发现、已配置、已选中,以及每个提供商公开了哪些生成/编辑能力。
|
||||
- 使用 `image generate --model <provider/model> --json` 作为图像生成变更最窄范围的实时 CLI 冒烟测试。示例:
|
||||
|
||||
```bash
|
||||
openclaw infer image providers --json
|
||||
@ -211,14 +216,12 @@ openclaw infer image describe --file ./photo.jpg --model ollama/qwen2.5vl:7b --p
|
||||
--json
|
||||
```
|
||||
|
||||
JSON 响应会报告 `ok`、`provider`、`model`、`attempts` 和已写入的
|
||||
输出路径。设置 `--output` 时,最终扩展名可能会遵循
|
||||
提供商返回的 MIME 类型。
|
||||
JSON 响应会报告 `ok`、`provider`、`model`、`attempts` 和写入的输出路径。设置 `--output` 时,最终扩展名可能遵循提供商返回的 MIME 类型。
|
||||
|
||||
- 对于 `image describe` 和 `image describe-many`,使用 `--prompt` 给视觉模型提供特定于任务的指令,例如 OCR、比较、UI 检查或简洁图注。
|
||||
- 对于较慢的本地视觉模型或冷启动的 Ollama,使用 `--timeout-ms`。
|
||||
- 对于 `image describe`,`--model` 必须是支持图像的 `<provider/model>`。
|
||||
- 对于本地 Ollama 视觉模型,请先拉取模型,并将 `OLLAMA_API_KEY` 设置为任意占位值,例如 `ollama-local`。请参阅 [Ollama](/zh-CN/providers/ollama#vision-and-image-description)。
|
||||
- 对于 `image describe` 和 `image describe-many`,使用 `--prompt` 给视觉模型提供特定任务的指令,例如 OCR、比较、UI 检查或简洁说明。
|
||||
- 对慢速本地视觉模型或冷启动的 Ollama 使用 `--timeout-ms`。
|
||||
- 对于 `image describe`,`--model` 必须是具备图像能力的 `<provider/model>`。
|
||||
- 对于本地 Ollama 视觉模型,先拉取模型,并将 `OLLAMA_API_KEY` 设置为任意占位值,例如 `ollama-local`。参见 [Ollama](/zh-CN/providers/ollama#vision-and-image-description)。
|
||||
|
||||
## 音频
|
||||
|
||||
@ -230,7 +233,7 @@ openclaw infer audio transcribe --file ./team-sync.m4a --language en --prompt "F
|
||||
openclaw infer audio transcribe --file ./memo.m4a --model openai/whisper-1 --json
|
||||
```
|
||||
|
||||
注意:
|
||||
注意事项:
|
||||
|
||||
- `audio transcribe` 用于文件转录,而不是实时会话管理。
|
||||
- `--model` 必须是 `<provider/model>`。
|
||||
@ -246,9 +249,9 @@ openclaw infer tts providers --json
|
||||
openclaw infer tts status --json
|
||||
```
|
||||
|
||||
注意:
|
||||
注意事项:
|
||||
|
||||
- `tts status` 默认使用 Gateway 网关,因为它反映 Gateway 网关管理的 TTS 状态。
|
||||
- `tts status` 默认使用 Gateway 网关,因为它反映由 Gateway 网关管理的 TTS 状态。
|
||||
- 使用 `tts providers`、`tts voices` 和 `tts set-provider` 检查并配置 TTS 行为。
|
||||
|
||||
## 视频
|
||||
@ -262,14 +265,14 @@ openclaw infer video describe --file ./clip.mp4 --json
|
||||
openclaw infer video describe --file ./clip.mp4 --model openai/gpt-4.1-mini --json
|
||||
```
|
||||
|
||||
注意:
|
||||
注意事项:
|
||||
|
||||
- `video generate` 接受 `--size`、`--aspect-ratio`、`--resolution`、`--duration`、`--audio`、`--watermark` 和 `--timeout-ms`,并将它们转发给视频生成运行时。
|
||||
- 对于 `video describe`,`--model` 必须是 `<provider/model>`。
|
||||
|
||||
## 网页
|
||||
## Web
|
||||
|
||||
使用 `web` 执行搜索和获取工作流。
|
||||
使用 `web` 进行搜索和获取工作流。
|
||||
|
||||
```bash
|
||||
openclaw infer web search --query "OpenClaw docs" --json
|
||||
@ -280,7 +283,7 @@ openclaw infer web providers --json
|
||||
|
||||
注意事项:
|
||||
|
||||
- 使用 `web providers` 检查可用、已配置和已选择的提供商。
|
||||
- 使用 `web providers` 检查可用、已配置和已选中的提供商。
|
||||
|
||||
## 嵌入
|
||||
|
||||
@ -294,7 +297,7 @@ openclaw infer embedding providers --json
|
||||
|
||||
## JSON 输出
|
||||
|
||||
infer 命令会将 JSON 输出规范化到共享封套下:
|
||||
Infer 命令会将 JSON 输出规范化到共享信封中:
|
||||
|
||||
```json
|
||||
{
|
||||
@ -319,7 +322,7 @@ infer 命令会将 JSON 输出规范化到共享封套下:
|
||||
- `outputs`
|
||||
- `error`
|
||||
|
||||
对于生成媒体的命令,`outputs` 包含 OpenClaw 写入的文件。自动化时应使用该数组中的 `path`、`mimeType`、`size` 和任何媒体特定尺寸,而不是解析面向人类可读的 stdout。
|
||||
对于生成媒体的命令,`outputs` 包含 OpenClaw 写入的文件。自动化时,请使用该数组中的 `path`、`mimeType`、`size` 和任何媒体特定尺寸,而不是解析面向人类可读的 stdout。
|
||||
|
||||
## 常见陷阱
|
||||
|
||||
|
||||
@ -1,36 +1,36 @@
|
||||
---
|
||||
read_when:
|
||||
- 你想让一个 OpenClaw 智能体加入 Google Meet 会议
|
||||
- 你希望 OpenClaw 智能体创建一个新的 Google Meet 通话
|
||||
- 你想让 OpenClaw 智能体加入 Google Meet 通话
|
||||
- 你希望一个 OpenClaw 智能体创建一个新的 Google Meet 通话
|
||||
- 你正在将 Chrome、Chrome 节点或 Twilio 配置为 Google Meet 传输协议
|
||||
summary: Google Meet 插件:通过 Chrome 或 Twilio 加入明确的 Meet URL,并使用智能体回话默认设置
|
||||
summary: Google Meet 插件:通过 Chrome 或 Twilio 加入明确指定的 Meet URL,并使用智能体回话默认设置
|
||||
title: Google Meet 插件
|
||||
x-i18n:
|
||||
generated_at: "2026-05-04T06:40:45Z"
|
||||
generated_at: "2026-05-06T08:29:43Z"
|
||||
model: gpt-5.5
|
||||
provider: openai
|
||||
source_hash: 4268ad895bbf83d649b9571c0888c27eb982ad9710dfb408f22f7818cdc5dbcb
|
||||
source_hash: 9c1de7528ddabe6411598eea362d4a21c6f95f374700046c18294b215a1333d3
|
||||
source_path: plugins/google-meet.md
|
||||
workflow: 16
|
||||
---
|
||||
|
||||
Google Meet 参与者支持面向 OpenClaw,插件按设计保持显式:
|
||||
OpenClaw 的 Google Meet 参与者支持设计上是显式的:
|
||||
|
||||
- 它只会加入显式的 `https://meet.google.com/...` URL。
|
||||
- 它可以通过 Google Meet API 创建新的 Meet 空间,然后加入返回的 URL。
|
||||
- `agent` 是默认回话模式:实时转录负责监听,配置的 OpenClaw 智能体负责回答,常规 OpenClaw TTS 会在 Meet 中发声。
|
||||
- `bidi` 仍可作为备用的直接实时语音模型模式。
|
||||
- 智能体通过 `mode` 选择加入行为:使用 `agent` 进行实时监听/回话,使用 `bidi` 作为直接实时语音备用方案,或使用 `transcribe` 加入/控制浏览器但不启用回话桥接。
|
||||
- `agent` 是默认的回话模式:实时转录会监听,配置的 OpenClaw 智能体会回答,常规 OpenClaw TTS 会在 Meet 中发声。
|
||||
- `bidi` 仍可用作备用的直接实时语音模型模式。
|
||||
- 智能体通过 `mode` 选择加入行为:使用 `agent` 进行实时监听/回话,使用 `bidi` 作为直接实时语音备用模式,或使用 `transcribe` 加入/控制浏览器但不启用回话桥接。
|
||||
- 身份验证从个人 Google OAuth 或已登录的 Chrome 配置文件开始。
|
||||
- 不会自动播报同意声明。
|
||||
- 没有自动同意声明。
|
||||
- 默认 Chrome 音频后端是 `BlackHole 2ch`。
|
||||
- Chrome 可以在本地运行,也可以在已配对的节点主机上运行。
|
||||
- Twilio 接受拨入号码以及可选的 PIN 或 DTMF 序列;它不能直接拨打 Meet URL。
|
||||
- CLI 命令是 `googlemeet`;`meet` 保留给更广义的智能体电话会议工作流。
|
||||
- Chrome 可以在本地运行,也可以在配对的节点主机上运行。
|
||||
- Twilio 接受拨入号码以及可选 PIN 或 DTMF 序列;它不能直接拨打 Meet URL。
|
||||
- CLI 命令是 `googlemeet`;`meet` 保留给更广泛的智能体电话会议工作流。
|
||||
|
||||
## 快速开始
|
||||
|
||||
安装本地音频依赖,并配置实时转录提供商以及常规 OpenClaw TTS。OpenAI 是默认转录提供商;Google Gemini Live 也可作为单独的 `bidi` 语音备用方案使用,并设置 `realtime.voiceProvider: "google"`:
|
||||
安装本地音频依赖,并配置实时转录提供商以及常规 OpenClaw TTS。OpenAI 是默认转录提供商;Google Gemini Live 也可以作为单独的 `bidi` 语音备用方案使用,需设置 `realtime.voiceProvider: "google"`:
|
||||
|
||||
```bash
|
||||
brew install blackhole-2ch sox
|
||||
@ -39,13 +39,13 @@ export OPENAI_API_KEY=sk-...
|
||||
export GEMINI_API_KEY=...
|
||||
```
|
||||
|
||||
`blackhole-2ch` 会安装 `BlackHole 2ch` 虚拟音频设备。Homebrew 的安装器需要重启,macOS 才会暴露该设备:
|
||||
`blackhole-2ch` 会安装 `BlackHole 2ch` 虚拟音频设备。Homebrew 的安装器需要重启后,macOS 才会暴露该设备:
|
||||
|
||||
```bash
|
||||
sudo reboot
|
||||
```
|
||||
|
||||
重启后,验证这两个部分:
|
||||
重启后,验证这两项:
|
||||
|
||||
```bash
|
||||
system_profiler SPAudioDataType | grep -i BlackHole
|
||||
@ -73,21 +73,21 @@ command -v sox
|
||||
openclaw googlemeet setup
|
||||
```
|
||||
|
||||
设置输出旨在便于智能体读取,并且感知模式。它会报告 Chrome 配置文件、节点固定,以及对于实时 Chrome 加入场景的 BlackHole/SoX 音频桥接和延迟实时介绍检查。对于仅观察的加入,请用 `--mode transcribe` 检查同一传输协议;该模式会跳过实时音频前置条件,因为它不会通过桥接监听或发声:
|
||||
设置输出旨在供智能体读取,并且会感知模式。它会报告 Chrome 配置文件、节点固定情况,以及对于实时 Chrome 加入,会报告 BlackHole/SoX 音频桥接和延迟实时开场检查。对于仅观察加入,使用 `--mode transcribe` 检查相同传输;该模式会跳过实时音频前置条件,因为它不会通过桥接监听或发声:
|
||||
|
||||
```bash
|
||||
openclaw googlemeet setup --transport chrome-node --mode transcribe
|
||||
```
|
||||
|
||||
配置 Twilio 委派后,设置还会报告 `voice-call` 插件、Twilio 凭证以及公开 webhook 暴露是否就绪。在要求智能体加入之前,把任何 `ok: false` 检查都视为对应传输协议和模式的阻塞项。脚本或机器可读输出请使用 `openclaw googlemeet setup --json`。在智能体尝试前,可使用 `--transport chrome`、`--transport chrome-node` 或 `--transport twilio` 对特定传输协议进行预检。
|
||||
配置 Twilio 委派后,设置还会报告 `voice-call` 插件、Twilio 凭据和公开 webhook 暴露是否就绪。在要求智能体加入之前,将任何 `ok: false` 检查都视为对应传输和模式的阻塞项。脚本或机器可读输出请使用 `openclaw googlemeet setup --json`。在智能体尝试之前,使用 `--transport chrome`、`--transport chrome-node` 或 `--transport twilio` 预检特定传输。
|
||||
|
||||
对于 Twilio,当默认传输协议是 Chrome 时,始终显式预检该传输协议:
|
||||
对于 Twilio,当默认传输是 Chrome 时,始终显式预检该传输:
|
||||
|
||||
```bash
|
||||
openclaw googlemeet setup --transport twilio
|
||||
```
|
||||
|
||||
这会在智能体尝试拨入会议前捕获缺失的 `voice-call` 接线、Twilio 凭证或不可访问的 webhook 暴露。
|
||||
这样可以在智能体尝试拨入会议之前,发现缺失的 `voice-call` 接线、Twilio 凭据或无法访问的 webhook 暴露。
|
||||
|
||||
加入会议:
|
||||
|
||||
@ -95,7 +95,7 @@ openclaw googlemeet setup --transport twilio
|
||||
openclaw googlemeet join https://meet.google.com/abc-defg-hij
|
||||
```
|
||||
|
||||
或者让智能体通过 `google_meet` 工具加入:
|
||||
或让智能体通过 `google_meet` 工具加入:
|
||||
|
||||
```json
|
||||
{
|
||||
@ -106,7 +106,7 @@ openclaw googlemeet join https://meet.google.com/abc-defg-hij
|
||||
}
|
||||
```
|
||||
|
||||
面向智能体的 `google_meet` 工具在非 macOS 主机上仍可用于制品、日历、设置、转录、Twilio 和 `chrome-node` 流程。本地 Chrome 回话操作在那里会被阻止,因为内置 Chrome 音频路径目前依赖 macOS `BlackHole 2ch`。在 Linux 上,请使用 `mode: "transcribe"`、Twilio 拨入,或使用 macOS `chrome-node` 主机进行 Chrome 回话参会。
|
||||
面向智能体的 `google_meet` 工具在非 macOS 主机上仍可用于工件、日历、设置、转录、Twilio 和 `chrome-node` 流程。本地 Chrome 回话操作会在这些主机上被阻止,因为内置 Chrome 音频路径当前依赖 macOS `BlackHole 2ch`。在 Linux 上,使用 `mode: "transcribe"`、Twilio 拨入,或使用 macOS `chrome-node` 主机参与 Chrome 回话。
|
||||
|
||||
创建新会议并加入:
|
||||
|
||||
@ -114,17 +114,17 @@ openclaw googlemeet join https://meet.google.com/abc-defg-hij
|
||||
openclaw googlemeet create --transport chrome-node --mode agent
|
||||
```
|
||||
|
||||
对于通过 API 创建的房间,当你希望房间的免敲门策略显式设置而不是继承 Google 账号默认值时,请使用 Google Meet `SpaceConfig.accessType`:
|
||||
对于 API 创建的房间,如果你希望房间的免敲门策略是显式的,而不是继承自 Google 账号默认值,请使用 Google Meet `SpaceConfig.accessType`:
|
||||
|
||||
```bash
|
||||
openclaw googlemeet create --access-type OPEN --transport chrome-node --mode agent
|
||||
```
|
||||
|
||||
`OPEN` 允许任何拥有 Meet URL 的人无需敲门即可加入。`TRUSTED` 允许主持人组织中的受信用户、受邀外部用户和拨入用户无需敲门即可加入。`RESTRICTED` 将免敲门进入限制为受邀者。这些设置仅适用于官方 Google Meet API 创建路径,因此必须配置 OAuth 凭证。
|
||||
`OPEN` 允许任何拥有 Meet URL 的人无需敲门即可加入。`TRUSTED` 允许主持人组织的受信任用户、受邀外部用户和拨入用户无需敲门即可加入。`RESTRICTED` 将免敲门进入限制为受邀者。这些设置仅适用于官方 Google Meet API 创建路径,因此必须配置 OAuth 凭据。
|
||||
|
||||
如果你在此选项可用之前已验证 Google Meet,请在把 `meetings.space.settings` 范围添加到你的 Google OAuth 同意屏幕后,重新运行 `openclaw googlemeet auth login --json`。
|
||||
如果你在此选项可用之前已完成 Google Meet 身份验证,请在将 `meetings.space.settings` 范围添加到你的 Google OAuth 同意屏幕后,重新运行 `openclaw googlemeet auth login --json`。
|
||||
|
||||
只创建 URL 而不加入:
|
||||
仅创建 URL 而不加入:
|
||||
|
||||
```bash
|
||||
openclaw googlemeet create --no-join
|
||||
@ -132,13 +132,13 @@ openclaw googlemeet create --no-join
|
||||
|
||||
`googlemeet create` 有两条路径:
|
||||
|
||||
- API 创建:在已配置 Google Meet OAuth 凭证时使用。这是最确定的路径,不依赖浏览器 UI 状态。
|
||||
- 浏览器备用方案:在没有 OAuth 凭证时使用。OpenClaw 使用固定的 Chrome 节点,打开 `https://meet.google.com/new`,等待 Google 重定向到真实的会议代码 URL,然后返回该 URL。此路径要求节点上的 OpenClaw Chrome 配置文件已登录 Google。浏览器自动化会处理 Meet 自身的首次运行麦克风提示;该提示不会被视为 Google 登录失败。
|
||||
加入和创建流程也会尝试先复用现有 Meet 标签页,然后再打开新标签页。匹配会忽略无害的 URL 查询字符串,例如 `authuser`,因此智能体重试时应聚焦已经打开的会议,而不是创建第二个 Chrome 标签页。
|
||||
- API 创建:在配置了 Google Meet OAuth 凭据时使用。这是最确定性的路径,不依赖浏览器 UI 状态。
|
||||
- 浏览器备用路径:在缺少 OAuth 凭据时使用。OpenClaw 使用固定的 Chrome 节点,打开 `https://meet.google.com/new`,等待 Google 重定向到真实的会议代码 URL,然后返回该 URL。此路径要求节点上的 OpenClaw Chrome 配置文件已登录 Google。浏览器自动化会处理 Meet 自身的首次运行麦克风提示;该提示不会被视为 Google 登录失败。
|
||||
加入和创建流程也会在打开新标签页前尝试复用现有 Meet 标签页。匹配会忽略 `authuser` 等无害的 URL 查询字符串,因此智能体重试应聚焦已打开的会议,而不是创建第二个 Chrome 标签页。
|
||||
|
||||
命令/工具输出包含 `source` 字段(`api` 或 `browser`),因此智能体可以说明使用了哪条路径。`create` 默认加入新会议,并返回 `joined: true` 以及加入会话。若只生成 URL,请在 CLI 上使用 `create --no-join`,或向工具传入 `"join": false`。
|
||||
命令/工具输出包含 `source` 字段(`api` 或 `browser`),以便智能体解释使用了哪条路径。`create` 默认会加入新会议,并返回 `joined: true` 以及加入会话。若只生成 URL,请在 CLI 中使用 `create --no-join`,或向工具传入 `"join": false`。
|
||||
|
||||
或者告诉智能体:“创建一个 Google Meet,用智能体回话模式加入,并把链接发给我。”智能体应以 `action: "create"` 调用 `google_meet`,然后分享返回的 `meetingUri`。
|
||||
或者告诉智能体:“创建一个 Google Meet,用智能体回话模式加入,并把链接发给我。”智能体应调用 `google_meet`,使用 `action: "create"`,然后分享返回的 `meetingUri`。
|
||||
|
||||
```json
|
||||
{
|
||||
@ -148,20 +148,20 @@ openclaw googlemeet create --no-join
|
||||
}
|
||||
```
|
||||
|
||||
对于仅观察/浏览器控制的加入,请设置 `"mode": "transcribe"`。这不会启动双工实时语音桥接,不需要 BlackHole 或 SoX,也不会在会议中回话。此模式下的 Chrome 加入还会避免 OpenClaw 的麦克风/摄像头权限授予,并避免 Meet **使用麦克风** 路径。如果 Meet 显示音频选择插页,自动化会尝试无麦克风路径,否则会报告需要手动操作,而不是打开本地麦克风。在转录模式下,托管 Chrome 传输协议还会安装尽力而为的 Meet 字幕观察器。`googlemeet status --json` 和 `googlemeet doctor` 会暴露 `captioning`、`captionsEnabledAttempted`、`transcriptLines`、`lastCaptionAt`、`lastCaptionSpeaker`、`lastCaptionText` 以及简短的 `recentTranscript` 尾部,便于操作员判断浏览器是否已加入通话,以及 Meet 字幕是否正在产出文本。
|
||||
当你需要一个是/否探针时,请使用 `openclaw googlemeet test-listen <meet-url> --transport chrome-node`:它会以转录模式加入,等待新的字幕或转录变动,并返回 `listenVerified`、`listenTimedOut`、手动操作字段以及最新字幕健康状态。
|
||||
对于仅观察/浏览器控制加入,设置 `"mode": "transcribe"`。这不会启动双工实时语音桥接,不需要 BlackHole 或 SoX,也不会在会议中回话。此模式下的 Chrome 加入还会避免 OpenClaw 的麦克风/摄像头权限授予,并避开 Meet **使用麦克风**路径。如果 Meet 显示音频选择插屏,自动化会尝试无麦克风路径;否则会报告需要手动操作,而不是打开本地麦克风。在转录模式下,托管的 Chrome 传输还会安装尽力而为的 Meet 字幕观察器。`googlemeet status --json` 和 `googlemeet doctor` 会暴露 `captioning`、`captionsEnabledAttempted`、`transcriptLines`、`lastCaptionAt`、`lastCaptionSpeaker`、`lastCaptionText`,以及较短的 `recentTranscript` 尾部,便于操作员判断浏览器是否已加入通话,以及 Meet 字幕是否正在产出文本。
|
||||
当你需要是/否探测时,使用 `openclaw googlemeet test-listen <meet-url> --transport chrome-node`:它会以转录模式加入,等待新的字幕或转录活动,并返回 `listenVerified`、`listenTimedOut`、手动操作字段和最新字幕健康状态。
|
||||
|
||||
实时会话期间,`google_meet` 状态包含浏览器和音频桥接健康信息,例如 `inCall`、`manualActionRequired`、`providerConnected`、`realtimeReady`、`audioInputActive`、`audioOutputActive`、最后输入/输出时间戳、字节计数器以及桥接关闭状态。如果出现安全的 Meet 页面提示,浏览器自动化会在可行时处理。登录、主持人准入以及浏览器/操作系统权限提示会以需要手动操作的形式报告,并附带原因和消息,供智能体转述。托管 Chrome 会话只会在浏览器健康报告 `inCall: true` 后发送介绍语或测试短语;否则状态会报告 `speechReady: false`,并阻止语音尝试,而不是假装智能体已在会议中发声。
|
||||
在实时会话期间,`google_meet` 状态包含浏览器和音频桥接健康信息,例如 `inCall`、`manualActionRequired`、`providerConnected`、`realtimeReady`、`audioInputActive`、`audioOutputActive`、最后输入/输出时间戳、字节计数器和桥接关闭状态。如果出现安全的 Meet 页面提示,浏览器自动化会在可行时处理它。登录、主持人准入和浏览器/操作系统权限提示会被报告为需要手动操作,并附带原因和消息,供智能体转述。托管的 Chrome 会话只有在浏览器健康状态报告 `inCall: true` 后才会发出开场白或测试短语;否则状态会报告 `speechReady: false`,并阻止语音尝试,而不是假装智能体已在会议中发声。
|
||||
|
||||
本地 Chrome 通过已登录的 OpenClaw 浏览器配置文件加入。实时模式需要 `BlackHole 2ch`,用于 OpenClaw 使用的麦克风/扬声器路径。若要获得干净的双工音频,请使用独立虚拟设备或类似 Loopback 的图;单个 BlackHole 设备足以进行首次冒烟测试,但可能产生回声。
|
||||
本地 Chrome 通过已登录的 OpenClaw 浏览器配置文件加入。实时模式需要 `BlackHole 2ch` 来支持 OpenClaw 使用的麦克风/扬声器路径。若要获得干净的双工音频,请使用独立的虚拟设备或 Loopback 风格的音频图;单个 BlackHole 设备足以完成首次冒烟测试,但可能会产生回声。
|
||||
|
||||
### 本地 Gateway 网关 + Parallels Chrome
|
||||
|
||||
仅为了让 macOS VM 持有 Chrome,你**不**需要在 VM 内运行完整的 OpenClaw Gateway 网关或配置模型 API key。在本地运行 Gateway 网关和智能体,然后在 VM 中运行节点主机。在 VM 上启用一次内置插件,让节点播发 Chrome 命令:
|
||||
如果只是让 VM 负责 Chrome,你**不**需要在 macOS VM 内运行完整的 OpenClaw Gateway 网关或配置模型 API key。请在本地运行 Gateway 网关和智能体,然后在 VM 中运行节点主机。在 VM 上启用一次内置插件,使节点发布 Chrome 命令:
|
||||
|
||||
运行位置:
|
||||
各位置运行的内容:
|
||||
|
||||
- Gateway 网关主机:OpenClaw Gateway 网关、智能体工作区、模型/API key、实时提供商,以及 Google Meet 插件配置。
|
||||
- Gateway 网关主机:OpenClaw Gateway 网关、智能体工作区、模型/API key、实时提供商和 Google Meet 插件配置。
|
||||
- Parallels macOS VM:OpenClaw CLI/节点主机、Google Chrome、SoX、BlackHole 2ch,以及已登录 Google 的 Chrome 配置文件。
|
||||
- VM 中不需要:Gateway 网关服务、智能体配置、OpenAI/GPT key 或模型提供商设置。
|
||||
|
||||
@ -177,7 +177,7 @@ brew install blackhole-2ch sox
|
||||
sudo reboot
|
||||
```
|
||||
|
||||
重启后,验证 VM 能看到音频设备和 SoX 命令:
|
||||
重启后,验证 VM 可以看到音频设备和 SoX 命令:
|
||||
|
||||
```bash
|
||||
system_profiler SPAudioDataType | grep -i BlackHole
|
||||
@ -196,14 +196,14 @@ openclaw plugins enable google-meet
|
||||
openclaw node run --host <gateway-host> --port 18789 --display-name parallels-macos
|
||||
```
|
||||
|
||||
如果 `<gateway-host>` 是 LAN IP 且你没有使用 TLS,除非你为该受信私有网络选择启用,否则节点会拒绝明文 WebSocket:
|
||||
如果 `<gateway-host>` 是 LAN IP,并且你未使用 TLS,节点会拒绝明文 WebSocket,除非你为该受信任的私有网络选择加入:
|
||||
|
||||
```bash
|
||||
OPENCLAW_ALLOW_INSECURE_PRIVATE_WS=1 \
|
||||
openclaw node run --host <gateway-lan-ip> --port 18789 --display-name parallels-macos
|
||||
```
|
||||
|
||||
将节点安装为 LaunchAgent 时使用同一环境变量:
|
||||
将节点安装为 LaunchAgent 时也使用相同的环境变量:
|
||||
|
||||
```bash
|
||||
OPENCLAW_ALLOW_INSECURE_PRIVATE_WS=1 \
|
||||
@ -211,7 +211,7 @@ OPENCLAW_ALLOW_INSECURE_PRIVATE_WS=1 \
|
||||
openclaw node restart
|
||||
```
|
||||
|
||||
`OPENCLAW_ALLOW_INSECURE_PRIVATE_WS=1` 是进程环境,不是 `openclaw.json` 设置。当安装命令中存在它时,`openclaw node install` 会把它存入 LaunchAgent 环境。
|
||||
`OPENCLAW_ALLOW_INSECURE_PRIVATE_WS=1` 是进程环境变量,不是 `openclaw.json` 设置。`openclaw node install` 在安装命令中存在该变量时,会将其存储到 LaunchAgent 环境中。
|
||||
|
||||
从 Gateway 网关主机批准节点:
|
||||
|
||||
@ -220,13 +220,13 @@ openclaw devices list
|
||||
openclaw devices approve <requestId>
|
||||
```
|
||||
|
||||
确认 Gateway 网关能看到该节点,并且它同时播发 `googlemeet.chrome` 和浏览器能力/`browser.proxy`:
|
||||
确认 Gateway 网关可以看到该节点,并且该节点发布了 `googlemeet.chrome` 以及浏览器能力/`browser.proxy`:
|
||||
|
||||
```bash
|
||||
openclaw nodes status
|
||||
```
|
||||
|
||||
在 Gateway 网关主机上通过该节点路由 Meet:
|
||||
在 Gateway 网关主机上将 Meet 路由到该节点:
|
||||
|
||||
```json5
|
||||
{
|
||||
@ -262,55 +262,55 @@ openclaw nodes status
|
||||
openclaw googlemeet join https://meet.google.com/abc-defg-hij
|
||||
```
|
||||
|
||||
或要求智能体使用带有 `transport: "chrome-node"` 的 `google_meet` 工具。
|
||||
或者要求智能体使用带有 `transport: "chrome-node"` 的 `google_meet` 工具。
|
||||
|
||||
如需一条命令完成冒烟测试,创建或复用会话、说出已知短语并打印会话健康信息:
|
||||
若要执行一条命令的冒烟测试来创建或复用会话、说出已知短语并打印会话健康状态:
|
||||
|
||||
```bash
|
||||
openclaw googlemeet test-speech https://meet.google.com/abc-defg-hij
|
||||
```
|
||||
|
||||
在实时加入期间,OpenClaw 浏览器自动化会填写访客姓名,点击加入/请求加入,并在 Meet 首次运行的 “使用麦克风” 选项出现时接受该选项。在仅观察加入或仅浏览器创建会议期间,如果可用,它会在不使用麦克风的情况下继续通过同一提示。如果浏览器配置文件未登录、Meet 正在等待主持人准入、Chrome 需要实时加入的麦克风/摄像头权限,或 Meet 卡在自动化无法解决的提示上,加入/测试语音结果会报告 `manualActionRequired: true`,并附带 `manualActionReason` 和 `manualActionMessage`。智能体应停止重试加入,报告该确切消息以及当前的 `browserUrl`/`browserTitle`,并且仅在手动浏览器操作完成后重试。
|
||||
在实时加入期间,OpenClaw 浏览器自动化会填写访客名称,点击加入/请求加入,并在 Meet 的首次运行“使用麦克风”选项提示出现时接受它。在仅观察加入或仅浏览器创建会议期间,如果同一提示提供了不使用麦克风的选项,它会继续通过该提示。如果浏览器配置文件未登录、Meet 正在等待主持人准入、Chrome 需要实时加入的麦克风/摄像头权限,或 Meet 卡在自动化无法处理的提示上,加入/测试语音结果会报告 `manualActionRequired: true`,并包含 `manualActionReason` 和 `manualActionMessage`。智能体应停止重试加入,报告该精确消息以及当前的 `browserUrl`/`browserTitle`,并且仅在手动浏览器操作完成后重试。
|
||||
|
||||
如果省略 `chromeNode.node`,只有在恰好一个已连接节点同时声明 `googlemeet.chrome` 和浏览器控制时,OpenClaw 才会自动选择。如果连接了多个具备能力的节点,请将 `chromeNode.node` 设置为节点 ID、显示名称或远程 IP。
|
||||
如果省略 `chromeNode.node`,OpenClaw 仅在恰好有一个已连接节点同时声明 `googlemeet.chrome` 和浏览器控制时自动选择。如果连接了多个具备能力的节点,请将 `chromeNode.node` 设置为节点 ID、显示名称或远程 IP。
|
||||
|
||||
常见失败检查:
|
||||
|
||||
- `Configured Google Meet node ... is not usable: offline`:固定的节点已被 Gateway 网关知晓,但不可用。智能体应将该节点视为诊断状态,而不是可用的 Chrome 主机,并报告设置阻碍;除非用户要求,否则不要回退到其他传输协议。
|
||||
- `No connected Google Meet-capable node`:在 VM 中启动 `openclaw node run`,批准配对,并确保已在 VM 中运行 `openclaw plugins enable google-meet` 和 `openclaw plugins enable browser`。同时确认 Gateway 网关主机允许这两个节点命令:`gateway.nodes.allowCommands: ["googlemeet.chrome", "browser.proxy"]`。
|
||||
- `BlackHole 2ch audio device not found`:在正在检查的主机上安装 `blackhole-2ch`,并在使用本地 Chrome 音频前重启。
|
||||
- `BlackHole 2ch audio device not found on the node`:在 VM 中安装 `blackhole-2ch`,并重启 VM。
|
||||
- Chrome 打开但无法加入:在 VM 内的浏览器配置文件中登录,或保留 `chrome.guestName` 以进行访客加入。访客自动加入会通过节点浏览器代理使用 OpenClaw 浏览器自动化;请确保节点浏览器配置指向你想要的配置文件,例如 `browser.defaultProfile: "user"` 或某个已命名的现有会话配置文件。
|
||||
- 重复的 Meet 标签页:保持启用 `chrome.reuseExistingTab: true`。OpenClaw 会先激活同一 Meet URL 的现有标签页,再打开新标签页;浏览器会议创建也会在打开另一个标签页前复用正在进行的 `https://meet.google.com/new` 或 Google 账号提示标签页。
|
||||
- 没有音频:在 Meet 中,将麦克风/扬声器路由到 OpenClaw 使用的虚拟音频设备路径;使用单独的虚拟设备或 Loopback 风格的路由来获得干净的双工音频。
|
||||
- `Configured Google Meet node ... is not usable: offline`:固定的节点对 Gateway 网关已知但不可用。智能体应将该节点视为诊断状态,而不是可用的 Chrome 主机,并报告设置阻塞项,除非用户要求,否则不要回退到其他传输方式。
|
||||
- `No connected Google Meet-capable node`:在 VM 中启动 `openclaw node run`,批准配对,并确保已在 VM 中运行 `openclaw plugins enable google-meet` 和 `openclaw plugins enable browser`。还要确认 Gateway 网关主机通过 `gateway.nodes.allowCommands: ["googlemeet.chrome", "browser.proxy"]` 允许这两个节点命令。
|
||||
- `BlackHole 2ch audio device not found`:在被检查的主机上安装 `blackhole-2ch`,并在使用本地 Chrome 音频前重启。
|
||||
- `BlackHole 2ch audio device not found on the node`:在 VM 中安装 `blackhole-2ch` 并重启 VM。
|
||||
- Chrome 打开但无法加入:登录 VM 内部的浏览器配置文件,或保持设置 `chrome.guestName` 以进行访客加入。访客自动加入通过节点浏览器代理使用 OpenClaw 浏览器自动化;确保节点浏览器配置指向你想要的配置文件,例如 `browser.defaultProfile: "user"` 或一个具名的现有会话配置文件。
|
||||
- 重复的 Meet 标签页:保持启用 `chrome.reuseExistingTab: true`。OpenClaw 会先激活同一 Meet URL 的现有标签页,然后才打开新标签页,并且浏览器会议创建会先复用正在进行的 `https://meet.google.com/new` 或 Google 账号提示标签页,然后才打开另一个。
|
||||
- 无音频:在 Meet 中,将麦克风/扬声器路由到 OpenClaw 使用的虚拟音频设备路径;为干净的双工音频使用独立虚拟设备或 Loopback 风格的路由。
|
||||
|
||||
## 安装说明
|
||||
|
||||
Chrome 回听默认使用两个外部工具:
|
||||
Chrome 回话默认值使用两个外部工具:
|
||||
|
||||
- `sox`:命令行音频工具。该插件会为默认的 24 kHz PCM16 音频桥接使用显式 CoreAudio 设备命令。
|
||||
- `blackhole-2ch`:macOS 虚拟音频驱动。它会创建 Chrome/Meet 可路由通过的 `BlackHole 2ch` 音频设备。
|
||||
- `sox`:命令行音频工具。该插件对默认的 24 kHz PCM16 音频桥接使用显式 CoreAudio 设备命令。
|
||||
- `blackhole-2ch`:macOS 虚拟音频驱动。它创建 Chrome/Meet 可通过其路由的 `BlackHole 2ch` 音频设备。
|
||||
|
||||
OpenClaw 不捆绑或再分发任一软件包。文档要求用户通过 Homebrew 将它们作为主机依赖安装。SoX 的许可证为 `LGPL-2.0-only AND GPL-2.0-only`;BlackHole 为 GPL-3.0。如果你构建的安装程序或设备将 BlackHole 与 OpenClaw 捆绑,请审查 BlackHole 的上游许可条款,或向 Existential Audio 获取单独许可证。
|
||||
OpenClaw 不捆绑或再分发任一软件包。文档要求用户通过 Homebrew 将它们安装为主机依赖项。SoX 的许可证为 `LGPL-2.0-only AND GPL-2.0-only`;BlackHole 为 GPL-3.0。如果你构建将 BlackHole 与 OpenClaw 捆绑的安装器或设备,请审查 BlackHole 的上游许可条款,或从 Existential Audio 获取单独许可证。
|
||||
|
||||
## 传输协议
|
||||
## 传输方式
|
||||
|
||||
### Chrome
|
||||
|
||||
Chrome 传输协议会通过 OpenClaw 浏览器控制打开 Meet URL,并以已登录的 OpenClaw 浏览器配置文件身份加入。在 macOS 上,插件会在启动前检查 `BlackHole 2ch`。如果已配置,它还会在打开 Chrome 前运行音频桥接健康检查命令和启动命令。当 Chrome/音频位于 Gateway 网关主机上时使用 `chrome`;当 Chrome/音频位于配对节点(例如 Parallels macOS VM)上时使用 `chrome-node`。对于本地 Chrome,使用 `browser.defaultProfile` 选择配置文件;`chrome.browserProfile` 会传递给 `chrome-node` 主机。
|
||||
Chrome 传输方式通过 OpenClaw 浏览器控制打开 Meet URL,并以已登录的 OpenClaw 浏览器配置文件加入。在 macOS 上,该插件会在启动前检查 `BlackHole 2ch`。如果已配置,它还会在打开 Chrome 前运行音频桥接健康命令和启动命令。当 Chrome/音频位于 Gateway 网关主机上时使用 `chrome`;当 Chrome/音频位于已配对节点(例如 Parallels macOS VM)上时使用 `chrome-node`。对于本地 Chrome,使用 `browser.defaultProfile` 选择配置文件;`chrome.browserProfile` 会传递给 `chrome-node` 主机。
|
||||
|
||||
```bash
|
||||
openclaw googlemeet join https://meet.google.com/abc-defg-hij --transport chrome
|
||||
openclaw googlemeet join https://meet.google.com/abc-defg-hij --transport chrome-node
|
||||
```
|
||||
|
||||
将 Chrome 麦克风和扬声器音频路由通过本地 OpenClaw 音频桥接。如果未安装 `BlackHole 2ch`,加入会失败并给出设置错误,而不是在没有音频路径的情况下静默加入。
|
||||
通过本地 OpenClaw 音频桥接路由 Chrome 麦克风和扬声器音频。如果未安装 `BlackHole 2ch`,加入会以设置错误失败,而不是在没有音频路径的情况下静默加入。
|
||||
|
||||
### Twilio
|
||||
|
||||
Twilio 传输协议是委托给 Voice Call 插件的严格拨号计划。它不会解析 Meet 页面中的电话号码。
|
||||
Twilio 传输方式是委托给 Voice Call 插件的严格拨号计划。它不会解析 Meet 页面来获取电话号码。
|
||||
|
||||
当 Chrome 参与不可用,或你想要电话拨入回退时使用它。Google Meet 必须为会议公开电话拨入号码和 PIN;OpenClaw 不会从 Meet 页面发现这些信息。
|
||||
当 Chrome 参与不可用,或你想要电话拨入回退方案时使用它。Google Meet 必须为会议公开电话拨入号码和 PIN;OpenClaw 不会从 Meet 页面发现这些信息。
|
||||
|
||||
在 Gateway 网关主机上启用 Voice Call 插件,而不是在 Chrome 节点上:
|
||||
|
||||
@ -353,7 +353,7 @@ Twilio 传输协议是委托给 Voice Call 插件的严格拨号计划。它不
|
||||
}
|
||||
```
|
||||
|
||||
通过环境或配置提供 Twilio 凭证。环境会让密钥不进入 `openclaw.json`:
|
||||
通过环境或配置提供 Twilio 凭据。环境可避免密钥进入 `openclaw.json`:
|
||||
|
||||
```bash
|
||||
export TWILIO_ACCOUNT_SID=AC...
|
||||
@ -362,9 +362,9 @@ export TWILIO_FROM_NUMBER=+15550001234
|
||||
export GEMINI_API_KEY=...
|
||||
```
|
||||
|
||||
如果你的实时语音提供商是 OpenAI provider 插件,请改用 `realtime.provider: "openai"` 和 `OPENAI_API_KEY`。
|
||||
如果 OpenAI provider 插件和 `OPENAI_API_KEY` 才是你的实时语音提供商,请改用 `realtime.provider: "openai"`。
|
||||
|
||||
启用 `voice-call` 后重启或重新加载 Gateway 网关;插件配置更改在已运行的 Gateway 网关进程重新加载前不会出现。
|
||||
启用 `voice-call` 后重启或重新加载 Gateway 网关;插件配置变更在重新加载前不会出现在已运行的 Gateway 网关进程中。
|
||||
|
||||
然后验证:
|
||||
|
||||
@ -394,13 +394,13 @@ openclaw googlemeet join https://meet.google.com/abc-defg-hij \
|
||||
|
||||
## OAuth 和预检
|
||||
|
||||
OAuth 对于创建 Meet 链接是可选的,因为 `googlemeet create` 可以回退到浏览器自动化。当你需要官方 API 创建、空间解析或 Meet Media API 预检时,请配置 OAuth。
|
||||
OAuth 对创建 Meet 链接是可选的,因为 `googlemeet create` 可以回退到浏览器自动化。当你想要官方 API 创建、空间解析或 Meet Media API 预检检查时,请配置 OAuth。
|
||||
|
||||
Google Meet API 访问使用用户 OAuth:创建 Google Cloud OAuth 客户端,请求所需作用域,授权一个 Google 账号,然后将生成的刷新令牌存储在 Google Meet 插件配置中,或提供 `OPENCLAW_GOOGLE_MEET_*` 环境变量。
|
||||
Google Meet API 访问使用用户 OAuth:创建 Google Cloud OAuth 客户端,请求所需范围,授权一个 Google 账号,然后将生成的刷新令牌存储在 Google Meet 插件配置中,或提供 `OPENCLAW_GOOGLE_MEET_*` 环境变量。
|
||||
|
||||
OAuth 不会替代 Chrome 加入路径。当你使用浏览器参与时,Chrome 和 Chrome-node 传输协议仍然会通过已登录的 Chrome 配置文件、BlackHole/SoX 以及已连接节点加入。OAuth 只用于官方 Google Meet API 路径:创建会议空间、解析空间,以及运行 Meet Media API 预检。
|
||||
OAuth 不会替代 Chrome 加入路径。当你使用浏览器参与时,Chrome 和 Chrome-node 传输方式仍通过已登录的 Chrome 配置文件、BlackHole/SoX 和已连接节点加入。OAuth 仅用于官方 Google Meet API 路径:创建会议空间、解析空间以及运行 Meet Media API 预检检查。
|
||||
|
||||
### 创建 Google 凭证
|
||||
### 创建 Google 凭据
|
||||
|
||||
在 Google Cloud Console 中:
|
||||
|
||||
@ -409,14 +409,14 @@ OAuth 不会替代 Chrome 加入路径。当你使用浏览器参与时,Chrome
|
||||
3. 配置 OAuth 同意屏幕。
|
||||
- **内部** 对 Google Workspace 组织最简单。
|
||||
- **外部** 适用于个人/测试设置;当应用处于测试阶段时,将每个会授权该应用的 Google 账号添加为测试用户。
|
||||
4. 添加 OpenClaw 请求的作用域:
|
||||
4. 添加 OpenClaw 请求的范围:
|
||||
- `https://www.googleapis.com/auth/meetings.space.created`
|
||||
- `https://www.googleapis.com/auth/meetings.space.readonly`
|
||||
- `https://www.googleapis.com/auth/meetings.space.settings`
|
||||
- `https://www.googleapis.com/auth/meetings.conference.media.readonly`
|
||||
5. 创建 OAuth 客户端 ID。
|
||||
- 应用类型:**Web application**。
|
||||
- 已授权重定向 URI:
|
||||
- 应用类型:**Web 应用**。
|
||||
- 已获授权的重定向 URI:
|
||||
|
||||
```text
|
||||
http://localhost:8085/oauth2callback
|
||||
@ -424,21 +424,17 @@ OAuth 不会替代 Chrome 加入路径。当你使用浏览器参与时,Chrome
|
||||
|
||||
6. 复制客户端 ID 和客户端密钥。
|
||||
|
||||
Google Meet `spaces.create` 需要 `meetings.space.created`。
|
||||
`meetings.space.readonly` 让 OpenClaw 能够将 Meet URL/代码解析为空间。
|
||||
`meetings.space.settings` 让 OpenClaw 能够在 API 房间创建期间传递 `SpaceConfig` 设置,例如 `accessType`。
|
||||
`meetings.conference.media.readonly` 用于 Meet Media API 预检和媒体工作;实际使用 Media API 时,Google 可能要求加入 Developer Preview。
|
||||
如果你只需要基于浏览器的 Chrome 加入,请完全跳过 OAuth。
|
||||
Google Meet `spaces.create` 需要 `meetings.space.created`。`meetings.space.readonly` 允许 OpenClaw 将 Meet URL/代码解析为空间。`meetings.space.settings` 允许 OpenClaw 在 API 房间创建期间传递 `SpaceConfig` 设置,例如 `accessType`。`meetings.conference.media.readonly` 用于 Meet Media API 预检和媒体工作;Google 可能要求加入开发者预览才能实际使用 Media API。如果你只需要基于浏览器的 Chrome 加入,请完全跳过 OAuth。
|
||||
|
||||
### 生成刷新令牌
|
||||
|
||||
配置 `oauth.clientId`,并可选配置 `oauth.clientSecret`,或将它们作为环境变量传入,然后运行:
|
||||
配置 `oauth.clientId` 和可选的 `oauth.clientSecret`,或将它们作为环境变量传入,然后运行:
|
||||
|
||||
```bash
|
||||
openclaw googlemeet auth login --json
|
||||
```
|
||||
|
||||
该命令会打印一个带有刷新令牌的 `oauth` 配置块。它使用 PKCE、`http://localhost:8085/oauth2callback` 上的 localhost 回调,以及带 `--manual` 的手动复制/粘贴流程。
|
||||
该命令会打印包含刷新令牌的 `oauth` 配置块。它使用 PKCE、`http://localhost:8085/oauth2callback` 上的 localhost 回调,以及带 `--manual` 的手动复制/粘贴流程。
|
||||
|
||||
示例:
|
||||
|
||||
@ -492,50 +488,51 @@ JSON 输出包括:
|
||||
}
|
||||
```
|
||||
|
||||
当你不希望刷新令牌出现在配置中时,优先使用环境变量。如果配置值和环境值都存在,插件会先解析配置,然后再使用环境回退。
|
||||
当你不希望刷新令牌出现在配置中时,优先使用环境变量。如果配置和环境值都存在,插件会先解析配置,然后再使用环境回退。
|
||||
|
||||
OAuth 同意包含 Meet 空间创建、Meet 空间读取访问,以及 Meet 会议媒体读取访问。如果你在会议创建支持存在之前已进行身份验证,请重新运行 `openclaw googlemeet auth login --json`,使刷新令牌具备 `meetings.space.created` 作用域。
|
||||
OAuth 同意包括 Meet 空间创建、Meet 空间读取访问权限以及 Meet 会议媒体读取访问权限。如果你在会议创建支持存在之前完成了身份验证,请重新运行 `openclaw googlemeet auth login --json`,以便刷新令牌拥有 `meetings.space.created` 范围。
|
||||
|
||||
### 使用 Doctor 验证 OAuth
|
||||
### 使用 doctor 验证 OAuth
|
||||
|
||||
当你需要快速、非密钥的健康检查时,运行 OAuth Doctor:
|
||||
当你想要快速的非密钥健康检查时,运行 OAuth doctor:
|
||||
|
||||
```bash
|
||||
openclaw googlemeet doctor --oauth --json
|
||||
```
|
||||
|
||||
这不会加载 Chrome 运行时,也不需要已连接的 Chrome 节点。它会检查 OAuth 配置是否存在,以及刷新令牌是否可以生成访问令牌。JSON 报告只包含状态字段,例如 `ok`、`configured`、`tokenSource`、`expiresAt` 和检查消息;它不会打印访问令牌、刷新令牌或客户端密钥。
|
||||
这不会加载 Chrome 运行时,也不需要已连接的 Chrome 节点。它会检查 OAuth 配置是否存在,以及刷新令牌是否可以生成访问令牌。JSON 报告仅包括 `ok`、`configured`、`tokenSource`、`expiresAt` 和检查消息等状态字段;它不会打印访问令牌、刷新令牌或客户端密钥。
|
||||
|
||||
常见结果:
|
||||
|
||||
| 检查 | 含义 |
|
||||
| 检查 | 含义 |
|
||||
| -------------------- | --------------------------------------------------------------------------------------- |
|
||||
| `oauth-config` | 存在 `oauth.clientId` 加 `oauth.refreshToken`,或存在缓存的访问令牌。 |
|
||||
| `oauth-token` | 缓存的访问令牌仍然有效,或刷新令牌签发了新的访问令牌。 |
|
||||
| `meet-spaces-get` | 可选的 `--meeting` 检查解析了现有 Meet 空间。 |
|
||||
| `meet-spaces-create` | 可选的 `--create-space` 检查创建了新的 Meet 空间。 |
|
||||
| `oauth-config` | 存在 `oauth.clientId` 加 `oauth.refreshToken`,或已缓存的访问令牌。 |
|
||||
| `oauth-token` | 缓存的访问令牌仍然有效,或刷新令牌已签发新的访问令牌。 |
|
||||
| `meet-spaces-get` | 可选的 `--meeting` 检查解析到了现有的 Meet 空间。 |
|
||||
| `meet-spaces-create` | 可选的 `--create-space` 检查创建了新的 Meet 空间。 |
|
||||
|
||||
要同时证明 Google Meet API 已启用以及具备 `spaces.create` 范围,请运行会产生副作用的创建检查:
|
||||
若还要证明 Google Meet API 已启用并且具备 `spaces.create` 作用域,请运行有副作用的创建检查:
|
||||
|
||||
```bash
|
||||
openclaw googlemeet doctor --oauth --create-space --json
|
||||
openclaw googlemeet create --no-join --json
|
||||
```
|
||||
|
||||
`--create-space` 会创建一个一次性的 Meet URL。当你需要确认 Google Cloud 项目已启用 Meet API,且授权账号具有 `meetings.space.created` 范围时使用它。
|
||||
`--create-space` 会创建一个一次性的 Meet URL。当你需要确认 Google Cloud 项目已启用 Meet API,且已授权账户具有 `meetings.space.created` 作用域时使用它。
|
||||
|
||||
要证明对现有会议空间的读取访问权限:
|
||||
若要证明对现有会议空间的读取访问权限:
|
||||
|
||||
```bash
|
||||
openclaw googlemeet doctor --oauth --meeting https://meet.google.com/abc-defg-hij --json
|
||||
openclaw googlemeet resolve-space --meeting https://meet.google.com/abc-defg-hij
|
||||
```
|
||||
|
||||
`doctor --oauth --meeting` 和 `resolve-space` 会证明对授权 Google 账号可访问的现有空间具有读取访问权限。这些检查返回 `403` 通常表示 Google Meet REST API 已停用、已同意授权的刷新令牌缺少所需范围,或该 Google 账号无法访问该 Meet 空间。刷新令牌错误表示需要重新运行 `openclaw googlemeet auth login --json` 并存储新的 `oauth` 块。
|
||||
`doctor --oauth --meeting` 和 `resolve-space` 会证明对已授权 Google 账户可访问的现有空间具有读取权限。这些检查返回 `403` 通常表示 Google Meet REST API 已禁用、已同意授权的刷新令牌缺少所需作用域,或该 Google 账户无法访问该 Meet 空间。刷新令牌错误表示需要重新运行 `openclaw googlemeet auth login
|
||||
--json`,并存储新的 `oauth` 块。
|
||||
|
||||
浏览器回退不需要 OAuth 凭证。在该模式下,Google 认证来自所选节点上已登录的 Chrome 个人资料,而不是来自 OpenClaw 配置。
|
||||
浏览器回退不需要 OAuth 凭据。在该模式下,Google 身份验证来自所选节点上已登录的 Chrome 配置文件,而不是 OpenClaw 配置。
|
||||
|
||||
以下环境变量可作为回退使用:
|
||||
这些环境变量可作为回退使用:
|
||||
|
||||
- `OPENCLAW_GOOGLE_MEET_CLIENT_ID` 或 `GOOGLE_MEET_CLIENT_ID`
|
||||
- `OPENCLAW_GOOGLE_MEET_CLIENT_SECRET` 或 `GOOGLE_MEET_CLIENT_SECRET`
|
||||
@ -558,7 +555,7 @@ openclaw googlemeet resolve-space --meeting https://meet.google.com/abc-defg-hij
|
||||
openclaw googlemeet preflight --meeting https://meet.google.com/abc-defg-hij
|
||||
```
|
||||
|
||||
在 Meet 创建会议记录后列出会议工件和出席情况:
|
||||
在 Meet 创建会议记录后列出会议产物和出席情况:
|
||||
|
||||
```bash
|
||||
openclaw googlemeet artifacts --meeting https://meet.google.com/abc-defg-hij
|
||||
@ -566,9 +563,9 @@ openclaw googlemeet attendance --meeting https://meet.google.com/abc-defg-hij
|
||||
openclaw googlemeet export --meeting https://meet.google.com/abc-defg-hij --output ./meet-export
|
||||
```
|
||||
|
||||
带 `--meeting` 时,`artifacts` 和 `attendance` 默认使用最新的会议记录。当你想要该会议的每条保留记录时,传入 `--all-conference-records`。
|
||||
使用 `--meeting` 时,`artifacts` 和 `attendance` 默认使用最新的会议记录。当你想要该会议保留的每条记录时,传入 `--all-conference-records`。
|
||||
|
||||
日历查找可以先从 Google Calendar 解析会议 URL,再读取 Meet 工件:
|
||||
Calendar 查找可以先从 Google Calendar 解析会议 URL,然后再读取 Meet 产物:
|
||||
|
||||
```bash
|
||||
openclaw googlemeet latest --today
|
||||
@ -577,7 +574,8 @@ openclaw googlemeet artifacts --event "Weekly sync"
|
||||
openclaw googlemeet attendance --today --format csv --output attendance.csv
|
||||
```
|
||||
|
||||
`--today` 会在今天的 `primary` 日历中搜索带有 Google Meet 链接的 Calendar 事件。使用 `--event <query>` 搜索匹配的事件文本,使用 `--calendar <id>` 指定非主日历。日历查找需要一次新的 OAuth 登录,并包含 Calendar events readonly 范围。`calendar-events` 会预览匹配的 Meet 事件,并标记 `latest`、`artifacts`、`attendance` 或 `export` 将选择的事件。
|
||||
`--today` 会在今天的 `primary` 日历中搜索带有 Google Meet 链接的 Calendar 事件。使用 `--event <query>` 搜索匹配的事件文本,使用 `--calendar <id>` 指定非主日历。Calendar 查找需要一次新的 OAuth 登录,并包含 Calendar events readonly 作用域。
|
||||
`calendar-events` 会预览匹配的 Meet 事件,并标记 `latest`、`artifacts`、`attendance` 或 `export` 将选择的事件。
|
||||
|
||||
如果你已经知道会议记录 ID,可以直接指定它:
|
||||
|
||||
@ -593,7 +591,8 @@ openclaw googlemeet attendance --conference-record conferenceRecords/abc123 --js
|
||||
openclaw googlemeet end-active-conference https://meet.google.com/abc-defg-hij
|
||||
```
|
||||
|
||||
这会调用 Google Meet `spaces.endActiveConference`,并且需要 OAuth,对授权账号可管理的空间具备 `meetings.space.created` 范围。OpenClaw 接受 Meet URL、会议代码或 `spaces/{id}` 输入,并在结束活跃会议前将其解析为 API 空间资源。它与 `googlemeet leave` 是分开的:`leave` 会停止 OpenClaw 的本地/会话参与,而 `end-active-conference` 会请求 Google Meet 结束该空间的活跃会议。
|
||||
这会调用 Google Meet `spaces.endActiveConference`,并且对于已授权账户可管理的空间,需要具备 `meetings.space.created` 作用域的 OAuth。OpenClaw 接受 Meet URL、会议代码或 `spaces/{id}` 输入,并在结束活跃会议之前将其解析为 API 空间资源。
|
||||
它与 `googlemeet leave` 是分开的:`leave` 会停止 OpenClaw 的本地/会话参与,而 `end-active-conference` 会请求 Google Meet 结束该空间的活跃会议。
|
||||
|
||||
写入可读报告:
|
||||
|
||||
@ -610,9 +609,11 @@ openclaw googlemeet export --conference-record conferenceRecords/abc123 \
|
||||
--include-doc-bodies --dry-run
|
||||
```
|
||||
|
||||
当 Google 为会议公开这些数据时,`artifacts` 会返回会议记录元数据,以及参与者、录制、转录、结构化转录条目和智能笔记资源元数据。对大型会议使用 `--no-transcript-entries` 可跳过条目查找。`attendance` 会将参与者展开为参与者会话行,包含首次/最后出现时间、总会话时长、迟到/提前离开标志,并按已登录用户或显示名称合并重复参与者资源。传入 `--no-merge-duplicates` 可让原始参与者资源保持分开,传入 `--late-after-minutes` 可调整迟到检测,传入 `--early-before-minutes` 可调整提前离开检测。
|
||||
当 Google 为该会议公开相关信息时,`artifacts` 会返回会议记录元数据,以及参与者、录制、转录、结构化转录条目和智能笔记资源元数据。对于大型会议,使用 `--no-transcript-entries` 跳过条目查找。`attendance` 会将参与者展开为参与者会话行,其中包含首次/最后一次出现时间、总会话时长、迟到/提前离开标记,并按已登录用户或显示名称合并重复的参与者资源。传入 `--no-merge-duplicates` 可让原始参与者资源保持分离,传入 `--late-after-minutes` 可调整迟到检测,传入 `--early-before-minutes` 可调整提前离开检测。
|
||||
|
||||
`export` 会写入一个文件夹,其中包含 `summary.md`、`attendance.csv`、`transcript.md`、`artifacts.json`、`attendance.json` 和 `manifest.json`。`manifest.json` 会记录所选输入、导出选项、会议记录、输出文件、计数、令牌来源、使用过的 Calendar 事件,以及任何部分检索警告。传入 `--zip` 还会在该文件夹旁边写入一个可移植归档。传入 `--include-doc-bodies` 可通过 Google Drive `files.export` 导出链接的转录和智能笔记 Google Docs 文本;这需要一次新的 OAuth 登录,并包含 Drive Meet readonly 范围。没有 `--include-doc-bodies` 时,导出只包含 Meet 元数据和结构化转录条目。如果 Google 返回部分工件失败,例如智能笔记列表、转录条目或 Drive 文档正文错误,摘要和清单会保留警告,而不是让整个导出失败。使用 `--dry-run` 可获取相同的工件/出席数据并打印清单 JSON,而不创建文件夹或 ZIP。这在写入大型导出前,或智能体只需要计数、所选记录和警告时很有用。
|
||||
`export` 会写入一个文件夹,其中包含 `summary.md`、`attendance.csv`、`transcript.md`、`artifacts.json`、`attendance.json` 和 `manifest.json`。
|
||||
`manifest.json` 会记录所选输入、导出选项、会议记录、输出文件、计数、令牌来源、使用过的 Calendar 事件,以及任何部分检索警告。传入 `--zip` 还会在文件夹旁边写入一个便携归档。传入 `--include-doc-bodies` 会通过 Google Drive `files.export` 导出链接的转录和智能笔记 Google Docs 文本;这需要一次新的 OAuth 登录,并包含 Drive Meet readonly 作用域。不使用 `--include-doc-bodies` 时,导出仅包含 Meet 元数据和结构化转录条目。如果 Google 返回部分产物失败,例如智能笔记列表、转录条目或 Drive 文档正文错误,摘要和清单会保留警告,而不是让整个导出失败。
|
||||
使用 `--dry-run` 可获取相同的产物/出席数据并打印清单 JSON,而不创建文件夹或 ZIP。这在写入大型导出之前,或当智能体只需要计数、所选记录和警告时很有用。
|
||||
|
||||
智能体也可以通过 `google_meet` 工具创建相同的包:
|
||||
|
||||
@ -626,7 +627,7 @@ openclaw googlemeet export --conference-record conferenceRecords/abc123 \
|
||||
}
|
||||
```
|
||||
|
||||
设置 `"dryRun": true` 可只返回导出清单并跳过文件写入。
|
||||
设置 `"dryRun": true` 可仅返回导出清单并跳过文件写入。
|
||||
|
||||
智能体也可以使用显式访问策略创建 API 支持的房间:
|
||||
|
||||
@ -639,7 +640,7 @@ openclaw googlemeet export --conference-record conferenceRecords/abc123 \
|
||||
}
|
||||
```
|
||||
|
||||
并且它们可以结束已知房间的活跃会议:
|
||||
它们还可以结束已知房间的活跃会议:
|
||||
|
||||
```json
|
||||
{
|
||||
@ -648,7 +649,7 @@ openclaw googlemeet export --conference-record conferenceRecords/abc123 \
|
||||
}
|
||||
```
|
||||
|
||||
对于先监听验证,智能体应在声称会议有用之前使用 `test_listen`:
|
||||
对于先听后验的验证,智能体应在声明会议可用之前使用 `test_listen`:
|
||||
|
||||
```json
|
||||
{
|
||||
@ -667,22 +668,32 @@ OPENCLAW_GOOGLE_MEET_LIVE_MEETING=https://meet.google.com/abc-defg-hij \
|
||||
pnpm test:live -- extensions/google-meet/google-meet.live.test.ts
|
||||
```
|
||||
|
||||
针对有人会发言且 Meet 字幕可用的会议,运行实时先监听浏览器探测:
|
||||
针对有人会发言且 Meet 字幕可用的会议,运行实时的先听后验浏览器探测:
|
||||
|
||||
```bash
|
||||
openclaw googlemeet setup --transport chrome-node --mode transcribe
|
||||
openclaw googlemeet test-listen https://meet.google.com/abc-defg-hij --transport chrome-node --timeout-ms 30000
|
||||
```
|
||||
|
||||
实时冒烟环境:
|
||||
实时冒烟测试环境:
|
||||
|
||||
- `OPENCLAW_LIVE_TEST=1` 启用受保护的实时测试。
|
||||
- `OPENCLAW_GOOGLE_MEET_LIVE_MEETING` 指向保留的 Meet URL、代码或 `spaces/{id}`。
|
||||
- `OPENCLAW_GOOGLE_MEET_CLIENT_ID` 或 `GOOGLE_MEET_CLIENT_ID` 提供 OAuth 客户端 ID。
|
||||
- `OPENCLAW_GOOGLE_MEET_REFRESH_TOKEN` 或 `GOOGLE_MEET_REFRESH_TOKEN` 提供刷新令牌。
|
||||
- 可选:`OPENCLAW_GOOGLE_MEET_CLIENT_SECRET`、`OPENCLAW_GOOGLE_MEET_ACCESS_TOKEN` 和 `OPENCLAW_GOOGLE_MEET_ACCESS_TOKEN_EXPIRES_AT` 使用没有 `OPENCLAW_` 前缀的相同回退名称。
|
||||
- `OPENCLAW_GOOGLE_MEET_LIVE_MEETING` 指向保留的 Meet URL、代码或
|
||||
`spaces/{id}`。
|
||||
- `OPENCLAW_GOOGLE_MEET_CLIENT_ID` 或 `GOOGLE_MEET_CLIENT_ID` 提供 OAuth
|
||||
客户端 ID。
|
||||
- `OPENCLAW_GOOGLE_MEET_REFRESH_TOKEN` 或 `GOOGLE_MEET_REFRESH_TOKEN` 提供
|
||||
刷新令牌。
|
||||
- 可选:`OPENCLAW_GOOGLE_MEET_CLIENT_SECRET`、
|
||||
`OPENCLAW_GOOGLE_MEET_ACCESS_TOKEN` 和
|
||||
`OPENCLAW_GOOGLE_MEET_ACCESS_TOKEN_EXPIRES_AT` 使用不带 `OPENCLAW_` 前缀的相同回退名称。
|
||||
|
||||
基础工件/出席实时冒烟测试需要 `https://www.googleapis.com/auth/meetings.space.readonly` 和 `https://www.googleapis.com/auth/meetings.conference.media.readonly`。Calendar 查找需要 `https://www.googleapis.com/auth/calendar.events.readonly`。Drive 文档正文导出需要 `https://www.googleapis.com/auth/drive.meet.readonly`。
|
||||
基础产物/出席实时冒烟测试需要
|
||||
`https://www.googleapis.com/auth/meetings.space.readonly` 和
|
||||
`https://www.googleapis.com/auth/meetings.conference.media.readonly`。Calendar
|
||||
查找需要 `https://www.googleapis.com/auth/calendar.events.readonly`。Drive
|
||||
文档正文导出需要
|
||||
`https://www.googleapis.com/auth/drive.meet.readonly`。
|
||||
|
||||
创建新的 Meet 空间:
|
||||
|
||||
@ -690,9 +701,9 @@ openclaw googlemeet test-listen https://meet.google.com/abc-defg-hij --transport
|
||||
openclaw googlemeet create
|
||||
```
|
||||
|
||||
该命令会打印新的 `meeting uri`、来源和加入会话。带 OAuth 凭证时,它使用官方 Google Meet API。没有 OAuth 凭证时,它会使用固定 Chrome 节点的已登录浏览器个人资料作为回退。智能体可以使用 `google_meet` 工具并带 `action: "create"` 来一步创建并加入。对于仅创建 URL,传入 `"join": false`。
|
||||
该命令会打印新的 `meeting uri`、来源和加入会话。使用 OAuth 凭据时,它会使用官方 Google Meet API。没有 OAuth 凭据时,它会回退使用固定 Chrome 节点上已登录的浏览器配置文件。智能体可以使用带有 `action: "create"` 的 `google_meet` 工具一步完成创建并加入。对于仅创建 URL 的场景,传入 `"join": false`。
|
||||
|
||||
来自浏览器回退的 JSON 输出示例:
|
||||
浏览器回退的 JSON 输出示例:
|
||||
|
||||
```json
|
||||
{
|
||||
@ -712,7 +723,7 @@ openclaw googlemeet create
|
||||
}
|
||||
```
|
||||
|
||||
如果浏览器回退在创建 URL 之前遇到 Google 登录或 Meet 权限阻断,Gateway 网关方法会返回失败响应,`google_meet` 工具会返回结构化详情,而不是纯字符串:
|
||||
如果浏览器回退在创建 URL 之前遇到 Google 登录或 Meet 权限阻碍,Gateway 网关方法会返回失败响应,`google_meet` 工具会返回结构化详情,而不是普通字符串:
|
||||
|
||||
```json
|
||||
{
|
||||
@ -730,9 +741,9 @@ openclaw googlemeet create
|
||||
}
|
||||
```
|
||||
|
||||
当智能体看到 `manualActionRequired: true` 时,应报告 `manualActionMessage` 加浏览器节点/标签页上下文,并停止打开新的 Meet 标签页,直到操作员完成浏览器步骤。
|
||||
当智能体看到 `manualActionRequired: true` 时,应报告 `manualActionMessage` 以及浏览器节点/标签页上下文,并停止打开新的 Meet 标签页,直到操作员完成浏览器步骤。
|
||||
|
||||
来自 API 创建的 JSON 输出示例:
|
||||
API 创建的 JSON 输出示例:
|
||||
|
||||
```json
|
||||
{
|
||||
@ -753,13 +764,13 @@ openclaw googlemeet create
|
||||
}
|
||||
```
|
||||
|
||||
创建 Meet 默认会加入会议。Chrome 或 Chrome-node 传输协议仍然需要已登录的 Google Chrome 配置文件,才能通过浏览器加入。如果配置文件已退出登录,OpenClaw 会报告 `manualActionRequired: true` 或浏览器回退错误,并要求操作者先完成 Google 登录后再重试。
|
||||
创建 Meet 默认会加入会议。Chrome 或 Chrome-node 传输仍然需要已登录的 Google Chrome 个人资料才能通过浏览器加入。如果个人资料已退出登录,OpenClaw 会报告 `manualActionRequired: true` 或浏览器回退错误,并要求操作员先完成 Google 登录再重试。
|
||||
|
||||
只有在确认你的 Cloud 项目、OAuth 主体和会议参与者都已加入 Google Workspace Developer Preview Program for Meet media APIs 后,才设置 `preview.enrollmentAcknowledged: true`。
|
||||
仅在确认你的 Cloud 项目、OAuth 主体和会议参与者都已加入适用于 Meet 媒体 API 的 Google Workspace Developer Preview Program 后,才设置 `preview.enrollmentAcknowledged: true`。
|
||||
|
||||
## 配置
|
||||
|
||||
通用 Chrome 智能体路径只需要启用插件、BlackHole、SoX、一个实时转录提供商密钥,以及一个已配置的 OpenClaw TTS 提供商。OpenAI 是默认转录提供商;将 `realtime.voiceProvider` 设为 `"google"`,并设置 `realtime.model`,即可在 `bidi` 模式下使用 Google Gemini Live,而无需更改默认智能体模式转录提供商:
|
||||
通用 Chrome 智能体路径只需要启用插件、BlackHole、SoX、实时转写提供商密钥,以及已配置的 OpenClaw TTS 提供商。OpenAI 是默认转写提供商;将 `realtime.voiceProvider` 设置为 `"google"`,并设置 `realtime.model`,即可在不更改默认智能体模式转写提供商的情况下,为 `bidi` 模式使用 Google Gemini Live:
|
||||
|
||||
```bash
|
||||
brew install blackhole-2ch sox
|
||||
@ -787,32 +798,32 @@ export GEMINI_API_KEY=...
|
||||
|
||||
- `defaultTransport: "chrome"`
|
||||
- `defaultMode: "agent"`(`"realtime"` 仅作为 `"agent"` 的旧版兼容别名被接受;新的工具调用应使用 `"agent"`)
|
||||
- `chromeNode.node`:用于 `chrome-node` 的可选节点 ID、名称或 IP
|
||||
- `chromeNode.node`:用于 `chrome-node` 的可选节点 ID/名称/IP
|
||||
- `chrome.audioBackend: "blackhole-2ch"`
|
||||
- `chrome.guestName: "OpenClaw Agent"`:在已退出登录的 Meet 访客界面上使用的名称
|
||||
- `chrome.autoJoin: true`:通过 `chrome-node` 上的 OpenClaw 浏览器自动化,尽力填写访客名称并点击 Join Now
|
||||
- `chrome.reuseExistingTab: true`:激活现有 Meet 标签页,而不是打开重复标签页
|
||||
- `chrome.waitForInCallMs: 20000`:在触发回话介绍前,等待 Meet 标签页报告已在通话中
|
||||
- `chrome.audioFormat: "pcm16-24khz"`:命令对音频格式。只有仍会发出电话音频的旧版或自定义命令对才使用 `"g711-ulaw-8khz"`。
|
||||
- `chrome.audioBufferBytes: 4096`:用于生成的 Chrome 命令对音频命令的 SoX 处理缓冲区。这是 SoX 默认 8192 字节缓冲区的一半,可降低默认管道延迟,同时为繁忙主机保留上调空间。低于 SoX 最小值的值会被钳制为 17 字节。
|
||||
- `chrome.guestName: "OpenClaw Agent"`:在未登录的 Meet 访客屏幕上使用的名称
|
||||
- `chrome.autoJoin: true`:通过 `chrome-node` 上的 OpenClaw 浏览器自动化,尽力填充访客名称并点击 Join Now
|
||||
- `chrome.reuseExistingTab: true`:激活已有的 Meet 标签页,而不是打开重复标签页
|
||||
- `chrome.waitForInCallMs: 20000`:在触发回话开场白之前,等待 Meet 标签页报告已进入通话
|
||||
- `chrome.audioFormat: "pcm16-24khz"`:命令对音频格式。仅对仍输出电话音频的旧版/自定义命令对使用 `"g711-ulaw-8khz"`。
|
||||
- `chrome.audioBufferBytes: 4096`:用于生成的 Chrome 命令对音频命令的 SoX 处理缓冲区。这是 SoX 默认 8192 字节缓冲区的一半,可降低默认管道延迟,同时在繁忙主机上保留调高空间。低于 SoX 最小值的值会被钳制为 17 字节。
|
||||
- `chrome.audioInputCommand`:从 CoreAudio `BlackHole 2ch` 读取并以 `chrome.audioFormat` 写入音频的 SoX 命令
|
||||
- `chrome.audioOutputCommand`:以 `chrome.audioFormat` 读取音频并写入 CoreAudio `BlackHole 2ch` 的 SoX 命令
|
||||
- `chrome.bargeInInputCommand`:可选的本地麦克风命令,用于在助手播放处于活动状态时写入有符号 16 位小端单声道 PCM,以检测真人插话。目前这适用于由 Gateway 网关托管的 `chrome` 命令对桥接。
|
||||
- `chrome.bargeInRmsThreshold: 650`:在 `chrome.bargeInInputCommand` 上计为真人打断的 RMS 电平
|
||||
- `chrome.bargeInPeakThreshold: 2500`:在 `chrome.bargeInInputCommand` 上计为真人打断的峰值电平
|
||||
- `chrome.bargeInCooldownMs: 900`:重复清除真人打断之间的最小延迟
|
||||
- `mode: "agent"`:默认回话模式。参与者语音由配置的实时转录提供商转录,发送到每次会议子智能体会话中的已配置 OpenClaw 智能体,并通过常规 OpenClaw TTS 运行时回说。
|
||||
- `mode: "bidi"`:回退的直接双向实时模型模式。实时语音提供商直接回答参与者语音,并可调用 `openclaw_agent_consult` 获取更深入或由工具支持的答案。
|
||||
- `mode: "transcribe"`:不带回话桥接的仅观察模式。
|
||||
- `chrome.bargeInInputCommand`:可选的本地麦克风命令,在助手播放处于活动状态时,写入有符号 16 位小端单声道 PCM,用于检测人工插话。这目前适用于由 Gateway 网关托管的 `chrome` 命令对桥接。
|
||||
- `chrome.bargeInRmsThreshold: 650`:在 `chrome.bargeInInputCommand` 上计为人工打断的 RMS 音量级别
|
||||
- `chrome.bargeInPeakThreshold: 2500`:在 `chrome.bargeInInputCommand` 上计为人工打断的峰值级别
|
||||
- `chrome.bargeInCooldownMs: 900`:重复清除人工打断之间的最小延迟
|
||||
- `mode: "agent"`:默认回话模式。参与者语音由已配置的实时转写提供商转写,发送到每个会议子智能体会话中的已配置 OpenClaw 智能体,并通过常规 OpenClaw TTS 运行时读出。
|
||||
- `mode: "bidi"`:回退的直接双向实时模型模式。实时语音提供商会直接回答参与者语音,也可以调用 `openclaw_agent_consult` 获取更深入或工具支持的答案。
|
||||
- `mode: "transcribe"`:没有回话桥接的仅观察模式。
|
||||
- `realtime.provider: "openai"`:当下面的作用域提供商字段未设置时使用的兼容性回退。
|
||||
- `realtime.transcriptionProvider: "openai"`:`agent` 模式用于实时转录的提供商 ID。
|
||||
- `realtime.voiceProvider`:`bidi` 模式用于直接实时语音的提供商 ID。将它设为 `"google"` 可使用 Gemini Live,同时让智能体模式转录保持在 OpenAI 上。
|
||||
- `realtime.transcriptionProvider: "openai"`:`agent` 模式用于实时转写的提供商 ID。
|
||||
- `realtime.voiceProvider`:`bidi` 模式用于直接实时语音的提供商 ID。将其设置为 `"google"` 可使用 Gemini Live,同时让智能体模式转写继续使用 OpenAI。
|
||||
- `realtime.toolPolicy: "safe-read-only"`
|
||||
- `realtime.instructions`:简短语音回复,并使用 `openclaw_agent_consult` 获取更深入答案
|
||||
- `realtime.introMessage`:实时桥接连接时的简短语音就绪检查;将它设为 `""` 可静默加入
|
||||
- `realtime.agentId`:用于 `openclaw_agent_consult` 的可选 OpenClaw 智能体 ID;默认值为 `main`
|
||||
- `realtime.instructions`:简短的语音回复,并通过 `openclaw_agent_consult` 获取更深入的答案
|
||||
- `realtime.introMessage`:实时桥接连接时的简短语音就绪检查;将其设置为 `""` 可静默加入
|
||||
- `realtime.agentId`:用于 `openclaw_agent_consult` 的可选 OpenClaw 智能体 ID;默认为 `main`
|
||||
|
||||
可选覆盖项:
|
||||
可选覆盖:
|
||||
|
||||
```json5
|
||||
{
|
||||
@ -865,7 +876,7 @@ export GEMINI_API_KEY=...
|
||||
}
|
||||
```
|
||||
|
||||
同时将 ElevenLabs 用于智能体模式的聆听和发声:
|
||||
ElevenLabs 同时用于智能体模式的聆听和朗读:
|
||||
|
||||
```json5
|
||||
{
|
||||
@ -902,7 +913,7 @@ export GEMINI_API_KEY=...
|
||||
}
|
||||
```
|
||||
|
||||
持久的 Meet 语音来自 `messages.tts.providers.elevenlabs.voiceId`。启用 TTS 模型覆盖时,智能体回复也可以使用按回复设置的 `[[tts:voiceId=... model=eleven_v3]]` 指令,但配置是会议的确定性默认值。加入时,日志应显示 `transcriptionProvider=elevenlabs`,并且每条语音回复都应记录 `provider=elevenlabs model=eleven_v3 voice=<voiceId>`。
|
||||
持久 Meet 语音来自 `messages.tts.providers.elevenlabs.voiceId`。启用 TTS 模型覆盖后,智能体回复也可以使用按回复设置的 `[[tts:voiceId=... model=eleven_v3]]` 指令,但配置是会议的确定性默认值。加入时,日志应显示 `transcriptionProvider=elevenlabs`,且每条语音回复都应记录 `provider=elevenlabs model=eleven_v3 voice=<voiceId>`。
|
||||
|
||||
仅 Twilio 配置:
|
||||
|
||||
@ -919,7 +930,7 @@ export GEMINI_API_KEY=...
|
||||
}
|
||||
```
|
||||
|
||||
`voiceCall.enabled` 默认为 `true`;使用 Twilio 传输协议时,它会将实际的 PSTN 呼叫、DTMF 和介绍问候委托给 Voice Call 插件。Voice Call 会先播放 DTMF 序列,再打开实时媒体流,然后使用保存的介绍文本作为初始实时问候。如果未启用 `voice-call`,Google Meet 仍可校验并记录拨号计划,但无法发起 Twilio 呼叫。
|
||||
`voiceCall.enabled` 默认为 `true`;使用 Twilio 传输时,它会将实际的 PSTN 通话、DTMF 和开场问候委托给 Voice Call 插件。Voice Call 会先播放 DTMF 序列,再打开实时媒体流,然后使用已保存的开场文本作为初始实时问候。如果未启用 `voice-call`,Google Meet 仍可以验证并记录拨号计划,但无法发起 Twilio 通话。
|
||||
|
||||
## 工具
|
||||
|
||||
@ -934,20 +945,20 @@ export GEMINI_API_KEY=...
|
||||
}
|
||||
```
|
||||
|
||||
当 Chrome 在 Gateway 网关主机上运行时,使用 `transport: "chrome"`。当 Chrome 在配对节点(例如 Parallels VM)上运行时,使用 `transport: "chrome-node"`。两种情况下,模型提供商和 `openclaw_agent_consult` 都在 Gateway 网关主机上运行,因此模型凭证保留在那里。使用默认的 `mode: "agent"` 时,实时转录提供商负责聆听,配置的 OpenClaw 智能体生成答案,常规 OpenClaw TTS 将其说进 Meet。想让实时语音模型直接回答时,使用 `mode: "bidi"`。原始的 `mode: "realtime"` 仍作为 `mode: "agent"` 的旧版兼容别名被接受,但不再在智能体工具架构中公开。智能体模式日志会在桥接启动时包含解析后的转录提供商和模型,并在每次合成回复后包含 TTS 提供商、模型、语音、输出格式和采样率。
|
||||
当 Chrome 在 Gateway 网关主机上运行时,使用 `transport: "chrome"`。当 Chrome 在已配对节点(例如 Parallels VM)上运行时,使用 `transport: "chrome-node"`。在这两种情况下,模型提供商和 `openclaw_agent_consult` 都在 Gateway 网关主机上运行,因此模型凭据会保留在那里。使用默认的 `mode: "agent"` 时,实时转写提供商负责聆听,已配置的 OpenClaw 智能体生成答案,常规 OpenClaw TTS 将其读入 Meet。当你希望实时语音模型直接回答时,使用 `mode: "bidi"`。原始 `mode: "realtime"` 仍作为 `mode: "agent"` 的旧版兼容别名被接受,但不再在智能体工具 schema 中公开。智能体模式日志会在桥接启动时包含解析后的转写提供商/模型,并在每次合成回复后包含 TTS 提供商、模型、语音、输出格式和采样率。
|
||||
|
||||
使用 `action: "status"` 列出活动会话或检查会话 ID。使用带有 `sessionId` 和 `message` 的 `action: "speak"` 让实时智能体立即说话。使用 `action: "test_speech"` 创建或复用会话、触发一个已知短语,并在 Chrome 主机可以报告时返回 `inCall` 健康状态。`test_speech` 始终强制使用 `mode: "agent"`;如果要求它在 `mode: "transcribe"` 中运行,它会失败,因为仅观察会话会有意禁止发出语音。它的 `speechOutputVerified` 结果基于本次测试调用期间实时音频输出字节数的增加,因此带有旧音频的复用会话不会计为新的成功语音检查。使用 `action: "leave"` 将会话标记为已结束。
|
||||
使用 `action: "status"` 列出活动会话或检查某个会话 ID。使用带有 `sessionId` 和 `message` 的 `action: "speak"`,让实时智能体立即说话。使用 `action: "test_speech"` 创建或复用会话,触发已知短语,并在 Chrome 主机可以报告时返回 `inCall` 健康状态。`test_speech` 始终强制使用 `mode: "agent"`,如果被要求在 `mode: "transcribe"` 中运行则会失败,因为仅观察会话有意不能发出语音。其 `speechOutputVerified` 结果基于本次测试调用期间实时音频输出字节数是否增加,因此复用的会话中已有的旧音频不算作新的成功语音检查。使用 `action: "leave"` 将会话标记为已结束。
|
||||
|
||||
`status` 会在可用时包含 Chrome 健康状态:
|
||||
|
||||
- `inCall`:Chrome 看起来已进入 Meet 通话
|
||||
- `micMuted`:尽力判断的 Meet 麦克风状态
|
||||
- `manualActionRequired` / `manualActionReason` / `manualActionMessage`:浏览器配置文件需要手动登录、Meet 主持人准入、权限,或浏览器控制修复后,语音才能工作
|
||||
- `speechReady` / `speechBlockedReason` / `speechBlockedMessage`:当前是否允许托管 Chrome 语音。`speechReady: false` 表示 OpenClaw 没有将介绍或测试短语发送到音频桥接。
|
||||
- `inCall`:Chrome 似乎位于 Meet 通话中
|
||||
- `micMuted`:尽力获取的 Meet 麦克风状态
|
||||
- `manualActionRequired` / `manualActionReason` / `manualActionMessage`:浏览器个人资料需要手动登录、Meet 主持人准入、权限或浏览器控制修复后,语音才能工作
|
||||
- `speechReady` / `speechBlockedReason` / `speechBlockedMessage`:托管 Chrome 语音现在是否被允许。`speechReady: false` 表示 OpenClaw 没有将开场白/测试短语发送到音频桥接。
|
||||
- `providerConnected` / `realtimeReady`:实时语音桥接状态
|
||||
- `lastInputAt` / `lastOutputAt`:桥接最近收到或发送音频的时间
|
||||
- `lastInputAt` / `lastOutputAt`:从桥接看到或发送到桥接的最后音频
|
||||
- `audioOutputRouted` / `audioOutputDeviceLabel`:Meet 标签页的媒体输出是否已主动路由到桥接使用的 BlackHole 设备
|
||||
- `lastSuppressedInputAt` / `suppressedInputBytes`:助手播放处于活动状态时被忽略的 local loopback 输入
|
||||
- `lastSuppressedInputAt` / `suppressedInputBytes`:助手播放处于活动状态时被忽略的 loopback 输入
|
||||
|
||||
```json
|
||||
{
|
||||
@ -959,36 +970,36 @@ export GEMINI_API_KEY=...
|
||||
|
||||
## 智能体和 Bidi 模式
|
||||
|
||||
Chrome `agent` 模式针对“我的智能体在会议中”行为进行了优化。实时转录提供商会听取会议音频,最终参与者转录会路由到配置的 OpenClaw 智能体,答案则通过常规 OpenClaw TTS 运行时说出。想让实时语音模型直接回答时,设置 `mode: "bidi"`。相近的最终转录片段会在 consult 之前合并,因此一次发言不会产生多个陈旧的部分答案。排队的助手音频仍在播放时,也会抑制实时输入,并且在智能体 consult 之前会忽略最近类似助手的转录回声,以免 BlackHole local loopback 让智能体回答自己的语音。
|
||||
Chrome `agent` 模式针对“我的智能体在会议中”的行为进行了优化。实时转写提供商会听取会议音频,最终参与者转写会路由到已配置的 OpenClaw 智能体,答案则通过常规 OpenClaw TTS 运行时读出。当你希望实时语音模型直接回答时,设置 `mode: "bidi"`。相邻的最终转写片段会在咨询前合并,因此一个发言轮次不会产生多个过时的部分答案。实时输入还会在队列中的助手音频仍在播放时被抑制,并且最近类似助手的转写回声会在智能体咨询之前被忽略,避免 BlackHole loopback 让智能体回答自己的语音。
|
||||
|
||||
| 模式 | 谁决定答案 | 语音输出路径 | 适用场景 |
|
||||
| 模式 | 谁决定答案 | 语音输出路径 | 使用场景 |
|
||||
| ------- | ----------------------------- | -------------------------------------- | ----------------------------------------------------- |
|
||||
| `agent` | 配置的 OpenClaw 智能体 | 常规 OpenClaw TTS 运行时 | 你想要“我的智能体在会议中”行为 |
|
||||
| `bidi` | 实时语音模型 | 实时语音提供商音频响应 | 你想要最低延迟的对话式语音循环 |
|
||||
| `agent` | 已配置的 OpenClaw 智能体 | 常规 OpenClaw TTS 运行时 | 你希望获得“我的智能体在会议中”的行为 |
|
||||
| `bidi` | 实时语音模型 | 实时语音提供商音频响应 | 你希望获得最低延迟的对话式语音循环 |
|
||||
|
||||
在 `bidi` 模式中,当实时模型需要更深入的推理、当前信息或常规 OpenClaw 工具时,它可以调用 `openclaw_agent_consult`。
|
||||
在 `bidi` 模式下,当实时模型需要更深入推理、当前信息或常规 OpenClaw 工具时,可以调用 `openclaw_agent_consult`。
|
||||
|
||||
consult 工具会在幕后运行常规 OpenClaw 智能体,带上近期会议转录上下文,并返回简洁的语音回答。在 `agent` 模式下,OpenClaw 会将该回答直接发送到 TTS 运行时;在 `bidi` 模式下,实时语音模型可以把 consult 结果说回会议中。它使用与 Voice Call 相同的共享 consult 机制。
|
||||
咨询工具会在幕后使用最近的会议转录上下文运行常规 OpenClaw 智能体,并返回简洁的口头回答。在 `agent` 模式下,OpenClaw 会将该回答直接发送到 TTS 运行时;在 `bidi` 模式下,实时语音模型可以把咨询结果说回会议中。它使用与语音通话相同的共享咨询机制。
|
||||
|
||||
默认情况下,consult 会针对 `main` 智能体运行。当某个 Meet 通道需要 consult 专用的 OpenClaw Agent 工作区、模型默认值、工具策略、记忆和会话历史时,请设置 `realtime.agentId`。
|
||||
默认情况下,咨询会针对 `main` 智能体运行。当某个 Meet 通道需要咨询专用的 OpenClaw 智能体工作区、模型默认值、工具策略、记忆和会话历史时,请设置 `realtime.agentId`。
|
||||
|
||||
智能体模式的 consult 使用按会议划分的 `agent:<id>:subagent:google-meet:<session>` 会话键,因此后续问题可以保留会议上下文,同时继承已配置智能体的正常智能体策略。
|
||||
智能体模式咨询使用按会议划分的 `agent:<id>:subagent:google-meet:<session>` 会话键,因此后续问题可以保留会议上下文,同时从配置的智能体继承常规智能体策略。
|
||||
|
||||
`realtime.toolPolicy` 控制 consult 运行:
|
||||
`realtime.toolPolicy` 控制咨询运行:
|
||||
|
||||
- `safe-read-only`:公开 consult 工具,并将常规智能体限制为 `read`、`web_search`、`web_fetch`、`x_search`、`memory_search` 和 `memory_get`。
|
||||
- `owner`:公开 consult 工具,并允许常规智能体使用正常的智能体工具策略。
|
||||
- `none`:不要向实时语音模型公开 consult 工具。
|
||||
- `safe-read-only`:暴露咨询工具,并将常规智能体限制为 `read`、`web_search`、`web_fetch`、`x_search`、`memory_search` 和 `memory_get`。
|
||||
- `owner`:暴露咨询工具,并允许常规智能体使用普通智能体工具策略。
|
||||
- `none`:不向实时语音模型暴露咨询工具。
|
||||
|
||||
consult 会话键按 Meet 会话限定范围,因此后续 consult 调用可以在同一会议期间复用之前的 consult 上下文。
|
||||
咨询会话键按 Meet 会话限定范围,因此后续咨询调用可以在同一场会议期间复用先前的咨询上下文。
|
||||
|
||||
要在 Chrome 完全加入通话后强制执行一次语音就绪检查:
|
||||
要在 Chrome 完全加入通话后强制执行语音就绪检查:
|
||||
|
||||
```bash
|
||||
openclaw googlemeet speak meet_... "Say exactly: I'm here and listening."
|
||||
```
|
||||
|
||||
完整的加入并发声 smoke:
|
||||
完整的加入并发言冒烟测试:
|
||||
|
||||
```bash
|
||||
openclaw googlemeet test-speech https://meet.google.com/abc-defg-hij \
|
||||
@ -998,7 +1009,7 @@ openclaw googlemeet test-speech https://meet.google.com/abc-defg-hij \
|
||||
|
||||
## 实时测试清单
|
||||
|
||||
在把会议交给无人值守的智能体之前,使用此序列:
|
||||
在把会议交给无人值守智能体之前,请使用以下序列:
|
||||
|
||||
```bash
|
||||
openclaw googlemeet setup
|
||||
@ -1011,12 +1022,12 @@ openclaw googlemeet test-speech https://meet.google.com/abc-defg-hij \
|
||||
预期的 Chrome-node 状态:
|
||||
|
||||
- `googlemeet setup` 全部为绿色。
|
||||
- 当 Chrome-node 是默认传输协议或已固定某个节点时,`googlemeet setup` 包含 `chrome-node-connected`。
|
||||
- 当 Chrome-node 是默认传输协议或固定了某个节点时,`googlemeet setup` 包含 `chrome-node-connected`。
|
||||
- `nodes status` 显示所选节点已连接。
|
||||
- 所选节点同时声明 `googlemeet.chrome` 和 `browser.proxy`。
|
||||
- Meet 标签页加入通话,并且 `test-speech` 返回 Chrome 健康状态,其中 `inCall: true`。
|
||||
- 所选节点同时公布 `googlemeet.chrome` 和 `browser.proxy`。
|
||||
- Meet 标签页加入通话,并且 `test-speech` 返回 Chrome 健康状态,其中包含 `inCall: true`。
|
||||
|
||||
对于 Parallels macOS VM 这样的远程 Chrome 主机,在更新 Gateway 网关或 VM 后,下面是最短的安全检查:
|
||||
对于远程 Chrome 主机,例如 Parallels macOS VM,这是更新 Gateway 网关或 VM 后最短的安全检查:
|
||||
|
||||
```bash
|
||||
openclaw googlemeet setup
|
||||
@ -1027,9 +1038,9 @@ openclaw nodes invoke \
|
||||
--params '{"action":"setup"}'
|
||||
```
|
||||
|
||||
这可以证明 Gateway 网关插件已加载、VM 节点已使用当前令牌连接,并且 Meet 音频桥可用,然后智能体才会打开真实会议标签页。
|
||||
这会证明 Gateway 网关插件已加载、VM 节点已使用当前令牌连接,并且 Meet 音频桥可用,然后智能体才会打开真实会议标签页。
|
||||
|
||||
对于 Twilio smoke,请使用公开电话拨入详情的会议:
|
||||
对于 Twilio 冒烟测试,请使用暴露电话拨入详细信息的会议:
|
||||
|
||||
```bash
|
||||
openclaw googlemeet setup
|
||||
@ -1042,10 +1053,10 @@ openclaw googlemeet join https://meet.google.com/abc-defg-hij \
|
||||
预期的 Twilio 状态:
|
||||
|
||||
- `googlemeet setup` 包含绿色的 `twilio-voice-call-plugin`、`twilio-voice-call-credentials` 和 `twilio-voice-call-webhook` 检查。
|
||||
- Gateway 网关重新加载后,CLI 中可用 `voicecall`。
|
||||
- Gateway 网关重新加载后,`voicecall` 在 CLI 中可用。
|
||||
- 返回的会话包含 `transport: "twilio"` 和 `twilio.voiceCallId`。
|
||||
- `openclaw logs --follow` 显示先提供 DTMF TwiML,再提供实时 TwiML,然后是一个已排队初始问候语的实时桥。
|
||||
- `googlemeet leave <sessionId>` 会挂断委派的语音通话。
|
||||
- `openclaw logs --follow` 显示在实时 TwiML 之前提供了 DTMF TwiML,然后显示一个已排队初始问候的实时桥。
|
||||
- `googlemeet leave <sessionId>` 会挂断委托的语音通话。
|
||||
|
||||
## 故障排除
|
||||
|
||||
@ -1060,7 +1071,7 @@ openclaw googlemeet setup
|
||||
|
||||
如果你刚刚编辑了 `plugins.entries.google-meet`,请重启或重新加载 Gateway 网关。正在运行的智能体只能看到当前 Gateway 网关进程注册的插件工具。
|
||||
|
||||
在非 macOS Gateway 网关主机上,面向智能体的 `google_meet` 工具仍保持可见,但本地 Chrome 回话动作会在到达音频桥之前被阻止。本地 Chrome 回话音频目前依赖 macOS `BlackHole 2ch`,因此 Linux 智能体应使用 `mode: "transcribe"`、Twilio 拨入,或 macOS `chrome-node` 主机,而不是默认的本地 Chrome 智能体路径。
|
||||
在非 macOS Gateway 网关主机上,面向智能体的 `google_meet` 工具仍然可见,但本地 Chrome 回话动作会在到达音频桥之前被阻止。本地 Chrome 回话音频目前依赖 macOS `BlackHole 2ch`,因此 Linux 智能体应使用 `mode: "transcribe"`、Twilio 拨入或 macOS `chrome-node` 主机,而不是默认的本地 Chrome 智能体路径。
|
||||
|
||||
### 没有已连接且支持 Google Meet 的节点
|
||||
|
||||
@ -1081,7 +1092,7 @@ openclaw devices approve <requestId>
|
||||
openclaw nodes status
|
||||
```
|
||||
|
||||
节点必须已连接,并列出 `googlemeet.chrome` 加上 `browser.proxy`。Gateway 网关配置必须允许这些节点命令:
|
||||
节点必须已连接,并列出 `googlemeet.chrome` 以及 `browser.proxy`。Gateway 网关配置必须允许这些节点命令:
|
||||
|
||||
```json5
|
||||
{
|
||||
@ -1104,7 +1115,7 @@ OPENCLAW_ALLOW_INSECURE_PRIVATE_WS=1 \
|
||||
--force
|
||||
```
|
||||
|
||||
然后重新加载节点服务并重新运行:
|
||||
然后重新加载节点服务并再次运行:
|
||||
|
||||
```bash
|
||||
openclaw googlemeet setup
|
||||
@ -1113,30 +1124,30 @@ openclaw nodes status --connected
|
||||
|
||||
### 浏览器打开但智能体无法加入
|
||||
|
||||
对仅观察加入运行 `googlemeet test-listen`,或对实时加入运行 `googlemeet test-speech`,然后检查返回的 Chrome 健康状态。如果任一探测报告 `manualActionRequired: true`,请向操作员显示 `manualActionMessage`,并在浏览器操作完成前停止重试。
|
||||
对仅观察加入运行 `googlemeet test-listen`,或对实时加入运行 `googlemeet test-speech`,然后检查返回的 Chrome 健康状态。如果任一探测报告 `manualActionRequired: true`,请向操作员显示 `manualActionMessage`,并在浏览器动作完成前停止重试。
|
||||
|
||||
常见手动操作:
|
||||
常见手动动作:
|
||||
|
||||
- 登录 Chrome 配置文件。
|
||||
- 从 Meet 主持账号批准访客加入。
|
||||
- 当 Chrome 的原生权限提示出现时,授予 Chrome 麦克风/摄像头权限。
|
||||
- 登录 Chrome 个人资料。
|
||||
- 从 Meet 主持账号准入访客。
|
||||
- 当 Chrome 原生权限提示出现时,授予 Chrome 麦克风/摄像头权限。
|
||||
- 关闭或修复卡住的 Meet 权限对话框。
|
||||
|
||||
不要仅仅因为 Meet 显示“Do you want people to hear you in the meeting?”就报告“未登录”。这是 Meet 的音频选择插页;OpenClaw 会在可用时通过浏览器自动化点击 **Use microphone**,并继续等待真实会议状态。对于仅创建的浏览器回退,OpenClaw 可能会点击 **Continue without microphone**,因为创建 URL 不需要实时音频路径。
|
||||
不要仅因为 Meet 显示 “Do you want people to hear you in the meeting?” 就报告“未登录”。这是 Meet 的音频选择插屏;OpenClaw 会在可用时通过浏览器自动化点击 **Use microphone**,并继续等待真实会议状态。对于仅创建的浏览器回退,OpenClaw 可能会点击 **Continue without microphone**,因为创建 URL 不需要实时音频路径。
|
||||
|
||||
### 会议创建失败
|
||||
|
||||
`googlemeet create` 首先在已配置 OAuth 凭据时使用 Google Meet API `spaces.create` 端点。没有 OAuth 凭据时,它会回退到固定的 Chrome 节点浏览器。请确认:
|
||||
配置 OAuth 凭据时,`googlemeet create` 首先使用 Google Meet API `spaces.create` 端点。没有 OAuth 凭据时,它会回退到固定的 Chrome 节点浏览器。请确认:
|
||||
|
||||
- 对于 API 创建:已配置 `oauth.clientId` 和 `oauth.refreshToken`,或存在匹配的 `OPENCLAW_GOOGLE_MEET_*` 环境变量。
|
||||
- 对于 API 创建:刷新令牌是在添加创建支持之后签发的。较旧的令牌可能缺少 `meetings.space.created` 作用域;请重新运行 `openclaw googlemeet auth login --json` 并更新插件配置。
|
||||
- 对于浏览器回退:`defaultTransport: "chrome-node"` 且 `chromeNode.node` 指向一个已连接、带有 `browser.proxy` 和 `googlemeet.chrome` 的节点。
|
||||
- 对于浏览器回退:该节点上的 OpenClaw Chrome 配置文件已登录 Google,并且可以打开 `https://meet.google.com/new`。
|
||||
- 对于浏览器回退:重试会在打开新标签页之前复用已有的 `https://meet.google.com/new` 或 Google 账号提示标签页。如果智能体超时,请重试工具调用,而不是手动打开另一个 Meet 标签页。
|
||||
- 对于浏览器回退:如果工具返回 `manualActionRequired: true`,请使用返回的 `browser.nodeId`、`browser.targetId`、`browserUrl` 和 `manualActionMessage` 指导操作员。在该操作完成前不要循环重试。
|
||||
- 对于浏览器回退:如果 Meet 显示“Do you want people to hear you in the meeting?”,请保持标签页打开。OpenClaw 应通过浏览器自动化点击 **Use microphone**,或在仅创建回退时点击 **Continue without microphone**,并继续等待生成的 Meet URL。如果无法做到,错误应提及 `meet-audio-choice-required`,而不是 `google-login-required`。
|
||||
- 对于 API 创建:刷新令牌是在添加创建支持之后签发的。较旧的令牌可能缺少 `meetings.space.created` 范围;请重新运行 `openclaw googlemeet auth login --json` 并更新插件配置。
|
||||
- 对于浏览器回退:`defaultTransport: "chrome-node"` 且 `chromeNode.node` 指向一个已连接的节点,该节点具有 `browser.proxy` 和 `googlemeet.chrome`。
|
||||
- 对于浏览器回退:该节点上的 OpenClaw Chrome 个人资料已登录 Google,并且可以打开 `https://meet.google.com/new`。
|
||||
- 对于浏览器回退:重试会在打开新标签页之前复用现有的 `https://meet.google.com/new` 或 Google 账号提示标签页。如果智能体超时,请重试工具调用,而不是手动打开另一个 Meet 标签页。
|
||||
- 对于浏览器回退:如果工具返回 `manualActionRequired: true`,请使用返回的 `browser.nodeId`、`browser.targetId`、`browserUrl` 和 `manualActionMessage` 指导操作员。在该动作完成前,不要循环重试。
|
||||
- 对于浏览器回退:如果 Meet 显示 “Do you want people to hear you in the meeting?”,请让标签页保持打开。OpenClaw 应通过浏览器自动化点击 **Use microphone**,或对于仅创建回退点击 **Continue without microphone**,并继续等待生成的 Meet URL。如果无法做到,错误应提到 `meet-audio-choice-required`,而不是 `google-login-required`。
|
||||
|
||||
### 智能体加入但不说话
|
||||
### 智能体已加入但不说话
|
||||
|
||||
检查实时路径:
|
||||
|
||||
@ -1145,33 +1156,33 @@ openclaw googlemeet setup
|
||||
openclaw googlemeet doctor
|
||||
```
|
||||
|
||||
对正常的 STT -> OpenClaw 智能体 -> TTS 回话路径使用 `mode: "agent"`,或对直接实时语音回退使用 `mode: "bidi"`。`mode: "transcribe"` 会有意不启动回话桥。对于仅观察调试,请在参与者发言后运行 `openclaw googlemeet status --json <session-id>`,并检查 `captioning`、`transcriptLines` 和 `lastCaptionText`。如果 `inCall` 为 true 但 `transcriptLines` 一直为 `0`,可能是 Meet 字幕已禁用、自观察器安装后无人发言、Meet UI 已变化,或该会议语言/账号不支持实时字幕。
|
||||
普通 STT -> OpenClaw 智能体 -> TTS 回话路径请使用 `mode: "agent"`,直接实时语音回退请使用 `mode: "bidi"`。`mode: "transcribe"` 会有意不启动回话桥。对于仅观察调试,请在参与者说话后运行 `openclaw googlemeet status --json <session-id>`,并检查 `captioning`、`transcriptLines` 和 `lastCaptionText`。如果 `inCall` 为 true 但 `transcriptLines` 一直为 `0`,可能是 Meet 字幕已禁用、观察器安装后无人说话、Meet UI 已更改,或该会议语言/账号无法使用实时字幕。
|
||||
|
||||
`googlemeet test-speech` 始终检查实时路径,并报告该次调用是否观察到桥输出字节。如果 `speechOutputVerified` 为 false 且 `speechOutputTimedOut` 为 true,实时提供商可能已接受该话语,但 OpenClaw 没有看到新的输出字节到达 Chrome 音频桥。
|
||||
`googlemeet test-speech` 始终检查实时路径,并报告是否观察到该次调用的桥输出字节。如果 `speechOutputVerified` 为 false 且 `speechOutputTimedOut` 为 true,实时提供商可能已经接受了话语,但 OpenClaw 没有看到新的输出字节到达 Chrome 音频桥。
|
||||
|
||||
还要验证:
|
||||
|
||||
- Gateway 网关主机上可用实时提供商密钥,例如 `OPENAI_API_KEY` 或 `GEMINI_API_KEY`。
|
||||
- Chrome 主机上可见 `BlackHole 2ch`。
|
||||
- Chrome 主机上存在 `sox`。
|
||||
- Gateway 网关主机上有可用的实时提供商密钥,例如 `OPENAI_API_KEY` 或 `GEMINI_API_KEY`。
|
||||
- `BlackHole 2ch` 在 Chrome 主机上可见。
|
||||
- `sox` 存在于 Chrome 主机上。
|
||||
- Meet 麦克风和扬声器通过 OpenClaw 使用的虚拟音频路径路由。对于本地 Chrome 实时加入,`doctor` 应显示 `meet output routed: yes`。
|
||||
|
||||
`googlemeet doctor [session-id]` 会打印会话、节点、通话中状态、手动操作原因、实时提供商连接、`realtimeReady`、音频输入/输出活动、最近音频时间戳、字节计数器和浏览器 URL。需要原始 JSON 时,使用 `googlemeet status [session-id] --json`。需要在不暴露令牌的情况下验证 Google Meet OAuth 刷新时,使用 `googlemeet doctor --oauth`;还需要 Google Meet API 证明时,添加 `--meeting` 或 `--create-space`。
|
||||
`googlemeet doctor [session-id]` 会打印会话、节点、通话中状态、手动动作原因、实时提供商连接、`realtimeReady`、音频输入/输出活动、最新音频时间戳、字节计数器和浏览器 URL。需要原始 JSON 时,请使用 `googlemeet status [session-id] --json`。需要在不暴露令牌的情况下验证 Google Meet OAuth 刷新时,请使用 `googlemeet doctor --oauth`;当你还需要 Google Meet API 证明时,添加 `--meeting` 或 `--create-space`。
|
||||
|
||||
如果智能体超时,而你能看到已经打开的 Meet 标签页,请检查该标签页,而不要打开另一个:
|
||||
如果智能体已超时,而你能看到一个 Meet 标签页已经打开,请检查该标签页,不要再打开另一个:
|
||||
|
||||
```bash
|
||||
openclaw googlemeet recover-tab
|
||||
openclaw googlemeet recover-tab https://meet.google.com/abc-defg-hij
|
||||
```
|
||||
|
||||
等效的工具动作是 `recover_current_tab`。它会聚焦并检查所选传输协议的现有 Meet 标签页。使用 `chrome` 时,它通过 Gateway 网关使用本地浏览器控制;使用 `chrome-node` 时,它使用已配置的 Chrome 节点。它不会打开新标签页或创建新会话;它会报告当前阻塞点,例如登录、准入、权限或音频选择状态。CLI 命令会与已配置的 Gateway 网关通信,因此 Gateway 网关必须正在运行;`chrome-node` 还要求 Chrome 节点已连接。
|
||||
等效的工具动作是 `recover_current_tab`。它会聚焦并检查所选传输协议的现有 Meet 标签页。使用 `chrome` 时,它通过 Gateway 网关使用本地浏览器控制;使用 `chrome-node` 时,它使用配置的 Chrome 节点。它不会打开新标签页或创建新会话;它会报告当前阻塞项,例如登录、准入、权限或音频选择状态。CLI 命令会与配置的 Gateway 网关通信,因此 Gateway 网关必须正在运行;`chrome-node` 还要求 Chrome 节点已连接。
|
||||
|
||||
### Twilio 设置检查失败
|
||||
|
||||
当 `voice-call` 未被允许或未启用时,`twilio-voice-call-plugin` 会失败。将其添加到 `plugins.allow`,启用 `plugins.entries.voice-call`,并重新加载 Gateway 网关。
|
||||
当 `voice-call` 未被允许或未启用时,`twilio-voice-call-plugin` 会失败。将它添加到 `plugins.allow`,启用 `plugins.entries.voice-call`,然后重新加载 Gateway 网关。
|
||||
|
||||
当 Twilio 后端缺少账号 SID、认证令牌或主叫号码时,`twilio-voice-call-credentials` 会失败。在 Gateway 网关主机上设置这些变量:
|
||||
当 Twilio 后端缺少账号 SID、身份验证令牌或主叫号码时,`twilio-voice-call-credentials` 会失败。在 Gateway 网关主机上设置这些值:
|
||||
|
||||
```bash
|
||||
export TWILIO_ACCOUNT_SID=AC...
|
||||
@ -1179,9 +1190,9 @@ export TWILIO_AUTH_TOKEN=...
|
||||
export TWILIO_FROM_NUMBER=+15550001234
|
||||
```
|
||||
|
||||
当 `voice-call` 没有公网 webhook 暴露,或 `publicUrl` 指向 local loopback 或私有网络空间时,`twilio-voice-call-webhook` 会失败。将 `plugins.entries.voice-call.config.publicUrl` 设置为公共提供商 URL,或配置 `voice-call` 隧道/Tailscale 暴露。
|
||||
当 `voice-call` 没有公共 webhook 暴露,或 `publicUrl` 指向 loopback 或私有网络空间时,`twilio-voice-call-webhook` 会失败。将 `plugins.entries.voice-call.config.publicUrl` 设置为公共提供商 URL,或配置 `voice-call` 隧道/Tailscale 暴露。
|
||||
|
||||
Loopback 和私有 URL 不适用于运营商回调。不要将 `localhost`、`127.0.0.1`、`0.0.0.0`、`10.x`、`172.16.x`-`172.31.x`、`192.168.x`、`169.254.x`、`fc00::/7` 或 `fd00::/8` 用作 `publicUrl`。
|
||||
Loopback 和私有 URL 对运营商回调无效。不要使用 `localhost`、`127.0.0.1`、`0.0.0.0`、`10.x`、`172.16.x`-`172.31.x`、`192.168.x`、`169.254.x`、`fc00::/7` 或 `fd00::/8` 作为 `publicUrl`。
|
||||
|
||||
对于稳定的公共 URL:
|
||||
|
||||
@ -1228,13 +1239,13 @@ openclaw voicecall setup
|
||||
openclaw voicecall smoke
|
||||
```
|
||||
|
||||
默认情况下,`voicecall smoke` 仅检查就绪状态。要对特定号码进行试运行:
|
||||
`voicecall smoke` 默认只检查就绪状态。要试运行特定号码:
|
||||
|
||||
```bash
|
||||
openclaw voicecall smoke --to "+15555550123"
|
||||
```
|
||||
|
||||
只有当你有意要发起实时出站通知通话时,才添加 `--yes`:
|
||||
只有在你确实想发起实时外呼通知电话时,才添加 `--yes`:
|
||||
|
||||
```bash
|
||||
openclaw voicecall smoke --to "+15555550123" --yes
|
||||
@ -1251,40 +1262,40 @@ openclaw googlemeet join https://meet.google.com/abc-defg-hij \
|
||||
--dtmf-sequence ww123456#
|
||||
```
|
||||
|
||||
如果提供商需要在输入 PIN 前暂停,请在 `--dtmf-sequence` 中使用前导 `w` 或逗号。
|
||||
如果提供商在输入 PIN 前需要暂停,请在 `--dtmf-sequence` 中使用前导 `w` 或逗号。
|
||||
|
||||
如果电话通话已创建,但 Meet 名单始终未显示拨入参会者:
|
||||
如果电话通话已创建,但 Meet 名单中始终未显示拨入参与者:
|
||||
|
||||
- 运行 `openclaw googlemeet doctor <session-id>`,确认委托的 Twilio 通话 ID、DTMF 是否已排队,以及是否已请求开场问候。
|
||||
- 运行 `openclaw googlemeet doctor <session-id>`,确认委托的 Twilio 通话 ID、DTMF 是否已排队,以及是否请求了开场问候。
|
||||
- 运行 `openclaw voicecall status --call-id <id>`,并确认通话仍处于活动状态。
|
||||
- 运行 `openclaw voicecall tail`,检查 Twilio webhook 是否到达 Gateway 网关。
|
||||
- 运行 `openclaw logs --follow`,查找 Twilio Meet 序列:Google Meet 委托加入,Voice Call 启动电话链路,Google Meet 等待 `voiceCall.dtmfDelayMs`,通过 `voicecall.dtmf` 发送 DTMF,等待 `voiceCall.postDtmfSpeechDelayMs`,然后通过 `voicecall.speak` 请求开场语音。
|
||||
- 重新运行 `openclaw googlemeet setup --transport twilio`;需要绿色设置检查通过,但这不能证明会议 PIN 序列正确。
|
||||
- 确认拨入号码与 PIN 属于同一个 Meet 邀请和地区。
|
||||
- 如果 Meet 接听较慢,或通话转录在发送 DTMF 后仍显示要求输入 PIN 的提示,请增加 `voiceCall.dtmfDelayMs`。
|
||||
- 如果参会者已加入但你听不到问候,请检查 `openclaw logs --follow` 中 DTMF 之后的 `voicecall.speak` 请求,以及媒体流 TTS 播放或 Twilio `<Say>` 回退。如果通话转录仍包含 “enter the meeting PIN”,说明电话链路尚未加入 Meet 房间,因此会议参会者不会听到语音。
|
||||
- 运行 `openclaw logs --follow`,查找 Twilio Meet 序列:Google Meet 委托加入,Voice Call 存储并提供预连接 DTMF TwiML,Voice Call 为 Twilio 通话提供实时 TwiML,然后 Google Meet 使用 `voicecall.speak` 请求开场语音。
|
||||
- 重新运行 `openclaw googlemeet setup --transport twilio`;绿色设置检查是必需的,但不能证明会议 PIN 序列正确。
|
||||
- 确认拨入号码与 PIN 属于同一 Meet 邀请和区域。
|
||||
- 如果 Meet 接听较慢,或者发送预连接 DTMF 后通话转录仍显示要求输入 PIN 的提示,请将 `voiceCall.dtmfDelayMs` 从默认的 12 秒调高。
|
||||
- 如果参与者已加入但你听不到问候,请在 `openclaw logs --follow` 中检查 DTMF 之后的 `voicecall.speak` 请求,以及媒体流 TTS 播放或 Twilio `<Say>` 回退。如果通话转录仍包含 “enter the meeting PIN”,则电话线路尚未加入 Meet 房间,因此会议参与者不会听到语音。
|
||||
|
||||
如果 webhook 未到达,请先调试 Voice Call 插件:提供商必须能够访问 `plugins.entries.voice-call.config.publicUrl` 或已配置的隧道。参见[语音通话故障排除](/zh-CN/plugins/voice-call#troubleshooting)。
|
||||
如果 webhook 未到达,请先调试 Voice Call 插件:提供商必须能够访问 `plugins.entries.voice-call.config.publicUrl` 或配置的隧道。请参阅 [Voice Call 故障排除](/zh-CN/plugins/voice-call#troubleshooting)。
|
||||
|
||||
## 备注
|
||||
|
||||
Google Meet 的官方媒体 API 以接收为主,因此向 Meet 通话中说话仍需要一条参会者路径。此插件让该边界保持可见:Chrome 处理浏览器参会和本地音频路由;Twilio 处理电话拨入参会。
|
||||
Google Meet 的官方媒体 API 以接收为主,因此要向 Meet 通话中讲话,仍然需要一条参与者路径。此插件让这个边界保持清晰可见:Chrome 负责浏览器参与和本地音频路由;Twilio 负责电话拨入参与。
|
||||
|
||||
Chrome 回话模式需要 `BlackHole 2ch`,并搭配以下任一项:
|
||||
Chrome 回话模式需要 `BlackHole 2ch`,并且还需要以下任一项:
|
||||
|
||||
- `chrome.audioInputCommand` 加 `chrome.audioOutputCommand`:OpenClaw 拥有桥接,并在这些命令与所选提供商之间以 `chrome.audioFormat` 传输音频。智能体模式使用实时转录加常规 TTS;bidi 模式使用实时语音提供商。默认 Chrome 路径是 24 kHz PCM16,并使用 `chrome.audioBufferBytes: 4096`;8 kHz G.711 mu-law 仍可用于旧版命令对。
|
||||
- `chrome.audioBridgeCommand`:外部桥接命令拥有整个本地音频路径,并且必须在启动或验证其守护进程后退出。这仅对 `bidi` 有效,因为 `agent` 模式需要直接访问命令对以用于 TTS。
|
||||
- `chrome.audioInputCommand` 加 `chrome.audioOutputCommand`:OpenClaw 拥有该桥接,并在这些命令与所选提供商之间以 `chrome.audioFormat` 管道传输音频。智能体模式使用实时转录加常规 TTS;bidi 模式使用实时语音提供商。默认 Chrome 路径是 24 kHz PCM16,`chrome.audioBufferBytes: 4096`;8 kHz G.711 mu-law 仍可用于旧版命令对。
|
||||
- `chrome.audioBridgeCommand`:外部桥接命令拥有整个本地音频路径,并且必须在启动或验证其守护进程后退出。这只适用于 `bidi`,因为 `agent` 模式需要直接访问命令对来执行 TTS。
|
||||
|
||||
当智能体在智能体模式下调用 `google_meet` 工具时,会议顾问会话会在回答参会者语音前 fork 调用方当前的转录。Meet 会话仍保持独立(`agent:<agentId>:subagent:google-meet:<sessionId>`),因此会议后续跟进不会直接改变调用方转录。
|
||||
当智能体在智能体模式中调用 `google_meet` 工具时,会议顾问会话会在回答参与者语音之前分叉调用者的当前转录。Meet 会话仍保持独立(`agent:<agentId>:subagent:google-meet:<sessionId>`),因此会议后续消息不会直接改变调用者转录。
|
||||
|
||||
为了获得干净的双工音频,请将 Meet 输出和 Meet 麦克风路由到不同的虚拟设备,或路由到 Loopback 风格的虚拟设备图。单个共享 BlackHole 设备可能会把其他参会者的声音回声回通话中。
|
||||
为了获得干净的双工音频,请通过单独的虚拟设备或 Loopback 风格的虚拟设备图来路由 Meet 输出和 Meet 麦克风。单个共享 BlackHole 设备可能会把其他参与者的声音回传到通话中。
|
||||
|
||||
使用命令对 Chrome 桥接时,`chrome.bargeInInputCommand` 可以监听单独的本地麦克风,并在真人开始说话时清除助手播放。即使共享的 BlackHole loopback 输入在助手播放期间被临时抑制,这也能让真人语音优先于助手输出。与 `chrome.audioInputCommand` 和 `chrome.audioOutputCommand` 一样,它是由操作者配置的本地命令。请使用明确可信的命令路径或参数列表,不要将其指向不受信任位置的脚本。
|
||||
使用命令对 Chrome 桥接时,`chrome.bargeInInputCommand` 可以监听单独的本地麦克风,并在真人开始讲话时清除助手播放。这样即使共享的 BlackHole loopback 输入在助手播放期间被暂时抑制,也能让真人语音优先于助手输出。和 `chrome.audioInputCommand`、`chrome.audioOutputCommand` 一样,它是由操作员配置的本地命令。请使用明确可信的命令路径或参数列表,不要将其指向不可信位置中的脚本。
|
||||
|
||||
`googlemeet speak` 会触发 Chrome 会话的活动回话音频桥接。`googlemeet leave` 会停止该桥接。对于通过 Voice Call 插件委托的 Twilio 会话,`leave` 还会挂断底层语音通话。当你还想关闭由 API 管理空间中的活动 Google Meet 会议时,请使用 `googlemeet end-active-conference`。
|
||||
`googlemeet speak` 会触发 Chrome 会话的活动回话音频桥接。`googlemeet leave` 会停止该桥接。对于通过 Voice Call 插件委托的 Twilio 会话,`leave` 也会挂断底层语音通话。如果你还想关闭 API 托管空间中的活动 Google Meet 会议,请使用 `googlemeet end-active-conference`。
|
||||
|
||||
## 相关
|
||||
## 相关内容
|
||||
|
||||
- [Voice Call 插件](/zh-CN/plugins/voice-call)
|
||||
- [通话模式](/zh-CN/nodes/talk)
|
||||
- [Talk 模式](/zh-CN/nodes/talk)
|
||||
- [构建插件](/zh-CN/plugins/building-plugins)
|
||||
|
||||
@ -1,26 +1,26 @@
|
||||
---
|
||||
read_when:
|
||||
- 你想从 OpenClaw 发起外拨语音通话
|
||||
- 你正在配置或开发语音通话插件
|
||||
- 你正在配置或开发 voice-call 插件
|
||||
- 你需要在电话通信中使用实时语音或流式转录
|
||||
sidebarTitle: Voice call
|
||||
summary: 通过 Twilio、Telnyx 或 Plivo 发起外呼并接听呼入语音通话,可选择启用实时语音和流式转写
|
||||
summary: 通过 Twilio、Telnyx 或 Plivo 拨打出站语音电话并接听入站语音电话,可选启用实时语音和流式转录
|
||||
title: 语音通话插件
|
||||
x-i18n:
|
||||
generated_at: "2026-05-05T20:01:14Z"
|
||||
generated_at: "2026-05-06T08:29:35Z"
|
||||
model: gpt-5.5
|
||||
provider: openai
|
||||
source_hash: cc608883e8f36cdd2075c3a8c7ab002d89d0616e119f488437bd18c995f066f9
|
||||
source_hash: aba168696481ef0cc3c55ac8fd8be4382cb36889a12ed6d881fe6b29a2b0a54c
|
||||
source_path: plugins/voice-call.md
|
||||
workflow: 16
|
||||
---
|
||||
|
||||
OpenClaw 的语音通话通过一个插件实现。支持外拨通知、多轮对话、全双工实时语音、流式转录,以及带允许列表策略的来电。
|
||||
OpenClaw 的语音通话通过插件提供。支持出站通知、多轮对话、全双工实时语音、流式转录,以及带有允许列表策略的入站通话。
|
||||
|
||||
**当前提供商:** `twilio`(Programmable Voice + Media Streams)、`telnyx`(Call Control v2)、`plivo`(Voice API + XML transfer + GetInput speech)、`mock`(开发/无网络)。
|
||||
|
||||
<Note>
|
||||
语音通话插件在 **Gateway 网关进程内** 运行。如果你使用远程 Gateway 网关,请在运行 Gateway 网关的机器上安装并配置该插件,然后重启 Gateway 网关以加载它。
|
||||
Voice Call 插件在 **Gateway 网关进程内**运行。如果你使用远程 Gateway 网关,请在运行 Gateway 网关的机器上安装并配置该插件,然后重启 Gateway 网关以加载它。
|
||||
</Note>
|
||||
|
||||
## 快速开始
|
||||
@ -42,21 +42,21 @@ OpenClaw 的语音通话通过一个插件实现。支持外拨通知、多轮
|
||||
</Tab>
|
||||
</Tabs>
|
||||
|
||||
使用裸包名以跟随当前官方发布标签。只有在需要可复现安装时,才固定到精确版本。
|
||||
使用裸包以跟随当前官方发布标签。仅在需要可复现安装时固定精确版本。
|
||||
|
||||
随后重启 Gateway 网关,以便加载插件。
|
||||
随后重启 Gateway 网关,以便插件加载。
|
||||
|
||||
</Step>
|
||||
<Step title="配置提供商和 webhook">
|
||||
在 `plugins.entries.voice-call.config` 下设置配置(完整结构见下方
|
||||
[配置](#configuration))。至少需要:`provider`、提供商凭证、`fromNumber`,以及一个公网可访问的 webhook URL。
|
||||
在 `plugins.entries.voice-call.config` 下设置配置(完整结构见下方的[配置](#configuration))。至少需要:
|
||||
`provider`、提供商凭证、`fromNumber`,以及一个可公开访问的 webhook URL。
|
||||
</Step>
|
||||
<Step title="验证设置">
|
||||
```bash
|
||||
openclaw voicecall setup
|
||||
```
|
||||
|
||||
默认输出便于在聊天日志和终端中阅读。它会检查插件启用状态、提供商凭证、webhook 暴露情况,以及是否只启用了一个音频模式(`streaming` 或 `realtime`)。脚本可使用 `--json`。
|
||||
默认输出在聊天日志和终端中都易于阅读。它会检查插件是否启用、提供商凭证、webhook 暴露情况,以及是否只有一种音频模式(`streaming` 或 `realtime`)处于启用状态。脚本可使用 `--json`。
|
||||
|
||||
</Step>
|
||||
<Step title="冒烟测试">
|
||||
@ -65,7 +65,7 @@ OpenClaw 的语音通话通过一个插件实现。支持外拨通知、多轮
|
||||
openclaw voicecall smoke --to "+15555550123"
|
||||
```
|
||||
|
||||
两者默认都是空运行。添加 `--yes` 才会实际发起一个简短的外拨通知电话:
|
||||
默认情况下两者都是空运行。添加 `--yes` 才会实际拨出一个简短的出站通知通话:
|
||||
|
||||
```bash
|
||||
openclaw voicecall smoke --to "+15555550123" --yes
|
||||
@ -75,15 +75,15 @@ OpenClaw 的语音通话通过一个插件实现。支持外拨通知、多轮
|
||||
</Steps>
|
||||
|
||||
<Warning>
|
||||
对于 Twilio、Telnyx 和 Plivo,设置必须解析到一个**公开的 webhook URL**。如果 `publicUrl`、隧道 URL、Tailscale URL 或 serve fallback 解析到 loopback 或私有网络空间,设置会失败,而不是启动一个无法接收运营商 webhook 的提供商。
|
||||
对于 Twilio、Telnyx 和 Plivo,设置必须解析为一个**公共 webhook URL**。如果 `publicUrl`、隧道 URL、Tailscale URL 或 serve 回退解析到 loopback 或私有网络空间,设置会失败,而不是启动一个无法接收运营商 webhook 的提供商。
|
||||
</Warning>
|
||||
|
||||
## 配置
|
||||
|
||||
如果 `enabled: true`,但所选提供商缺少凭证,Gateway 网关启动时会记录一条设置未完成警告,其中包含缺失的键名,并跳过启动运行时。命令、RPC 调用和智能体工具在使用时仍会返回确切缺失的提供商配置。
|
||||
如果 `enabled: true` 但所选提供商缺少凭证,Gateway 网关启动会记录一条设置未完成警告,包含缺失键名,并跳过启动运行时。命令、RPC 调用和智能体工具在使用时仍会返回确切缺失的提供商配置。
|
||||
|
||||
<Note>
|
||||
语音通话凭证支持 SecretRefs。`plugins.entries.voice-call.config.twilio.authToken`、`plugins.entries.voice-call.config.realtime.providers.*.apiKey`、`plugins.entries.voice-call.config.streaming.providers.*.apiKey` 和 `plugins.entries.voice-call.config.tts.providers.*.apiKey` 会通过标准 SecretRef surface 解析;参见 [SecretRef 凭证 surface](/zh-CN/reference/secretref-credential-surface)。
|
||||
语音通话凭证接受 SecretRefs。`plugins.entries.voice-call.config.twilio.authToken`、`plugins.entries.voice-call.config.realtime.providers.*.apiKey`、`plugins.entries.voice-call.config.streaming.providers.*.apiKey` 和 `plugins.entries.voice-call.config.tts.providers.*.apiKey` 会通过标准 SecretRef 表面解析;请参阅 [SecretRef 凭证表面](/zh-CN/reference/secretref-credential-surface)。
|
||||
</Note>
|
||||
|
||||
```json5
|
||||
@ -157,26 +157,26 @@ OpenClaw 的语音通话通过一个插件实现。支持外拨通知、多轮
|
||||
|
||||
<AccordionGroup>
|
||||
<Accordion title="提供商暴露和安全说明">
|
||||
- Twilio、Telnyx 和 Plivo 都要求 webhook URL **公网可访问**。
|
||||
- `mock` 是本地开发提供商(无网络调用)。
|
||||
- Telnyx 需要 `telnyx.publicKey`(或 `TELNYX_PUBLIC_KEY`),除非 `skipSignatureVerification` 为 true。
|
||||
- Twilio、Telnyx 和 Plivo 都需要一个**可公开访问**的 webhook URL。
|
||||
- `mock` 是本地开发提供商(不会发起网络调用)。
|
||||
- 除非 `skipSignatureVerification` 为 true,否则 Telnyx 需要 `telnyx.publicKey`(或 `TELNYX_PUBLIC_KEY`)。
|
||||
- `skipSignatureVerification` 仅用于本地测试。
|
||||
- 在 ngrok 免费层级上,将 `publicUrl` 设置为确切的 ngrok URL;签名验证始终强制执行。
|
||||
- `tunnel.allowNgrokFreeTierLoopbackBypass: true` 只在 `tunnel.provider="ngrok"` 且 `serve.bind` 为 loopback(ngrok 本地代理)时,允许签名无效的 Twilio webhook。仅限本地开发。
|
||||
- Ngrok 免费层级 URL 可能会变化或添加中间页行为;如果 `publicUrl` 漂移,Twilio 签名会失败。生产环境:优先使用稳定域名或 Tailscale funnel。
|
||||
- 在 ngrok 免费层上,将 `publicUrl` 设置为确切的 ngrok URL;签名验证始终强制执行。
|
||||
- `tunnel.allowNgrokFreeTierLoopbackBypass: true` 仅在 `tunnel.provider="ngrok"` 且 `serve.bind` 为 loopback(ngrok 本地代理)时,允许带有无效签名的 Twilio webhook。仅限本地开发。
|
||||
- Ngrok 免费层 URL 可能会变化或增加插页行为;如果 `publicUrl` 漂移,Twilio 签名会失败。生产环境:优先使用稳定域名或 Tailscale funnel。
|
||||
|
||||
</Accordion>
|
||||
<Accordion title="流式连接上限">
|
||||
- `streaming.preStartTimeoutMs` 会关闭从未发送有效 `start` 帧的套接字。
|
||||
- `streaming.maxPendingConnections` 限制未经认证的预启动套接字总数。
|
||||
- `streaming.maxPendingConnectionsPerIp` 限制每个来源 IP 未经认证的预启动套接字数量。
|
||||
- `streaming.maxConnections` 限制打开的媒体流套接字总数(待处理 + 活跃)。
|
||||
- `streaming.preStartTimeoutMs` 会关闭从未发送有效 `start` 帧的 socket。
|
||||
- `streaming.maxPendingConnections` 限制未认证的预启动 socket 总数。
|
||||
- `streaming.maxPendingConnectionsPerIp` 限制每个源 IP 的未认证预启动 socket 数量。
|
||||
- `streaming.maxConnections` 限制打开的媒体流 socket 总数(待处理 + 活跃)。
|
||||
|
||||
</Accordion>
|
||||
<Accordion title="旧版配置迁移">
|
||||
使用 `provider: "log"`、`twilio.from` 或旧版 `streaming.*` OpenAI 键的旧配置会由 `openclaw doctor --fix` 重写。运行时 fallback 目前仍接受旧的语音通话键,但重写路径是 `openclaw doctor --fix`,兼容 shim 是临时的。
|
||||
使用 `provider: "log"`、`twilio.from` 或旧版 `streaming.*` OpenAI 键的旧配置会由 `openclaw doctor --fix` 重写。运行时回退目前仍接受旧的语音通话键,但重写路径是 `openclaw doctor --fix`,兼容 shim 是临时的。
|
||||
|
||||
自动迁移的流式键:
|
||||
自动迁移的流式传输键:
|
||||
|
||||
- `streaming.sttProvider` → `streaming.provider`
|
||||
- `streaming.openaiApiKey` → `streaming.providers.openai.apiKey`
|
||||
@ -189,50 +189,50 @@ OpenClaw 的语音通话通过一个插件实现。支持外拨通知、多轮
|
||||
|
||||
## 会话范围
|
||||
|
||||
默认情况下,语音通话使用 `sessionScope: "per-phone"`,因此来自同一来电方的重复通话会保留对话记忆。当每个运营商通话都应以全新上下文开始时,例如接待、预订、IVR,或同一电话号码可能代表不同会议的 Google Meet 桥接流程,请设置 `sessionScope: "per-call"`。
|
||||
默认情况下,Voice Call 使用 `sessionScope: "per-phone"`,因此同一来电者重复来电会保留对话记忆。当每次运营商通话都应以全新上下文开始时,请设置 `sessionScope: "per-call"`,例如前台接待、预订、IVR,或 Google Meet 桥接流程,其中同一个电话号码可能代表不同会议。
|
||||
|
||||
## 实时语音对话
|
||||
|
||||
`realtime` 为实时通话音频选择一个全双工实时语音提供商。它与 `streaming` 分离,后者只会将音频转发给实时转录提供商。
|
||||
`realtime` 会为实时通话音频选择一个全双工实时语音提供商。它与 `streaming` 分开,后者只会将音频转发给实时转录提供商。
|
||||
|
||||
<Warning>
|
||||
`realtime.enabled` 不能与 `streaming.enabled` 组合使用。每次通话只能选择一种音频模式。
|
||||
`realtime.enabled` 不能与 `streaming.enabled` 组合使用。每次通话选择一种音频模式。
|
||||
</Warning>
|
||||
|
||||
当前运行时行为:
|
||||
|
||||
- Twilio Media Streams 支持 `realtime.enabled`。
|
||||
- `realtime.provider` 是可选的。如果未设置,语音通话会使用第一个已注册的实时语音提供商。
|
||||
- `realtime.provider` 是可选的。如果未设置,Voice Call 会使用第一个注册的实时语音提供商。
|
||||
- 内置实时语音提供商:Google Gemini Live(`google`)和 OpenAI(`openai`),由各自的提供商插件注册。
|
||||
- 提供商拥有的原始配置位于 `realtime.providers.<providerId>` 下。
|
||||
- 语音通话默认暴露共享的 `openclaw_agent_consult` 实时工具。当来电方请求更深入的推理、当前信息或普通 OpenClaw 工具时,实时模型可以调用它。
|
||||
- `realtime.consultPolicy` 可选择性地添加指导,说明实时模型应在何时调用 `openclaw_agent_consult`。
|
||||
- `realtime.agentContext.enabled` 默认关闭。启用后,语音通话会在会话设置时将有界的智能体身份、系统提示覆盖,以及所选工作区文件胶囊注入实时提供商指令。
|
||||
- `realtime.fastContext.enabled` 默认关闭。启用后,语音通话会先搜索已索引的记忆/会话上下文以回答 consult 问题,并在 `realtime.fastContext.timeoutMs` 内将这些片段返回给实时模型;只有在 `realtime.fastContext.fallbackToConsult` 为 true 时,才回退到完整 consult 智能体。
|
||||
- 如果 `realtime.provider` 指向未注册的提供商,或者根本没有注册实时语音提供商,语音通话会记录一条警告并跳过实时媒体,而不是让整个插件失败。
|
||||
- Consult 会话键会在可用时复用已存储的通话会话,然后回退到配置的 `sessionScope`(默认 `per-phone`,隔离通话则为 `per-call`)。
|
||||
- Voice Call 默认暴露共享的 `openclaw_agent_consult` 实时工具。当来电者请求更深入的推理、当前信息或常规 OpenClaw 工具时,实时模型可以调用它。
|
||||
- `realtime.consultPolicy` 可选地添加指导,说明实时模型何时应调用 `openclaw_agent_consult`。
|
||||
- `realtime.agentContext.enabled` 默认关闭。启用后,Voice Call 会在会话设置时向实时提供商指令中注入有边界的智能体身份、系统提示覆盖,以及选定的工作区文件胶囊。
|
||||
- `realtime.fastContext.enabled` 默认关闭。启用后,Voice Call 会先搜索已索引的记忆/会话上下文来回答 consult 问题,并在 `realtime.fastContext.timeoutMs` 内将这些片段返回给实时模型;仅当 `realtime.fastContext.fallbackToConsult` 为 true 时,才回退到完整的 consult 智能体。
|
||||
- 如果 `realtime.provider` 指向未注册的提供商,或者根本没有注册任何实时语音提供商,Voice Call 会记录警告并跳过实时媒体,而不是让整个插件失败。
|
||||
- Consult 会话键会在可用时复用已存储的通话会话,然后回退到配置的 `sessionScope`(默认 `per-phone`,隔离通话为 `per-call`)。
|
||||
|
||||
### 工具策略
|
||||
|
||||
`realtime.toolPolicy` 控制 consult 运行:
|
||||
|
||||
| 策略 | 行为 |
|
||||
| 策略 | 行为 |
|
||||
| ---------------- | ---------------------------------------------------------------------------------------------------------------------------------------- |
|
||||
| `safe-read-only` | 暴露 consult 工具,并将常规智能体限制为 `read`、`web_search`、`web_fetch`、`x_search`、`memory_search` 和 `memory_get`。 |
|
||||
| `owner` | 暴露 consult 工具,并允许常规智能体使用普通智能体工具策略。 |
|
||||
| `none` | 不暴露 consult 工具。自定义 `realtime.tools` 仍会传递给实时提供商。 |
|
||||
| `safe-read-only` | 暴露 consult 工具,并将常规智能体限制为 `read`、`web_search`、`web_fetch`、`x_search`、`memory_search` 和 `memory_get`。 |
|
||||
| `owner` | 暴露 consult 工具,并允许常规智能体使用正常的智能体工具策略。 |
|
||||
| `none` | 不暴露 consult 工具。自定义 `realtime.tools` 仍会透传给实时提供商。 |
|
||||
|
||||
`realtime.consultPolicy` 只控制实时模型指令:
|
||||
`realtime.consultPolicy` 仅控制实时模型指令:
|
||||
|
||||
| 策略 | 指导 |
|
||||
| ------------- | ----------------------------------------------------------------------------------------------- |
|
||||
| `auto` | 保留默认提示,并让提供商决定何时调用 consult 工具。 |
|
||||
| `substantive` | 直接回答简单的对话衔接内容,并在事实、记忆、工具或上下文相关回答前进行 consult。 |
|
||||
| `always` | 在每个实质性回答前进行 consult。 |
|
||||
| 策略 | 指导 |
|
||||
| ------------- | -------------------------------------------------------------------------------------------- |
|
||||
| `auto` | 保留默认提示,并让提供商决定何时调用 consult 工具。 |
|
||||
| `substantive` | 直接回答简单的对话衔接内容,并在涉及事实、记忆、工具或上下文前进行 consult。 |
|
||||
| `always` | 在每个实质性回答前进行 consult。 |
|
||||
|
||||
### 智能体语音上下文
|
||||
|
||||
当语音桥接需要听起来像配置的 OpenClaw 智能体,但又不想在普通轮次上支付完整 agent-consult 往返成本时,启用 `realtime.agentContext`。上下文胶囊会在创建实时会话时添加一次,因此不会增加每轮延迟。对 `openclaw_agent_consult` 的调用仍会运行完整的 OpenClaw 智能体,并应用于工具工作、当前信息、记忆查找或工作区状态。
|
||||
当语音桥接应听起来像已配置的 OpenClaw 智能体,而普通轮次又不想支付完整智能体 consult 往返成本时,请启用 `realtime.agentContext`。上下文胶囊会在创建实时会话时添加一次,因此不会增加每轮延迟。对 `openclaw_agent_consult` 的调用仍会运行完整的 OpenClaw 智能体,并应用于工具工作、当前信息、记忆查找或工作区状态。
|
||||
|
||||
```json5
|
||||
{
|
||||
@ -267,11 +267,11 @@ OpenClaw 的语音通话通过一个插件实现。支持外拨通知、多轮
|
||||
<Tabs>
|
||||
<Tab title="Google Gemini Live">
|
||||
默认值:API key 来自 `realtime.providers.google.apiKey`、
|
||||
`GEMINI_API_KEY` 或 `GOOGLE_GENERATIVE_AI_API_KEY`;模型为
|
||||
`gemini-2.5-flash-native-audio-preview-12-2025`;语音为 `Kore`。
|
||||
对于更长、可重新连接的通话,`sessionResumption` 和 `contextWindowCompression`
|
||||
`GEMINI_API_KEY` 或 `GOOGLE_GENERATIVE_AI_API_KEY`;模型
|
||||
`gemini-2.5-flash-native-audio-preview-12-2025`;语音 `Kore`。
|
||||
对于更长、可重连的通话,`sessionResumption` 和 `contextWindowCompression`
|
||||
默认开启。使用 `silenceDurationMs`、`startSensitivity` 和
|
||||
`endSensitivity` 调整电话音频上的更快轮次切换。
|
||||
`endSensitivity` 来针对电话音频调优更快的轮次切换。
|
||||
|
||||
```json5
|
||||
{
|
||||
@ -336,22 +336,22 @@ OpenClaw 的语音通话通过一个插件实现。支持外拨通知、多轮
|
||||
|
||||
## 流式转录
|
||||
|
||||
`streaming` 会为实时通话音频选择一个实时转录提供商。
|
||||
`streaming` 为实时通话音频选择实时转录提供商。
|
||||
|
||||
当前运行时行为:
|
||||
|
||||
- `streaming.provider` 是可选的。如果未设置,Voice Call 会使用第一个已注册的实时转录提供商。
|
||||
- 内置实时转录提供商:Deepgram(`deepgram`)、ElevenLabs(`elevenlabs`)、Mistral(`mistral`)、OpenAI(`openai`)和 xAI(`xai`),由它们的提供商插件注册。
|
||||
- 内置实时转录提供商:Deepgram(`deepgram`)、ElevenLabs(`elevenlabs`)、Mistral(`mistral`)、OpenAI(`openai`)和 xAI(`xai`),由各自的提供商插件注册。
|
||||
- 提供商拥有的原始配置位于 `streaming.providers.<providerId>` 下。
|
||||
- Twilio 发送已接受的流 `start` 消息后,Voice Call 会立即注册该流,在提供商连接期间通过转录提供商排队入站媒体,并且仅在实时转录就绪后启动初始问候。
|
||||
- 如果 `streaming.provider` 指向未注册的提供商,或没有任何提供商已注册,Voice Call 会记录警告并跳过媒体流式传输,而不是让整个插件失败。
|
||||
- Twilio 发送已接受的流 `start` 消息后,Voice Call 会立即注册该流,在提供商连接期间通过转录提供商排队入站媒体,并且只会在实时转录就绪后才开始初始问候。
|
||||
- 如果 `streaming.provider` 指向未注册的提供商,或者没有任何提供商已注册,Voice Call 会记录警告并跳过媒体流式传输,而不是让整个插件失败。
|
||||
|
||||
### 流式提供商示例
|
||||
|
||||
<Tabs>
|
||||
<Tab title="OpenAI">
|
||||
默认值:API key 为 `streaming.providers.openai.apiKey` 或
|
||||
`OPENAI_API_KEY`;模型为 `gpt-4o-transcribe`;`silenceDurationMs: 800`;
|
||||
默认值:API key `streaming.providers.openai.apiKey` 或
|
||||
`OPENAI_API_KEY`;模型 `gpt-4o-transcribe`;`silenceDurationMs: 800`;
|
||||
`vadThreshold: 0.5`。
|
||||
|
||||
```json5
|
||||
@ -382,8 +382,8 @@ OpenClaw 的语音通话通过一个插件实现。支持外拨通知、多轮
|
||||
|
||||
</Tab>
|
||||
<Tab title="xAI">
|
||||
默认值:API key 为 `streaming.providers.xai.apiKey` 或 `XAI_API_KEY`;
|
||||
端点为 `wss://api.x.ai/v1/stt`;编码为 `mulaw`;采样率为 `8000`;
|
||||
默认值:API key `streaming.providers.xai.apiKey` 或 `XAI_API_KEY`;
|
||||
端点 `wss://api.x.ai/v1/stt`;编码 `mulaw`;采样率 `8000`;
|
||||
`endpointingMs: 800`;`interimResults: true`。
|
||||
|
||||
```json5
|
||||
@ -414,9 +414,9 @@ OpenClaw 的语音通话通过一个插件实现。支持外拨通知、多轮
|
||||
</Tab>
|
||||
</Tabs>
|
||||
|
||||
## 通话的 TTS
|
||||
## 通话 TTS
|
||||
|
||||
Voice Call 使用核心 `messages.tts` 配置进行通话中的流式
|
||||
Voice Call 使用核心 `messages.tts` 配置进行通话上的流式
|
||||
语音。你可以在插件配置下用**相同结构**覆盖它——它会与
|
||||
`messages.tts` 深度合并。
|
||||
|
||||
@ -436,16 +436,16 @@ Voice Call 使用核心 `messages.tts` 配置进行通话中的流式
|
||||
|
||||
<Warning>
|
||||
**语音通话会忽略 Microsoft speech。** 电话音频需要 PCM;
|
||||
当前 Microsoft 传输不会暴露电话 PCM 输出。
|
||||
当前 Microsoft 传输不公开电话 PCM 输出。
|
||||
</Warning>
|
||||
|
||||
行为说明:
|
||||
|
||||
- 插件配置中的旧版 `tts.<provider>` 键(`openai`、`elevenlabs`、`microsoft`、`edge`)会由 `openclaw doctor --fix` 修复;提交的配置应使用 `tts.providers.<provider>`。
|
||||
- 启用 Twilio 媒体流式传输时会使用核心 TTS;否则通话会回退到提供商原生语音。
|
||||
- 如果 Twilio 媒体流已处于活动状态,Voice Call 不会回退到 TwiML `<Say>`。如果该状态下电话 TTS 不可用,播放请求会失败,而不是混合两条播放路径。
|
||||
- 当电话 TTS 回退到次级提供商时,Voice Call 会记录包含提供商链(`from`、`to`、`attempts`)的警告,便于调试。
|
||||
- 当 Twilio 打断或流拆除清空待处理 TTS 队列时,已排队的播放请求会结算,而不是让呼叫者一直等待播放完成。
|
||||
- 如果 Twilio 媒体流已经处于活动状态,Voice Call 不会回退到 TwiML `<Say>`。如果在该状态下电话 TTS 不可用,播放请求会失败,而不是混用两条播放路径。
|
||||
- 当电话 TTS 回退到辅助提供商时,Voice Call 会记录一条警告,其中包含提供商链(`from`、`to`、`attempts`),用于调试。
|
||||
- 当 Twilio 插话或流拆除清空待处理 TTS 队列时,已排队的播放请求会完成结算,而不是让等待播放完成的来电者一直挂起。
|
||||
|
||||
### TTS 示例
|
||||
|
||||
@ -514,7 +514,7 @@ Voice Call 使用核心 `messages.tts` 配置进行通话中的流式
|
||||
|
||||
## 入站通话
|
||||
|
||||
入站策略默认值为 `disabled`。要启用入站通话,请设置:
|
||||
入站策略默认值为 `disabled`。要启用入站呼叫,请设置:
|
||||
|
||||
```json5
|
||||
{
|
||||
@ -525,33 +525,32 @@ Voice Call 使用核心 `messages.tts` 配置进行通话中的流式
|
||||
```
|
||||
|
||||
<Warning>
|
||||
`inboundPolicy: "allowlist"` 是低保证级别的来电显示筛选。该
|
||||
`inboundPolicy: "allowlist"` 是低保证程度的来电显示号码筛选。该
|
||||
插件会规范化提供商提供的 `From` 值,并将其与
|
||||
`allowFrom` 比较。Webhook 验证会认证提供商投递和
|
||||
载荷完整性,但它**不能**证明 PSTN/VoIP 来电号码
|
||||
所有权。将 `allowFrom` 视为来电显示过滤,而不是强来电者
|
||||
身份验证。
|
||||
载荷完整性,但它**不会**证明 PSTN/VoIP 主叫号码
|
||||
所有权。请将 `allowFrom` 视为来电显示号码过滤,而不是强主叫
|
||||
身份。
|
||||
</Warning>
|
||||
|
||||
自动回复使用智能体系统。可通过 `responseModel`、
|
||||
自动响应使用智能体系统。可通过 `responseModel`、
|
||||
`responseSystemPrompt` 和 `responseTimeoutMs` 调整。
|
||||
|
||||
### 按号码路由
|
||||
|
||||
当一个 Voice Call 插件接收多个电话号码的来电,并且每个号码
|
||||
应表现得像不同线路时,请使用 `numbers`。例如,一个
|
||||
号码可以使用随意的个人助手,而另一个号码使用业务
|
||||
人设、不同的响应智能体以及不同的 TTS 语音。
|
||||
当一个 Voice Call 插件接收多个电话号码的呼叫,并且每个号码都应像不同线路一样工作时,请使用 `numbers`。例如,一个
|
||||
号码可以使用休闲的个人助理,而另一个号码可以使用商务
|
||||
人设、不同的响应智能体和不同的 TTS 语音。
|
||||
|
||||
路由会从提供商提供的拨入 `To` 号码中选择。键必须是
|
||||
E.164 号码。来电到达时,Voice Call 会解析匹配路由一次,
|
||||
路由根据提供商提供的被拨 `To` 号码选择。键必须是
|
||||
E.164 号码。呼叫到达时,Voice Call 会解析一次匹配的路由,
|
||||
将匹配的路由存储到通话记录上,并将该有效配置复用于
|
||||
问候、经典自动回复路径、实时咨询路径和 TTS
|
||||
问候语、经典自动响应路径、实时咨询路径和 TTS
|
||||
播放。如果没有路由匹配,则使用全局 Voice Call 配置。
|
||||
出站通话不使用 `numbers`;发起通话时请显式传入出站目标、消息和
|
||||
出站呼叫不使用 `numbers`;发起呼叫时请显式传入出站目标、消息和
|
||||
会话。
|
||||
|
||||
路由覆盖当前支持:
|
||||
路由覆盖目前支持:
|
||||
|
||||
- `inboundGreeting`
|
||||
- `tts`
|
||||
@ -587,52 +586,52 @@ E.164 号码。来电到达时,Voice Call 会解析匹配路由一次,
|
||||
}
|
||||
```
|
||||
|
||||
### 语音输出契约
|
||||
### 口语输出契约
|
||||
|
||||
对于自动回复,Voice Call 会向系统提示词追加严格的语音输出契约:
|
||||
对于自动响应,Voice Call 会向系统提示追加严格的口语输出契约:
|
||||
|
||||
```text
|
||||
{"spoken":"..."}
|
||||
```
|
||||
|
||||
Voice Call 会防御式提取语音文本:
|
||||
Voice Call 会防御性地提取语音文本:
|
||||
|
||||
- 忽略标记为推理/错误内容的载荷。
|
||||
- 解析直接 JSON、围栏 JSON 或内联 `"spoken"` 键。
|
||||
- 回退到纯文本,并移除疑似计划/元信息引导段落。
|
||||
- 回退到纯文本,并移除看起来像规划/元信息开头的段落。
|
||||
|
||||
这会让语音播放聚焦于面向来电者的文本,并避免
|
||||
将计划文本泄露到音频中。
|
||||
将规划文本泄漏到音频中。
|
||||
|
||||
### 对话启动行为
|
||||
|
||||
对于出站 `conversation` 通话,第一条消息处理与实时
|
||||
播放状态绑定:
|
||||
对于出站 `conversation` 呼叫,首条消息处理会绑定到实时
|
||||
播放状态:
|
||||
|
||||
- 仅在初始问候正在主动说话时,才会抑制打断队列清空和自动回复。
|
||||
- 如果初始播放失败,通话会回到 `listening`,且初始消息仍会排队等待重试。
|
||||
- Twilio 流式传输的初始播放会在流连接时启动,没有额外延迟。
|
||||
- 打断会中止活动播放,并清空已排队但尚未播放的 Twilio TTS 条目。清空的条目会解析为已跳过,因此后续响应逻辑可以继续,而无需等待永远不会播放的音频。
|
||||
- 实时语音对话使用实时流自己的开场轮次。Voice Call **不会**为该初始消息发布旧版 `<Say>` TwiML 更新,因此出站 `<Connect><Stream>` 会话会保持连接。
|
||||
- 仅当初始问候语正在主动朗读时,才会抑制插话队列清空和自动响应。
|
||||
- 如果初始播放失败,通话会返回 `listening`,并且初始消息会保持排队以供重试。
|
||||
- Twilio 流式传输的初始播放会在流连接时开始,不会额外延迟。
|
||||
- 插话会中止正在进行的播放,并清除已排队但尚未播放的 Twilio TTS 条目。被清除的条目会解析为已跳过,因此后续响应逻辑可以继续,而无需等待永远不会播放的音频。
|
||||
- 实时语音对话使用实时流自己的开场轮次。Voice Call **不会**为该初始消息发布旧版 `<Say>` TwiML 更新,因此出站 `<Connect><Stream>` 会话会保持附加状态。
|
||||
|
||||
### Twilio 流断开宽限期
|
||||
|
||||
当 Twilio 媒体流断开时,Voice Call 会等待 **2000 ms** 后
|
||||
当 Twilio 媒体流断开时,Voice Call 会等待 **2000 ms**,然后
|
||||
自动结束通话:
|
||||
|
||||
- 如果流在该窗口内重新连接,自动结束会被取消。
|
||||
- 如果宽限期后没有流重新注册,则会结束通话,以防止活动通话卡住。
|
||||
- 如果流在该窗口期内重新连接,则取消自动结束。
|
||||
- 如果宽限期后没有流重新注册,则结束通话以防止活动通话卡住。
|
||||
|
||||
## 陈旧通话清理器
|
||||
## 过期通话清理器
|
||||
|
||||
使用 `staleCallReaperSeconds` 结束从未收到终止
|
||||
webhook 的通话(例如从未完成的通知模式通话)。默认值
|
||||
webhook 的通话(例如,永不完成的通知模式通话)。默认值
|
||||
为 `0`(禁用)。
|
||||
|
||||
建议范围:
|
||||
|
||||
- **生产环境:** 用于通知式流程时为 `120`–`300` 秒。
|
||||
- 将此值保持为**高于 `maxDurationSeconds`**,让正常调用可以完成。一个好的起点是 `maxDurationSeconds + 30–60` 秒。
|
||||
- **生产环境:** 通知类流程使用 `120`–`300` 秒。
|
||||
- 保持此值**高于 `maxDurationSeconds`**,这样正常调用才能完成。一个好的起点是 `maxDurationSeconds + 30–60` 秒。
|
||||
|
||||
```json5
|
||||
{
|
||||
@ -649,26 +648,26 @@ webhook 的通话(例如从未完成的通知模式通话)。默认值
|
||||
}
|
||||
```
|
||||
|
||||
## Webhook 安全
|
||||
## 网络钩子安全性
|
||||
|
||||
当代理或隧道位于 Gateway 网关前方时,该插件会重建用于签名验证的公开 URL。这些选项控制信任哪些转发标头:
|
||||
当代理或隧道位于 Gateway 网关前面时,插件会重建用于签名验证的公开 URL。这些选项控制信任哪些转发头:
|
||||
|
||||
<ParamField path="webhookSecurity.allowedHosts" type="string[]">
|
||||
允许来自转发标头的主机列表。
|
||||
允许来自转发头的主机列表。
|
||||
</ParamField>
|
||||
<ParamField path="webhookSecurity.trustForwardingHeaders" type="boolean">
|
||||
在没有允许列表的情况下信任转发标头。
|
||||
在没有允许列表的情况下信任转发头。
|
||||
</ParamField>
|
||||
<ParamField path="webhookSecurity.trustedProxyIPs" type="string[]">
|
||||
仅当请求远程 IP 与列表匹配时,才信任转发标头。
|
||||
仅当请求远程 IP 与列表匹配时才信任转发头。
|
||||
</ParamField>
|
||||
|
||||
其他保护措施:
|
||||
|
||||
- Twilio 和 Plivo 启用了 Webhook **重放保护**。重放的有效 webhook 请求会被确认,但会跳过副作用。
|
||||
- Twilio 和 Plivo 已启用网络钩子**重放保护**。重放的有效网络钩子请求会被确认,但会跳过副作用。
|
||||
- Twilio 对话轮次在 `<Gather>` 回调中包含每轮令牌,因此过期或重放的语音回调无法满足较新的待处理转录轮次。
|
||||
- 当缺少提供商要求的签名标头时,未认证的 webhook 请求会在读取正文之前被拒绝。
|
||||
- voice-call webhook 使用共享的预认证正文配置(64 KB / 5 秒),并在签名验证之前按 IP 限制正在处理的请求数量。
|
||||
- 当缺少提供商要求的签名头时,未认证的网络钩子请求会在读取正文之前被拒绝。
|
||||
- voice-call 网络钩子使用共享的预认证正文配置(64 KB / 5 秒),并在签名验证前施加按 IP 的并发上限。
|
||||
|
||||
使用稳定公开主机的示例:
|
||||
|
||||
@ -704,52 +703,52 @@ openclaw voicecall latency # summarize turn latency from lo
|
||||
openclaw voicecall expose --mode funnel
|
||||
```
|
||||
|
||||
当 Gateway 网关已在运行时,操作类 `voicecall` 命令会委托给 Gateway 网关拥有的 voice-call 运行时,因此 CLI 不会绑定第二个 webhook 服务器。如果无法访问 Gateway 网关,这些命令会回退到独立 CLI 运行时。
|
||||
当 Gateway 网关已在运行时,操作性 `voicecall` 命令会委托给 Gateway 网关拥有的 voice-call 运行时,因此 CLI 不会绑定第二个网络钩子服务器。如果无法访问 Gateway 网关,这些命令会回退到独立的 CLI 运行时。
|
||||
|
||||
`latency` 会从默认 voice-call 存储路径读取 `calls.jsonl`。使用 `--file <path>` 指向其他日志,并使用 `--last <n>` 将分析限制为最后 N 条记录(默认 200)。输出包含轮次延迟和监听等待时间的 p50/p90/p99。
|
||||
`latency` 会从默认 voice-call 存储路径读取 `calls.jsonl`。使用 `--file <path>` 指向不同的日志,并使用 `--last <n>` 将分析限制为最后 N 条记录(默认 200)。输出包含轮次延迟和监听等待时间的 p50/p90/p99。
|
||||
|
||||
## 智能体工具
|
||||
|
||||
工具名称:`voice_call`。
|
||||
|
||||
| 操作 | 参数 |
|
||||
| 操作 | 参数 |
|
||||
| --------------- | ------------------------------------------ |
|
||||
| `initiate_call` | `message`, `to?`, `mode?`, `dtmfSequence?` |
|
||||
| `continue_call` | `callId`, `message` |
|
||||
| `speak_to_user` | `callId`, `message` |
|
||||
| `send_dtmf` | `callId`, `digits` |
|
||||
| `end_call` | `callId` |
|
||||
| `get_status` | `callId` |
|
||||
| `continue_call` | `callId`, `message` |
|
||||
| `speak_to_user` | `callId`, `message` |
|
||||
| `send_dtmf` | `callId`, `digits` |
|
||||
| `end_call` | `callId` |
|
||||
| `get_status` | `callId` |
|
||||
|
||||
此仓库在 `skills/voice-call/SKILL.md` 提供了匹配的技能文档。
|
||||
|
||||
## Gateway 网关 RPC
|
||||
|
||||
| 方法 | 参数 |
|
||||
| 方法 | 参数 |
|
||||
| -------------------- | ------------------------------------------ |
|
||||
| `voicecall.initiate` | `to?`, `message`, `mode?`, `dtmfSequence?` |
|
||||
| `voicecall.continue` | `callId`, `message` |
|
||||
| `voicecall.speak` | `callId`, `message` |
|
||||
| `voicecall.dtmf` | `callId`, `digits` |
|
||||
| `voicecall.end` | `callId` |
|
||||
| `voicecall.status` | `callId` |
|
||||
| `voicecall.continue` | `callId`, `message` |
|
||||
| `voicecall.speak` | `callId`, `message` |
|
||||
| `voicecall.dtmf` | `callId`, `digits` |
|
||||
| `voicecall.end` | `callId` |
|
||||
| `voicecall.status` | `callId` |
|
||||
|
||||
`dtmfSequence` 仅在 `mode: "conversation"` 下有效。通知模式呼叫如果需要在接通后发送数字,应在呼叫存在后使用 `voicecall.dtmf`。
|
||||
`dtmfSequence` 仅在 `mode: "conversation"` 时有效。通知模式调用如果需要连接后的数字,应在调用存在后使用 `voicecall.dtmf`。
|
||||
|
||||
## 故障排除
|
||||
|
||||
### 设置无法通过 webhook 暴露检查
|
||||
### 设置无法完成网络钩子暴露
|
||||
|
||||
从运行 Gateway 网关的同一环境中运行设置:
|
||||
从运行 Gateway 网关的同一环境运行设置:
|
||||
|
||||
```bash
|
||||
openclaw voicecall setup
|
||||
openclaw voicecall setup --json
|
||||
```
|
||||
|
||||
对于 `twilio`、`telnyx` 和 `plivo`,`webhook-exposure` 必须为绿色。已配置的 `publicUrl` 如果指向本地或专用网络空间,仍会失败,因为运营商无法回拨这些地址。不要将 `localhost`、`127.0.0.1`、`0.0.0.0`、`10.x`、`172.16.x`-`172.31.x`、`192.168.x`、`169.254.x`、`fc00::/7` 或 `fd00::/8` 用作 `publicUrl`。
|
||||
对于 `twilio`、`telnyx` 和 `plivo`,`webhook-exposure` 必须为绿色。当已配置的 `publicUrl` 指向本地或专用网络空间时仍会失败,因为运营商无法回拨这些地址。不要将 `localhost`、`127.0.0.1`、`0.0.0.0`、`10.x`、`172.16.x`-`172.31.x`、`192.168.x`、`169.254.x`、`fc00::/7` 或 `fd00::/8` 用作 `publicUrl`。
|
||||
|
||||
Twilio 通知模式外呼会在创建呼叫请求中直接发送初始 `<Say>` TwiML,因此第一条播报消息不依赖 Twilio 获取 webhook TwiML。状态回调、对话呼叫、接通前 DTMF、实时流和接通后呼叫控制仍需要公开 webhook。
|
||||
Twilio 通知模式出站调用会在创建调用请求中直接发送初始 `<Say>` TwiML,因此第一条语音消息不依赖 Twilio 获取网络钩子 TwiML。状态回调、对话调用、连接前 DTMF、实时流和连接后调用控制仍然需要公开网络钩子。
|
||||
|
||||
使用一种公开暴露路径:
|
||||
|
||||
@ -778,21 +777,21 @@ openclaw voicecall setup
|
||||
openclaw voicecall smoke
|
||||
```
|
||||
|
||||
除非传入 `--yes`,否则 `voicecall smoke` 是一次空运行。
|
||||
除非你传入 `--yes`,否则 `voicecall smoke` 是一次空运行。
|
||||
|
||||
### 提供商凭据失败
|
||||
### 提供商凭证失败
|
||||
|
||||
检查所选提供商和必需的凭据字段:
|
||||
检查所选提供商和必需的凭证字段:
|
||||
|
||||
- Twilio:`twilio.accountSid`、`twilio.authToken` 和 `fromNumber`,或 `TWILIO_ACCOUNT_SID`、`TWILIO_AUTH_TOKEN` 和 `TWILIO_FROM_NUMBER`。
|
||||
- Telnyx:`telnyx.apiKey`、`telnyx.connectionId`、`telnyx.publicKey` 和 `fromNumber`。
|
||||
- Plivo:`plivo.authId`、`plivo.authToken` 和 `fromNumber`。
|
||||
|
||||
凭据必须存在于 Gateway 网关主机上。编辑本地 shell 配置文件不会影响已在运行的 Gateway 网关,直到它重启或重新加载其环境。
|
||||
凭证必须存在于 Gateway 网关主机上。编辑本地 shell 配置文件不会影响已运行的 Gateway 网关,直到它重启或重新加载其环境。
|
||||
|
||||
### 呼叫已开始但提供商 webhook 未到达
|
||||
### 调用已启动,但提供商网络钩子未到达
|
||||
|
||||
确认提供商控制台指向准确的公开 webhook URL:
|
||||
确认提供商控制台指向确切的公开网络钩子 URL:
|
||||
|
||||
```text
|
||||
https://voice.example.com/voice/webhook
|
||||
@ -810,20 +809,20 @@ openclaw logs --follow
|
||||
|
||||
- `publicUrl` 指向的路径与 `serve.path` 不同。
|
||||
- 隧道 URL 在 Gateway 网关启动后发生了变化。
|
||||
- 代理转发了请求,但移除或重写了主机/协议标头。
|
||||
- 防火墙或 DNS 将公开主机名路由到 Gateway 网关以外的位置。
|
||||
- Gateway 网关在没有启用 Voice Call 插件的情况下重启。
|
||||
- 代理转发了请求,但剥离或重写了主机/协议头。
|
||||
- 防火墙或 DNS 将公开主机名路由到了 Gateway 网关以外的位置。
|
||||
- Gateway 网关重启时未启用 Voice Call 插件。
|
||||
|
||||
当反向代理或隧道位于 Gateway 网关前方时,将 `webhookSecurity.allowedHosts` 设置为公开主机名,或为已知代理地址使用 `webhookSecurity.trustedProxyIPs`。仅当代理边界由你控制时,才使用 `webhookSecurity.trustForwardingHeaders`。
|
||||
当反向代理或隧道位于 Gateway 网关前面时,将 `webhookSecurity.allowedHosts` 设置为公开主机名,或对已知代理地址使用 `webhookSecurity.trustedProxyIPs`。仅当代理边界由你控制时才使用 `webhookSecurity.trustForwardingHeaders`。
|
||||
|
||||
### 签名验证失败
|
||||
|
||||
提供商签名会根据 OpenClaw 从传入请求重建的公开 URL 进行检查。如果签名失败:
|
||||
|
||||
- 确认提供商 webhook URL 与 `publicUrl` 完全匹配,包括 scheme、host 和 path。
|
||||
- 确认提供商网络钩子 URL 与 `publicUrl` 完全匹配,包括协议、主机和路径。
|
||||
- 对于 ngrok 免费层 URL,当隧道主机名变化时更新 `publicUrl`。
|
||||
- 确保代理保留原始主机和协议标头,或配置 `webhookSecurity.allowedHosts`。
|
||||
- 不要在本地测试之外启用 `skipSignatureVerification`。
|
||||
- 确保代理保留原始主机和协议头,或配置 `webhookSecurity.allowedHosts`。
|
||||
- 不要在本地测试以外启用 `skipSignatureVerification`。
|
||||
|
||||
### Google Meet Twilio 加入失败
|
||||
|
||||
@ -834,39 +833,39 @@ openclaw voicecall setup
|
||||
openclaw voicecall smoke --to "+15555550123"
|
||||
```
|
||||
|
||||
然后显式验证 Google Meet 传输协议:
|
||||
然后显式验证 Google Meet 传输:
|
||||
|
||||
```bash
|
||||
openclaw googlemeet setup --transport twilio
|
||||
```
|
||||
|
||||
如果 Voice Call 正常但 Meet 参与者从未加入,请检查 Meet 拨入号码、PIN 和 `--dtmf-sequence`。电话呼叫本身可能正常,而会议会拒绝或忽略不正确的 DTMF 序列。
|
||||
如果 Voice Call 正常但 Meet 参会者从未加入,请检查 Meet 拨入号码、PIN 和 `--dtmf-sequence`。电话调用可能是健康的,而会议会拒绝或忽略不正确的 DTMF 序列。
|
||||
|
||||
Google Meet 会将 Meet DTMF 序列和介绍文本传递给 `voicecall.start`。对于 Twilio 呼叫,Voice Call 会先提供 DTMF TwiML,重定向回 webhook,然后打开实时媒体流,因此保存的介绍会在电话参与者加入会议后生成。
|
||||
Google Meet 通过 `voicecall.start` 和连接前 DTMF 序列启动 Twilio 电话线路。由 PIN 派生的序列会将 Google Meet 插件的 `voiceCall.dtmfDelayMs` 作为前导 Twilio 等待数字包含进去。默认值为 12 秒,因为 Meet 拨入提示可能较晚到达。然后 Voice Call 会在请求介绍问候语之前重定向回实时处理。
|
||||
|
||||
使用 `openclaw logs --follow` 查看实时阶段跟踪。健康的 Twilio Meet 加入会按此顺序记录日志:
|
||||
使用 `openclaw logs --follow` 查看实时阶段跟踪。健康的 Twilio Meet 加入会按以下顺序记录日志:
|
||||
|
||||
- Google Meet 将 Twilio 加入委托给 Voice Call。
|
||||
- Voice Call 存储接通前 DTMF TwiML。
|
||||
- Twilio 初始 TwiML 在实时处理前被消费并提供。
|
||||
- Voice Call 为 Twilio 呼叫提供实时 TwiML。
|
||||
- 实时桥接启动,并已将初始问候排队。
|
||||
- Voice Call 存储连接前 DTMF TwiML。
|
||||
- Twilio 初始 TwiML 在实时处理之前被消费并提供。
|
||||
- Voice Call 为 Twilio 调用提供实时 TwiML。
|
||||
- Google Meet 在 DTMF 后延迟之后通过 `voicecall.speak` 请求介绍语音。
|
||||
|
||||
`openclaw voicecall tail` 仍会显示持久化的呼叫记录;它对呼叫状态和转录很有用,但并非每个 webhook/实时转换都会出现在其中。
|
||||
`openclaw voicecall tail` 仍会显示已持久化的调用记录;它对调用状态和转录很有用,但并非每个网络钩子/实时转换都会出现在那里。
|
||||
|
||||
### 实时呼叫没有语音
|
||||
### 实时调用没有语音
|
||||
|
||||
确认只启用一种音频模式。`realtime.enabled` 和 `streaming.enabled` 不能同时为 true。
|
||||
|
||||
对于实时 Twilio 呼叫,还要验证:
|
||||
对于实时 Twilio 调用,还要验证:
|
||||
|
||||
- 已加载并注册实时提供商插件。
|
||||
- `realtime.provider` 未设置,或命名了已注册的提供商。
|
||||
- `realtime.provider` 未设置,或命名了一个已注册的提供商。
|
||||
- 提供商 API key 可供 Gateway 网关进程使用。
|
||||
- `openclaw logs --follow` 显示已提供实时 TwiML、实时桥接已启动,并且初始问候已排队。
|
||||
- `openclaw logs --follow` 显示已提供实时 TwiML、实时桥接已启动,并且初始问候语已排队。
|
||||
|
||||
## 相关内容
|
||||
|
||||
- [通话模式](/zh-CN/nodes/talk)
|
||||
- [Talk 模式](/zh-CN/nodes/talk)
|
||||
- [文本转语音](/zh-CN/tools/tts)
|
||||
- [语音唤醒](/zh-CN/nodes/voicewake)
|
||||
|
||||
Loading…
Reference in New Issue
Block a user