chore(i18n): refresh zh-CN translations

This commit is contained in:
openclaw-docs-i18n[bot] 2026-04-26 23:50:30 +00:00
parent 20012f956d
commit 0832cb7f8d
2 changed files with 360 additions and 358 deletions

View File

@ -6,26 +6,26 @@ read_when:
summary: qa-lab、qa-channel、预置场景和协议报告的私有 QA 自动化形态
title: QA E2E 自动化
x-i18n:
generated_at: "2026-04-26T06:40:35Z"
generated_at: "2026-04-26T23:47:17Z"
model: gpt-5.4
provider: openai
source_hash: 3803f2bc5cdf2368c3af59b412de8ef732708995a54f7771d3f6f16e8be0592b
source_hash: 654d8333149d98a85373652ce483ab29f3e524df298493d2d3101564f3e01799
source_path: concepts/qa-e2e-automation.md
workflow: 15
---
私有 QA 栈旨在以比单个单元测试更贴近真实、并且更符合渠道形态的方式来验证 OpenClaw。
私有 QA 栈的目标是以比单个单元测试更贴近真实、更加符合渠道形态的方式来验证 OpenClaw。
当前组成部分:
- `extensions/qa-channel`:合成消息渠道,提供私信、渠道、线程、表情反应、编辑和删除等交互面。
- `extensions/qa-lab`:调试器 UI 和 QA 总线,用于观察转录内容、注入入站消息以及导出 Markdown 报告。
- `qa/`:由仓库支持的种子资,用于启动任务和基线 QA 场景。
- `extensions/qa-channel`:合成消息渠道,具备私信、渠道、线程、表情反应、编辑和删除等交互面。
- `extensions/qa-lab`:调试器 UI 和 QA 总线,用于观察对话记录、注入入站消息以及导出 Markdown 报告。
- `qa/`:由仓库支持的种子资,用于启动任务和基线 QA 场景。
当前 QA 操作流程是一个双窗格 QA 站点:
当前 QA 操作流程是一个双窗格 QA 站点:
- 左侧:带有智能体的 Gateway 网关仪表板Control UI
- 右侧QA Lab显示类 Slack 风格的转录内容和场景计划。
- 右侧QA Lab显示类似 Slack 的对话记录和场景计划。
使用以下命令运行:
@ -33,9 +33,9 @@ x-i18n:
pnpm qa:lab:up
```
这会构建 QA 站点,启动基于 Docker 的 gateway 通道,并暴露 QA Lab 页面;操作员或自动化循环可以在这里为智能体分配 QA 任务,观察真实渠道行为,并记录哪些内容成功、失败或仍然受阻。
该命令会构建 QA 站点、启动基于 Docker 的 gateway 通道,并暴露 QA Lab 页面,操作人员或自动化循环可以在其中为智能体分配 QA 任务、观察真实渠道行为,并记录哪些内容成功、失败或仍然受阻。
为了更快地迭代 QA Lab UI而不必每次都重新构建 Docker 镜像,请使用带有绑定挂载 QA Lab bundle 的方式启动该栈
如果你想更快地迭代 QA Lab UI而不需要每次都重新构建 Docker 镜像,请使用绑定挂载的 QA Lab bundle 启动整套环境
```bash
pnpm openclaw qa docker-build-image
@ -44,36 +44,37 @@ pnpm qa:lab:up:fast
pnpm qa:lab:watch
```
`qa:lab:up:fast` 会让 Docker 服务基于预构建镜像运行,并将 `extensions/qa-lab/web/dist` 绑定挂载到 `qa-lab` 容器中。`qa:lab:watch` 会在变更时重新构建该 bundle当 QA Lab 资产哈希变化时,浏览器会自动重新加载。
`qa:lab:up:fast` 会让 Docker 服务继续使用预构建镜像,并将 `extensions/qa-lab/web/dist` 绑定挂载到 `qa-lab` 容器中。`qa:lab:watch` 会在发生更改时重建该 bundle当 QA Lab 资源哈希发生变化时,浏览器会自动重新加载。
如需执行本地 OpenTelemetry trace 冒烟测试,请运行:
如需运行本地 OpenTelemetry 跟踪冒烟测试,请执行:
```bash
pnpm qa:otel:smoke
```
该脚本会启动一个本地 OTLP/HTTP trace 接收器,在启用 `diagnostics-otel` 插件的情况下运行 `otel-trace-smoke` QA 场景,然后解码导出的 protobuf spans并断言发布关键形态:必须存在 `openclaw.run`、`openclaw.harness.run`、`openclaw.model.call`、`openclaw.context.assembled` 和 `openclaw.message.delivery`;成功轮次中的模型调用不得导出 `StreamAbandoned`;原始诊断 ID 和 `openclaw.content.*` 属性不得出现在 trace 中。它会将 `otel-smoke-summary.json` 写入 QA 套件产物目录旁边
该脚本会启动一个本地 OTLP/HTTP 跟踪接收器,在启用 `diagnostics-otel` 插件的情况下运行 `otel-trace-smoke` QA 场景,然后解码导出的 protobuf span,并断言发布关键的结构:必须存在 `openclaw.run`、`openclaw.harness.run`、`openclaw.model.call`、`openclaw.context.assembled` 和 `openclaw.message.delivery`;成功轮次中的模型调用不得导出 `StreamAbandoned`;原始诊断 ID 和 `openclaw.content.*` 属性不得出现在跟踪中。它会在 QA 套件产物旁写入 `otel-smoke-summary.json`
如需执行基于真实传输的 Matrix 冒烟通道,请运行:
常规的 Docker 聚合运行也会执行一个可观测性通道。它会构建或复用一个基于源码的 Docker 可观测性镜像,在容器内运行 OTEL 跟踪冒烟测试,然后在启用 `diagnostics-prometheus` 插件的情况下运行 `docker-prometheus-smoke` QA 场景。设置 `OPENCLAW_DOCKER_OBSERVABILITY_LOOPS=<count>` 可在一次 Docker 运行中重复执行这两项检查,并将每轮产物保存在 `.artifacts/docker-observability/...` 下。
如需运行基于真实传输的 Matrix 冒烟通道,请执行:
```bash
pnpm openclaw qa matrix
```
该通道会在 Docker 中配置一个一次性的 Tuwunel homeserver注册临时的 driver、SUT 和 observer 用户,创建一个私有房间,然后在 QA gateway 子进程中运行真实的 Matrix 插件。实时传输通道会将子配置限定在被测传输范围内,因此 Matrix 会在不把 `qa-channel` 加入子配置的情况下运行。它会将结构化报告产物和合并后的 stdout/stderr 日志写入选定的 Matrix QA 输出目录。若还要捕获外层 `scripts/run-node.mjs` 的构建/启动器输出,请将 `OPENCLAW_RUN_NODE_OUTPUT_LOG=<path>` 设置为仓库内的日志文件路径。
默认会打印 Matrix 进度。`OPENCLAW_QA_MATRIX_TIMEOUT_MS` 用于限制完整运行时长,`OPENCLAW_QA_MATRIX_CLEANUP_TIMEOUT_MS` 用于限制清理阶段时长,这样当 Docker 拆除过程卡住时,会报告精确的恢复命令,而不是一直挂起。
该通道会在 Docker 中部署一个一次性的 Tuwunel homeserver注册临时的驱动器、SUT 和观察者用户,创建一个私有房间,然后在 QA gateway 子进程中运行真实的 Matrix 插件。实时传输通道会将子配置限定在被测传输范围内,因此 Matrix 会在子配置中不包含 `qa-channel` 的情况下运行。它会将结构化报告产物和合并后的 stdout/stderr 日志写入所选的 Matrix QA 输出目录。如需同时捕获外层 `scripts/run-node.mjs` 的构建/启动器输出,请将 `OPENCLAW_RUN_NODE_OUTPUT_LOG=<path>` 设置为仓库内本地日志文件。默认会打印 Matrix 进度。`OPENCLAW_QA_MATRIX_TIMEOUT_MS` 用于限制整个运行时长,`OPENCLAW_QA_MATRIX_CLEANUP_TIMEOUT_MS` 用于限制清理时长,以便在 Docker 拆除卡住时报告准确的恢复命令,而不是一直挂起。
如需执行基于真实传输的 Telegram 冒烟通道,请运行:
如需运行基于真实传输的 Telegram 冒烟通道,请执行:
```bash
pnpm openclaw qa telegram
```
该通道针对一个真实的私有 Telegram 群组,而不是配置一次性服务器。它要求提供 `OPENCLAW_QA_TELEGRAM_GROUP_ID`、`OPENCLAW_QA_TELEGRAM_DRIVER_BOT_TOKEN` 和 `OPENCLAW_QA_TELEGRAM_SUT_BOT_TOKEN`,并要求两个不同的 bot 位于同一个私有群组中。SUT bot 必须具有 Telegram 用户名,并且当两个 bot 都在 `@BotFather` 中启用了 Bot-to-Bot Communication Mode 时bot 对 bot 的观察效果最佳。
当任一场景失败时,该命令会以非零状态退出。如果你想保留产物但不希望以失败退出码结束,请使用 `--allow-failures`
Telegram 报告和摘要包含每条回复的 RTT计时从 driver 消息发送请求开始,到观察到 SUT 回复为止,并从 canary 开始统计
该通道针对一个真实的私有 Telegram 群组,而不是部署一次性服务器。它要求设置 `OPENCLAW_QA_TELEGRAM_GROUP_ID`、`OPENCLAW_QA_TELEGRAM_DRIVER_BOT_TOKEN` 和 `OPENCLAW_QA_TELEGRAM_SUT_BOT_TOKEN`,并要求两个不同的机器人位于同一个私有群组中。SUT 机器人必须具备 Telegram 用户名,并且当两个机器人都在 `@BotFather` 中启用了 Bot-to-Bot Communication Mode 时,机器人之间的观察效果最佳。
当任一场景失败时,该命令会以非零状态退出。如果你希望保留产物但不让退出码失败,请使用 `--allow-failures`
Telegram 报告和摘要中包含每条回复的 RTT计算范围从驱动器消息发送请求到观察到的 SUT 回复,并从金丝雀检查开始
在使用池化的实时凭证之前,请运行:
在使用共享的实时凭证之前,请执行:
```bash
pnpm openclaw qa credentials doctor
@ -81,61 +82,61 @@ pnpm openclaw qa credentials doctor
Doctor 会检查 Convex broker 环境变量、验证端点设置,并在存在维护者密钥时验证 admin/list 可达性。对于密钥,它只会报告“已设置/缺失”状态。
如需执行基于真实传输的 Discord 冒烟通道,请运行:
如需运行基于真实传输的 Discord 冒烟通道,请执行:
```bash
pnpm openclaw qa discord
```
该通道针对一个真实的私有 Discord guild 渠道,并使用两个 bot一个由 harness 控制的 driver bot以及一个通过内置 Discord 插件由子 OpenClaw gateway 启动的 SUT bot。使用环境变量凭证时它要求提供 `OPENCLAW_QA_DISCORD_GUILD_ID`、`OPENCLAW_QA_DISCORD_CHANNEL_ID`、`OPENCLAW_QA_DISCORD_DRIVER_BOT_TOKEN`、`OPENCLAW_QA_DISCORD_SUT_BOT_TOKEN` 和 `OPENCLAW_QA_DISCORD_SUT_APPLICATION_ID`
该通道会验证渠道提及处理,并检查 SUT bot 是否已向 Discord 注册原生 `/help` 命令。
当任一场景失败时,该命令会以非零状态退出。如果你想保留产物但不希望以失败退出码结束,请使用 `--allow-failures`
该通道针对一个真实的私有 Discord guild 渠道,并使用两个机器人:一个由 harness 控制的驱动器机器人,以及一个由子 OpenClaw Gateway 网关通过内置 Discord 插件启动的 SUT 机器人。使用环境变量凭证时,它要求设置 `OPENCLAW_QA_DISCORD_GUILD_ID`、`OPENCLAW_QA_DISCORD_CHANNEL_ID`、`OPENCLAW_QA_DISCORD_DRIVER_BOT_TOKEN`、`OPENCLAW_QA_DISCORD_SUT_BOT_TOKEN` 和 `OPENCLAW_QA_DISCORD_SUT_APPLICATION_ID`
该通道会验证渠道提及处理,并检查 SUT 机器人是否已向 Discord 注册原生 `/help` 命令。
当任一场景失败时,该命令会以非零状态退出。如果你希望保留产物但不让退出码失败,请使用 `--allow-failures`
实时传输通道现在共一个更小的契约,而不是各自发明自己的场景列表结构:
实时传输通道现在共享同一个更小的契约,而不是各自发明自己的场景列表结构:
`qa-channel` 仍然是覆盖面广泛的合成产品行为套件,不属于实时传输覆盖矩阵的一部分。
`qa-channel` 仍然是广覆盖的合成产品行为套件,不属于实时传输覆盖矩阵的一部分。
| 通道 | Canary | 提及门控 | Allowlist 拦截 | 顶层回复 | 重启恢复 | 线程后续跟进 | 线程隔离 | 表情反应观察 | Help 命令 | 原生命令注册 |
| -------- | ------ | -------------- | --------------- | --------------- | -------------- | ---------------- | ---------------- | -------------------- | ------------ | --------------------------- |
| 通道 | 金丝雀 | 提及门控 | 允许名单拦截 | 顶层回复 | 重启恢复 | 线程跟进 | 线程隔离 | 表情反应观察 | 帮助命令 | 原生命令注册 |
| ---- | ------ | -------- | ------------ | -------- | -------- | -------- | -------- | ------------ | -------- | ------------ |
| Matrix | x | x | x | x | x | x | x | x | | |
| Telegram | x | x | | | | | | | x | |
| Discord | x | x | | | | | | | | x |
`qa-channel` 继续作为覆盖广泛产品行为的套件,而 Matrix、Telegram 以及未来的实时传输则共享一份明确的传输契约检查清单。
样可以让 `qa-channel` 保持为广覆盖的产品行为套件,同时让 Matrix、Telegram 以及未来的实时传输共享一份明确的传输契约检查清单。
如需执行不将 Docker 纳入 QA 路径的一次性 Linux VM 通道,请运行:
如需运行一个一次性的 Linux VM 通道,而不将 Docker 引入 QA 路径,请执行:
```bash
pnpm openclaw qa suite --runner multipass --scenario channel-chat-baseline
```
这会启动一个全新的 Multipass guest在 guest 内安装依赖、构建 OpenClaw、运行 `qa suite`,然后将常规 QA 报告和摘要复制回宿主机上的 `.artifacts/qa-e2e/...`
这会启动一个全新的 Multipass 来宾系统、安装依赖项、在来宾系统中构建 OpenClaw、运行 `qa suite`,然后将标准 QA 报告和摘要复制回宿主机上的 `.artifacts/qa-e2e/...`
它复用了与宿主机上 `qa suite` 相同的场景选择行为。
宿主机和 Multipass 套件运行默认都会并行执行多个已选场景,并使用隔离的 gateway worker。`qa-channel` 默认并发数为 4且受所选场景数量上限约束。使用 `--concurrency <count>` 可调整 worker 数量,或使用 `--concurrency 1` 进行串行执行。
当任一场景失败时,该命令会以非零状态退出。如果你想保留产物但不希望以失败退出码结束,请使用 `--allow-failures`
实时运行会转发适合 guest 使用的受支持 QA 认证输入:基于环境变量的 provider 密钥、QA 实时 provider 配置路径,以及在存在时的 `CODEX_HOME`。请将 `--output-dir` 保持在仓库根目录下,以便 guest 能通过挂载的工作区回写内容
宿主机和 Multipass 套件运行默认都会使用隔离的 gateway worker 并行执行多个选中的场景。`qa-channel` 默认并发度为 4并受所选场景数量限制。使用 `--concurrency <count>`调整 worker 数量,或使用 `--concurrency 1` 进行串行执行。
当任一场景失败时,该命令会以非零状态退出。如果你希望保留产物但不让退出码失败,请使用 `--allow-failures`
实时运行会转发那些对来宾系统可行的受支持 QA 认证输入基于环境变量的提供商密钥、QA 实时提供商配置路径,以及存在时的 `CODEX_HOME`。请将 `--output-dir` 保持在仓库根目录下,以便来宾系统能够通过挂载的工作区写回结果
## 由仓库支持的种子
## 由仓库支持的种子资源
种子资位于 `qa/`
种子资位于 `qa/`
- `qa/scenarios/index.md`
- `qa/scenarios/<theme>/*.md`
这些内容有意保存在 git 中,以便人类和智能体都能看到 QA 计划。
这些文件有意保存在 git 中,以便人类和智能体都能看到 QA 计划。
`qa-lab` 应保持为一个通用的 markdown 运行器。每个场景 markdown 文件都是单次测试运行的事实来源,并应定义:
`qa-lab` 应保持为一个通用的 markdown 运行器。每个场景 markdown 文件都是一次测试运行的事实来源,并且应定义:
- 场景元数据
- 可选的类别、能力、通道和风险元数据
- 文档和代码引用
- 可选的插件
- 可选的插件
- 可选的 gateway 配置补丁
- 可执行的 `qa-flow`
支撑 `qa-flow` 的可复用运行时表面可以继续保持通用和跨领域特性。例如markdown 场景可以将传输侧 helper 与浏览器侧 helper 组合起来,通过 Gateway 网关的 `browser.request` 接缝驱动嵌入式 Control UI而无需添加特殊用途的运行器。
支撑 `qa-flow` 的可复用运行时表面可以保持通用和跨领域。例如markdown 场景可以将传输侧辅助工具与浏览器侧辅助工具组合起来,通过 Gateway 网关 `browser.request` 接缝驱动嵌入式 Control UI而不需要添加专用的特殊运行器。
场景文件应按产品能力分组,而不是按源码树文件夹分组。文件移动时请保持场景 ID 稳定;使用 `docsRefs``codeRefs` 来追踪实现关联
场景文件应按产品能力分组,而不是按源码树文件夹分组。文件移动时请保持场景 ID 稳定;使用 `docsRefs``codeRefs` 提供实现可追踪性
基线列表应保持足够广泛,以覆盖:
@ -149,24 +150,25 @@ pnpm openclaw qa suite --runner multipass --scenario channel-chat-baseline
- 读取仓库和读取文档
- 一个小型构建任务,例如 Lobster Invaders
## provider mock 通道
## 提供商 mock 通道
`qa suite` 有两个本地 provider mock 通道:
`qa suite` 具有两个本地提供商 mock 通道:
- `mock-openai` 是具备场景感知能力的 OpenClaw mock。它仍然是由仓库支持的 QA 和 parity gate 的默认确定性 mock 通道。
- `aimock` 会启动一个基于 AIMock 的 provider 服务器,用于实验性协议、夹具、录制/回放和混沌覆盖。它是附加能力,不会取`mock-openai` 场景分发器。
- `mock-openai` 是具备场景感知能力的 OpenClaw mock。它仍然是由仓库支持的 QA 和一致性门控的默认确定性 mock 通道。
- `aimock` 会启动一个由 AIMock 支持的提供商服务器,用于实验性的协议、夹具、录制/回放和混沌覆盖。它是附加能力,并不替`mock-openai` 场景分发器。
provider 通道实现位于 `extensions/qa-lab/src/providers/` 下。每个 provider 都负责自己的默认值、本地服务器启动、gateway 模型配置、auth-profile 暂存需求,以及实时/mock 能力标记。共享的 suite 和 gateway 代码应通过 provider registry 路由,而不是基于 provider 名称分支。
提供商通道实现位于 `extensions/qa-lab/src/providers/` 下。
每个提供商负责其自身的默认值、本地服务器启动、gateway 模型配置、auth-profile 暂存需求,以及实时/mock 能力标志。共享套件和 gateway 代码应通过提供商注册表进行路由,而不是根据提供商名称分支。
## 传输适配器
`qa-lab` 拥有一个面向 markdown QA 场景的通用传输接缝。
`qa-channel` 是该接缝上的第一个适配器,但设计目标更广:未来的真实或合成渠道应接入同一个 suite runner而不是添加某个传输专用的 QA runner
`qa-lab` 拥有一个用于 markdown QA 场景的通用传输接缝。
`qa-channel` 是该接缝上的第一个适配器,但设计目标更广:未来的真实或合成渠道应接入同一个套件运行器,而不是新增一个传输专用的 QA 运行器
在架构层面,划分如下:
- `qa-lab` 负责通用场景执行、worker 并发、产物写入和报告。
- 传输适配器负责 gateway 配置、就绪状态、入站与出站观察、传输动作以及归一化后的传输状态。
- 传输适配器负责 gateway 配置、就绪状态、入站和出站观察、传输动作以及标准化传输状态。
- `qa/scenarios/` 下的 markdown 场景文件定义测试运行;`qa-lab` 提供执行这些场景的可复用运行时表面。
面向维护者的新渠道适配器采用指南位于
@ -174,15 +176,15 @@ provider 通道实现位于 `extensions/qa-lab/src/providers/` 下。每个 prov
## 报告
`qa-lab`基于观察到的总线时间线导出 Markdown 协议报告。
`qa-lab`根据观察到的总线时间线导出 Markdown 协议报告。
该报告应回答:
- 哪些内容有效
- 哪些内容失败
- 哪些内容成功了
- 哪些内容失败
- 哪些内容仍然受阻
- 哪些后续场景值得补充
- 值得添加哪些后续场景
对于角色与风格检查,可在多个实时模型引用上运行同一场景,并写出一份经过评审的 Markdown 报告:
如需进行角色和风格检查,请在多个实时模型引用上运行同一场景,并写入一份经过评判的 Markdown 报告:
```bash
pnpm openclaw qa character-eval \
@ -201,19 +203,18 @@ pnpm openclaw qa character-eval \
--judge-concurrency 16
```
该命令运行的是本地 QA gateway 子进程,而不是 Docker。character eval 场景应通过 `SOUL.md` 设置 persona然后运行普通用户轮次例如聊天、工作区帮助和小型文件任务。不应告知候选模型它正在被评估。该命令会保留每份完整转录内容,记录基本运行统计信息,然后以快速模式并在支持时使用 `xhigh` 推理,让 judge 模型根据自然度、氛围和幽默感对这些运行结果进行排序。
该命令运行的是本地 QA gateway 子进程,而不是 Docker。角色评估场景应通过 `SOUL.md` 设置 persona然后运行普通用户轮次例如聊天、工作区帮助和小型文件任务。不应告知候选模型它正在被评估。该命令会保留每份完整对话记录、记录基本运行统计信息,然后在支持的情况下使用启用快速模式且带有 `xhigh` 推理的评审模型,按自然度、氛围和幽默感对这些运行结果进行排序。
在比较不同 provider 时,使用 `--blind-judge-models`judge 提示仍然会获得每份转录内容和运行状态,但候选引用会被替换为中性标签,例如 `candidate-01`;报告会在解析后将排映射回真实引用。
在比较不同提供商时,请使用 `--blind-judge-models`:评审提示仍会获得每份对话记录和运行状态,但候选引用会被替换为中性标签,例如 `candidate-01`;报告会在解析后将排序结果映射回真实引用。
候选运行默认使用 `high` thinking其中 GPT-5.5 使用 `medium`,而支持该级别的较旧 OpenAI eval 引用使用 `xhigh`。可使用 `--model provider/model,thinking=<level>` 为特定候选内联覆盖。`--thinking <level>` 仍然用于设置全局回退值,而旧格式 `--model-thinking <provider/model=level>` 也会为了兼容性继续保留
候选运行默认使用 `high` thinkingGPT-5.5 使用 `medium`,支持该能力的较旧 OpenAI 评估引用则使用 `xhigh`。你可以通过 `--model provider/model,thinking=<level>` 内联覆盖某个特定候选。`--thinking <level>` 仍可设置全局回退值,而较旧的 `--model-thinking <provider/model=level>` 形式会继续保留以兼容旧用法
OpenAI 候选引用默认使用快速模式,以便在 provider 支持时启用优先处理。当单个候选或 judge 需要覆盖时,可内联添加 `,fast`、`,no-fast` 或 `,fast=false`。仅当你希望对每个候选模型都强制启用快速模式时,才传入 `--fast`。报告中会记录候选和 judge 的耗时,用于基准分析,但 judge 提示会明确说明不要按速度排序。
OpenAI 候选引用默认启用快速模式,这样在提供商支持时会使用优先处理。若需要为单个候选或评审覆盖该行为,请内联添加 `,fast`、`,no-fast` 或 `,fast=false`。仅当你希望为所有候选模型强制启用快速模式时,才传递 `--fast`。报告会记录候选和评审的运行时长以供基准分析,但评审提示会明确说明不要按速度进行排序。
候选和 judge 模型运行默认都使用 16 的并发度。当 provider 限制或本地 gateway 压力使运行噪声过大时,可降低 `--concurrency``--judge-concurrency`
候选和评审模型运行的默认并发度均为 16。当提供商限制或本地 gateway 压力导致运行噪声过大时,请降低 `--concurrency``--judge-concurrency`
当未传入候选 `--model`character eval 默认使用 `openai/gpt-5.5`、`openai/gpt-5.2`、`openai/gpt-5`、`anthropic/claude-opus-4-6`、`anthropic/claude-sonnet-4-6`、`zai/glm-5.1`、`moonshot/kimi-k2.5` 和 `google/gemini-3.1-pro-preview`
当未传入 `--judge-model`judge 默认使用 `openai/gpt-5.5,thinking=xhigh,fast``anthropic/claude-opus-4-6,thinking=high`
当未传递任何候选 `--model` 时,角色评估默认使用 `openai/gpt-5.5`、`openai/gpt-5.2`、`openai/gpt-5`、`anthropic/claude-opus-4-6`、`anthropic/claude-sonnet-4-6`、`zai/glm-5.1`、`moonshot/kimi-k2.5` 和 `google/gemini-3.1-pro-preview`
当未传递 `--judge-model` 时,评审默认使用 `openai/gpt-5.5,thinking=xhigh,fast``anthropic/claude-opus-4-6,thinking=high`
## 相关文档

View File

@ -1,165 +1,166 @@
---
read_when:
- 在本地或 CI 中运行测试
- 为模型 / 提供商缺陷添加回归测试
- 为模型 / 提供商 bug 添加回归测试
- 调试 Gateway 网关 + 智能体行为
summary: 测试工具包:单元 / e2e / 实时测试套件、Docker 运行器,以及每项测试所覆盖的内容
summary: 测试工具包:单元 / e2e / live 测试套件、Docker 运行器,以及每类测试覆盖的内容
title: 测试
x-i18n:
generated_at: "2026-04-26T23:34:47Z"
generated_at: "2026-04-26T23:47:14Z"
model: gpt-5.4
provider: openai
source_hash: 42dbec65897bb9bff7eb5f2a7607a075dd9e442ee2eecfe3ff27075fc609fb1d
source_hash: 9c423c19712f405d6264f65a42b9b9d270d702b0617bbf79c5ce798cb1e22a93
source_path: help/testing.md
workflow: 15
---
OpenClaw 有三个 Vitest 测试套件(单元 / 集成、e2e、实时以及一小组 Docker 运行器。本文档是一份“我们如何测试”的指南:
OpenClaw 有三个 Vitest 测试套件(unit/integration、e2e、live以及一小组 Docker 运行器。本文档是一份“我们如何测试”的指南:
- 每个测试套件覆盖什么(以及它刻意**不**覆盖什么)。
- 常见工作流应运行哪些命令(本地、推送前、调试)。
- 实时测试如何发现凭证并选择模型 / 提供商。
- 每个测试套件覆盖什么内容(以及它刻意 _不_ 覆盖什么)。
- 常见工作流(本地、推送前、调试)应运行哪些命令
- live 测试如何发现凭证并选择模型 / 提供商。
- 如何为真实世界中的模型 / 提供商问题添加回归测试。
## 快速开始
大多数时候:
- 完整门禁(通常应在推送前运行):`pnpm build && pnpm check && pnpm check:test-types && pnpm test`
- 完整门禁(预期在推送前运行):`pnpm build && pnpm check && pnpm check:test-types && pnpm test`
- 在配置充足的机器上更快地运行本地完整测试套件:`pnpm test:max`
- 直接的 Vitest 监视循环:`pnpm test:watch`
- 直接按文件定位现在也会路由扩展 / 渠道路径:`pnpm test extensions/discord/src/monitor/message-handler.preflight.test.ts`
- 当你在迭代处理单个失败时,优先先跑有针对性的测试。
- 直接进入 Vitest 监听循环:`pnpm test:watch`
- 现在直接指定文件路径也会路由扩展 / 渠道路径:`pnpm test extensions/discord/src/monitor/message-handler.preflight.test.ts`
- 当你在迭代单个失败用例时,优先先运行有针对性的测试。
- Docker 支持的 QA 站点:`pnpm qa:lab:up`
- Linux VM 支持的 QA 测试通道:`pnpm openclaw qa suite --runner multipass --scenario channel-chat-baseline`
- Linux VM 支持的 QA 通道:`pnpm openclaw qa suite --runner multipass --scenario channel-chat-baseline`
当你修改了测试或想要更多信心时:
当你修改了测试,或想获得更多信心时:
- 覆盖率门禁:`pnpm test:coverage`
- E2E 套件:`pnpm test:e2e`
- E2E 测试套件:`pnpm test:e2e`
当你调试真实提供商 / 模型时(需要真实凭证):
当你调试真实提供商 / 模型时(需要真实凭证):
- 实时测试套件(模型 + Gateway 网关工具 / 图像探测):`pnpm test:live`
- 安静地只跑一个实时测试文件:`pnpm test:live -- src/agents/models.profiles.live.test.ts`
- Docker 实时模型扫描:`pnpm test:docker:live-models`
- 现在每个选中的模型都会运行一次文本轮次加一个小型文件读取探测。元数据声明支持 `image` 输入的模型也会运行一个微型图像轮次。排查提供商故障时,可`OPENCLAW_LIVE_MODEL_FILE_PROBE=0``OPENCLAW_LIVE_MODEL_IMAGE_PROBE=0` 禁用这些额外探测。
- CI 覆盖:每日的 `OpenClaw Scheduled Live And E2E Checks` 和手动的 `OpenClaw Release Checks` 都会调用可复用的实时 / E2E 工作流,并设置 `include_live_suites: true`,其中包括按提供商分片的独立 Docker 实时模型矩阵作业。
- 对于有针对性的 CI 重跑,可分发 `OpenClaw Live And E2E Checks (Reusable)` 并设置 `include_live_suites: true` `live_models_only: true`
- 将新的高信号提供商密钥添加到 `scripts/ci-hydrate-live-auth.sh`,以及 `.github/workflows/openclaw-live-and-e2e-checks-reusable.yml` 和其计划 / 发布调用方中。
- live 测试套件(模型 + Gateway 网关工具 / 图像探测):`pnpm test:live`
- 安静地只运行一个 live 文件:`pnpm test:live -- src/agents/models.profiles.live.test.ts`
- Docker live 模型扫描:`pnpm test:docker:live-models`
- 现在每个选中的模型都会运行一次文本轮次加一个小型文件读取探测。元数据声明支持 `image` 输入的模型还会运行一个微型图像轮次。在隔离提供商故障时,可使`OPENCLAW_LIVE_MODEL_FILE_PROBE=0``OPENCLAW_LIVE_MODEL_IMAGE_PROBE=0` 禁用这些额外探测。
- CI 覆盖范围:每日的 `OpenClaw Scheduled Live And E2E Checks` 和手动触发`OpenClaw Release Checks` 都会调用可复用的 live / E2E 工作流,并设置 `include_live_suites: true`,其中包含按提供商分片的独立 Docker live 模型矩阵作业。
- 若要进行有针对性的 CI 重跑,可触发 `OpenClaw Live And E2E Checks (Reusable)`,并设置 `include_live_suites: true` `live_models_only: true`
- 将新的高信号提供商密钥添加到 `scripts/ci-hydrate-live-auth.sh`、`.github/workflows/openclaw-live-and-e2e-checks-reusable.yml` 及其定时 / 发布调用方中。
- 原生 Codex 绑定聊天冒烟测试:`pnpm test:docker:live-codex-bind`
- 在 Codex app-server 路径上运行一个 Docker 实时测试通道,使用 `/codex bind` 绑定一个合成 Slack 私信,会执行 `/codex fast``/codex permissions`,然后验证普通回复和图像附件是通过原生插件绑定而不是 ACP 路由的
- 在 Codex app-server 路径上运行一个 Docker live 通道,使用 `/codex bind` 绑定一个合成 Slack 私信,会执行 `/codex fast``/codex permissions`,然后验证普通回复和图像附件是通过原生插件绑定路由,而不是 ACP。
- Codex app-server harness 冒烟测试:`pnpm test:docker:live-codex-harness`
- 通过插件自有的 Codex app-server harness 运行 Gateway 网关智能体轮次,验证 `/codex status``/codex models`,并默认执行图像、cron MCP、子智能体和 Guardian 探测。排查其他 Codex app-server 故障时,可用 `OPENCLAW_LIVE_CODEX_HARNESS_SUBAGENT_PROBE=0` 禁用子智能体探测。若只想聚焦子智能体检查,请禁用其他探测:`OPENCLAW_LIVE_CODEX_HARNESS_IMAGE_PROBE=0 OPENCLAW_LIVE_CODEX_HARNESS_MCP_PROBE=0 OPENCLAW_LIVE_CODEX_HARNESS_GUARDIAN_PROBE=0 OPENCLAW_LIVE_CODEX_HARNESS_SUBAGENT_PROBE=1 pnpm test:docker:live-codex-harness`。
除非设置了 `OPENCLAW_LIVE_CODEX_HARNESS_SUBAGENT_ONLY=0`,否则该命令会在子智能体探测后退出。
- Crestodian 救援命令冒烟测试:`pnpm test:live:crestodian-rescue-channel`
- 针对消息渠道救援命令表面的可选双保险检查。它会执行 `/crestodian status`,排队一个持久化模型变更,回复 `/crestodian yes`,并验证审计 / 配置写入路径。
- Crestodian 规划器 Docker 冒烟测试:`pnpm test:docker:crestodian-planner`
- 在一个无配置容器中运行 Crestodian并在 `PATH` 中放置一个假的 Claude CLI验证模糊规划器回退会转换成带审计记录的类型化配置写入。
- 通过插件自有的 Codex app-server harness 运行 Gateway 网关智能体轮次,验证 `/codex status``/codex models`,并且默认执行图像、cron MCP、sub-agent 和 Guardian 探测。在隔离其他 Codex app-server 故障时,可使用 `OPENCLAW_LIVE_CODEX_HARNESS_SUBAGENT_PROBE=0` 禁用 sub-agent 探测。若只想聚焦检查 sub-agent,请禁用其他探测:`OPENCLAW_LIVE_CODEX_HARNESS_IMAGE_PROBE=0 OPENCLAW_LIVE_CODEX_HARNESS_MCP_PROBE=0 OPENCLAW_LIVE_CODEX_HARNESS_GUARDIAN_PROBE=0 OPENCLAW_LIVE_CODEX_HARNESS_SUBAGENT_PROBE=1 pnpm test:docker:live-codex-harness`。
除非设置了 `OPENCLAW_LIVE_CODEX_HARNESS_SUBAGENT_ONLY=0`,否则它会在 sub-agent 探测后退出。
- Crestodian rescue command 冒烟测试:`pnpm test:live:crestodian-rescue-channel`
- 针对消息渠道 rescue command 表面的可选双保险检查。它会执行 `/crestodian status`,排入一个持久模型变更,回复 `/crestodian yes`,并验证审计 / 配置写入路径。
- Crestodian planner Docker 冒烟测试:`pnpm test:docker:crestodian-planner`
- 在一个无配置容器中运行 Crestodian并在 `PATH` 上提供一个伪造的 Claude CLI验证模糊 planner 回退会转换为一条带审计的类型化配置写入。
- Crestodian 首次运行 Docker 冒烟测试:`pnpm test:docker:crestodian-first-run`
- 从空的 OpenClaw 状态目录启动,将裸 `openclaw` 路由到 Crestodian应用设置 / 模型 / 智能体 / Discord 插件 + SecretRef 写入,验证配置,并核对审计条目。相同的 Ring 0 设置路径也会在 QA Lab 中通过 `pnpm openclaw qa suite --scenario crestodian-ring-zero-setup` 覆盖。
- Moonshot / Kimi 成本冒烟测试:设置 `MOONSHOT_API_KEY` 后,运行 `openclaw models list --provider moonshot --json`,然后针对 `moonshot/kimi-k2.6` 运行一个隔离的 `openclaw agent --local --session-id live-kimi-cost --message 'Reply exactly: KIMI_LIVE_OK' --thinking off --json`。验证 JSON 报告的是 Moonshot / K2.6,并且助手转录中存储了规范化后的 `usage.cost`
- 从空的 OpenClaw 状态目录启动,将裸 `openclaw` 路由到 Crestodian应用 setup / model / agent / Discord plugin + SecretRef 写入,验证配置,并检查审计条目。相同的 Ring 0 setup 路径也会在 QA Lab 中通过 `pnpm openclaw qa suite --scenario crestodian-ring-zero-setup` 覆盖。
- Moonshot / Kimi 成本冒烟测试:设置 `MOONSHOT_API_KEY` 后,运行 `openclaw models list --provider moonshot --json`,然后针对 `moonshot/kimi-k2.6` 运行一个隔离的 `openclaw agent --local --session-id live-kimi-cost --message 'Reply exactly: KIMI_LIVE_OK' --thinking off --json`
验证 JSON 报告的是 Moonshot / K2.6,并且 assistant transcript 存储了规范化的 `usage.cost`
提示:当你只需要一个失败用例时,优先通过下文描述的 allowlist 环境变量来缩小实时测试范围。
提示:当你只需要一个失败用例时,优先使用下面描述的 allowlist 环境变量来缩小 live 测试范围。
## QA 专用运行器
当你需要 QA Lab 级别的真实性时,这些命令与主测试套件并列存在:
当你需要 QA-lab 级别的真实环境时,这些命令与主测试套件并列存在:
CI 会在专用工作流中运行 QA Lab。`Parity gate` 会在匹配的 PR 上以及通过手动分发、结合模拟提供商运行。`QA-Lab - All Lanes` 会在 `main` 上每晚运行,也可通过手动分发运行,其中模拟 parity gate、实时 Matrix 测试通道和 Convex 管理的实时 Telegram 测试通道会作为并行作业执行。`OpenClaw Release Checks` 会在发布批准前运行相同的测试通道。
CI 会在专用工作流中运行 QA Lab。`Parity gate` 会在匹配的 PR 上运行,也可通过手动触发使用 mock 提供商运行。`QA-Lab - All Lanes` 会在 `main` 上每晚运行,也可手动触发,并将 mock parity gate、live Matrix 通道和 Convex 管理的 live Telegram 通道作为并行作业运行。`OpenClaw Release Checks` 会在发布批准前运行相同的通道。
- `pnpm openclaw qa suite`
- 直接在宿主机上运行基于仓库的 QA 场景。
- 默认会使用隔离的 Gateway 网关工作进程,并行运行多个选中的场景。`qa-channel` 默认并发数为 4受所选场景数量限制。使用 `--concurrency <count>` 调整工作进程数量,或使用 `--concurrency 1` 运行旧的串行测试通道。
- 任何场景失败时都会以非零状态退出。若你想保留工件但不希望退出码失败,请使用 `--allow-failures`
- 直接在主机上运行基于仓库的 QA 场景。
- 默认并行运行多个选中的场景,并使用隔离的 Gateway 网关 worker。`qa-channel` 默认并发数为 4受所选场景数量限制。使用 `--concurrency <count>` 调整 worker 数量,或使用 `--concurrency 1` 回到旧的串行通道。
- 任一场景失败时会以非零状态退出。如果你想保留产物而不返回失败退出码,可使用 `--allow-failures`
- 支持提供商模式 `live-frontier`、`mock-openai` 和 `aimock`
`aimock` 会启动一个本地的 AIMock 支持的提供商服务器,用于实验性 fixture 和协议模拟覆盖,但不会替代具备场景感知能力的 `mock-openai` 测试通道。
`aimock` 会启动一个本地的 AIMock 支持的提供商服务器,用于实验性 fixture 和协议 mock 覆盖,而不会替代带场景感知的 `mock-openai` 通道。
- `pnpm openclaw qa suite --runner multipass`
- 在一次性 Multipass Linux VM 中运行同的 QA 套件。
- 与宿主机上 `qa suite` 保持相同的场景选择行为。
- 在一次性 Multipass Linux VM 中运行同的 QA 测试套件。
- 保持与主机上 `qa suite` 相同的场景选择行为。
- 复用与 `qa suite` 相同的提供商 / 模型选择标志。
- 实时运行会转发适合访客机使用的受支持 QA 认证输入基于环境变量的提供商密钥、QA 实时提供商配置路径,以及存在时的 `CODEX_HOME`
- 输出目录必须保持在仓库根目录下,以便访客机能够通过挂载的工作区回写内容
- 会`.artifacts/qa-e2e/...` 下写入常规 QA 报告 + 摘要,以及 Multipass 日志
- live 运行会转发对来宾系统实用的受支持 QA 凭证输入基于环境变量的提供商密钥、QA live 提供商配置路径,以及存在时的 `CODEX_HOME`
- 输出目录必须保持在仓库根目录下,以便来宾可以通过挂载的工作区回写
- 会将常规 QA 报告 + 摘要以及 Multipass 日志写入 `.artifacts/qa-e2e/...`
- `pnpm qa:lab:up`
- 启动 Docker 支持的 QA 站点,用于偏操作员风格的 QA 工作。
- 启动 Docker 支持的 QA 站点,用于偏运维风格的 QA 工作。
- `pnpm test:docker:npm-onboard-channel-agent`
- 从当前 checkout 构建一个 npm tarball在 Docker 中全局安装,运行非交互式 OpenAI API 密钥新手引导,默认配置 Telegram验证启用该插件会按需安装运行时依赖运行 doctor并针对一个模拟的 OpenAI 端点执行一次本地智能体轮次。
- 使用 `OPENCLAW_NPM_ONBOARD_CHANNEL=discord`在同一个打包安装测试通道中改为运行 Discord。
- 从当前 checkout 构建一个 npm tarball在 Docker 中全局安装,运行非交互式 OpenAI API-key 新手引导,默认配置 Telegram验证启用该插件会按需安装运行时依赖运行 doctor并针对一个模拟的 OpenAI 端点执行一次本地智能体轮次。
- 使用 `OPENCLAW_NPM_ONBOARD_CHANNEL=discord`运行同样的已打包安装通道,但使用 Discord。
- `pnpm test:docker:session-runtime-context`
- 为嵌入式运行时上下文转录运行一个确定性的已构建应用 Docker 冒烟测试。它会验证隐藏的 OpenClaw 运行时上下文被持久化为一条非显示的自定义消息,而不是泄漏到可见的用户轮次中;后注入一个受影响的损坏会话 JSONL并验证 `openclaw doctor --fix` 会将其重写到当前活动分支,同时创建备份。
- 运行一个确定性的 built-app Docker 冒烟测试,用于嵌入式运行时上下文 transcript。它会验证隐藏的 OpenClaw 运行时上下文被持久化为一条非显示的自定义消息,而不是泄漏到可见的用户轮次中;后注入一个受影响的损坏会话 JSONL并验证 `openclaw doctor --fix` 会将其重写到当前活动分支,并保留备份。
- `pnpm test:docker:npm-telegram-live`
- 在 Docker 中安装一个已发布的 OpenClaw 包,运行已安装包的新手引导,通过已安装的 CLI 配置 Telegram然后复用实时 Telegram QA 测试通道,并将该已安装包作为被测 Gateway 网关。
- 默认使用 `OPENCLAW_NPM_TELEGRAM_PACKAGE_SPEC=openclaw@beta`
- 使用与 `pnpm openclaw qa telegram` 相同的 Telegram 环境变量凭证或 Convex 凭证来源。对于 CI / 发布自动化,设置 `OPENCLAW_NPM_TELEGRAM_CREDENTIAL_SOURCE=convex`,以及 `OPENCLAW_QA_CONVEX_SITE_URL` 和角色密钥。如果在 CI 中存在 `OPENCLAW_QA_CONVEX_SITE_URL` 和 Convex 角色密钥,Docker 包装器会自动选择 Convex。
- `OPENCLAW_NPM_TELEGRAM_CREDENTIAL_ROLE=ci|maintainer` 可只为该测试通道覆盖共享的 `OPENCLAW_QA_CREDENTIAL_ROLE`
- GitHub Actions 将此测试通道暴露为手动维护者工作流 `NPM Telegram Beta E2E`。它不会在合并时运行。该工作流使用 `qa-live-shared` 环境和 Convex CI 凭证租约。
- 在 Docker 中安装一个已发布的 OpenClaw 包,运行已安装包的新手引导,通过已安装的 CLI 配置 Telegram然后复用 live Telegram QA 通道,并将这个已安装包作为被测 Gateway 网关。
- 默认值为 `OPENCLAW_NPM_TELEGRAM_PACKAGE_SPEC=openclaw@beta`
- 使用与 `pnpm openclaw qa telegram` 相同的 Telegram 环境变量凭证或 Convex 凭证来源。对于 CI / 发布自动化,设置 `OPENCLAW_NPM_TELEGRAM_CREDENTIAL_SOURCE=convex`,以及 `OPENCLAW_QA_CONVEX_SITE_URL` 和角色密钥。如果在 CI 中存在 `OPENCLAW_QA_CONVEX_SITE_URL` 和 Convex 角色密钥Docker 包装器会自动选择 Convex。
- `OPENCLAW_NPM_TELEGRAM_CREDENTIAL_ROLE=ci|maintainer` 会仅为此通道覆盖共享的 `OPENCLAW_QA_CREDENTIAL_ROLE`
- GitHub Actions 将此通道公开为手动维护者工作流 `NPM Telegram Beta E2E`。它不会在合并时运行。该工作流使用 `qa-live-shared` environment 和 Convex CI 凭证租约。
- `pnpm test:docker:bundled-channel-deps`
- 在 Docker 中打包并安装当前 OpenClaw 构建,配置 OpenAI 后启动 Gateway 网关,然后通过编辑配置启用内置渠道 / 插件。
- 验证设置发现阶段会让未配置插件的运行时依赖保持缺失状态;首次配置后的 Gateway 网关启动或 doctor 运行时,会按需安装每个内置插件的运行时依赖;第二次重启不会重新安装已激活的依赖。
- 还会安装一个已知较旧的 npm 基线版本,在运行 `openclaw update --tag <candidate>` 之前启用 Telegram并验证候选版本的更新后 doctor 会修复内置渠道运行时依赖,而无需 harness 侧的 postinstall 修复。
- 在 Docker 中打包并安装当前 OpenClaw 构建,启动已配置 OpenAI 的 Gateway 网关,然后通过配置编辑启用内置的渠道 / 插件。
- 验证 setup 发现阶段会让未配置插件的运行时依赖保持未安装状态,第一次配置后的 Gateway 网关或 doctor 运行会按需安装每个内置插件的运行时依赖,而第二次重启不会重新安装已经激活过的依赖。
- 还会安装一个已知较旧的 npm 基线版本,在运行 `openclaw update --tag <candidate>` 之前启用 Telegram并验证候选版本的更新后 doctor 能修复内置渠道运行时依赖,而不需要 harness 侧的 postinstall 修复。
- `pnpm test:parallels:npm-update`
- 在 Parallels 访客系统中运行原生打包安装更新冒烟测试。每个选定平台都会先安装请求的基线包,然后在同一访客系统中运行已安装的 `openclaw update` 命令并验证已安装版本、更新状态、Gateway 网关就绪情况,以及一次本地智能体轮次。
- 在迭代单个访客系统时,使用 `--platform macos`、`--platform windows` 或 `--platform linux`。使用 `--json` 获取摘要工件路径和各测试通道状态。
- OpenAI 测试通道默认使用 `openai/gpt-5.5` 作为实时智能体轮次验证模型。若要有意验证另一个 OpenAI 模型,可传入 `--model <provider/model>` 或设置 `OPENCLAW_PARALLELS_OPENAI_MODEL`
- 在本地长时间运行时,用宿主机超时包装,以避免 Parallels 传输卡顿耗尽剩余测试窗口:
- 在 Parallels 来宾环境中运行原生已打包安装更新冒烟测试。每个选中的平台都会先安装所请求的基线包,然后在同一来宾中运行已安装的 `openclaw update` 命令并验证已安装版本、更新状态、gateway 就绪情况以及一次本地智能体轮次。
- 在迭代单个来宾时,使用 `--platform macos`、`--platform windows` 或 `--platform linux`。使用 `--json` 获取摘要产物路径和每个通道状态。
- OpenAI 通道默认使用 `openai/gpt-5.5` 作为 live 智能体轮次验证模型。若你有意验证其他 OpenAI 模型,可传入 `--model <provider/model>` 或设置 `OPENCLAW_PARALLELS_OPENAI_MODEL`
- 将长时间本地运行包裹在主机超时中,这样 Parallels 传输卡顿就不会耗尽剩余测试窗口:
```bash
timeout --foreground 150m pnpm test:parallels:npm-update -- --json
timeout --foreground 90m pnpm test:parallels:npm-update -- --platform windows --json
```
- 该脚本会将嵌套测试通道日志写入 `/tmp/openclaw-parallels-npm-update.*`不要在假设外层包装器卡住之前,先检查 `windows-update.log`、`macos-update.log` 或 `linux-update.log`
- 在冷启动访客系统上Windows 更新可能会在更新后的 doctor / 运行时依赖修复阶段耗时 10 到 15 分钟;只要嵌套的 npm 调试日志仍在推进,这仍属于正常状态。
- 不要将这个汇总包装器与单独的 Parallels macOS、Windows 或 Linux 冒烟测试通道并行运行。它们共享 VM 状态,可能会在快照恢复、包服务或访客 Gateway 网关状态上发生冲突。
- 更新后的验证会运行常规内置插件表面,因为像语音、图像生成和媒体理解这样的能力门面即使在智能体轮次本身只检查简单文本回复时,也会通过内置运行时 API 加载
- 该脚本会将嵌套通道日志写入 `/tmp/openclaw-parallels-npm-update.*`。在假设外层包装器卡住之前,先检查 `windows-update.log`、`macos-update.log` 或 `linux-update.log`
- 在冷启动来宾上Windows 更新可能会在更新后的 doctor / 运行时依赖修复阶段耗费 10 到 15 分钟;只要嵌套的 npm 调试日志仍在推进,这就是健康状态。
- 不要将这个聚合包装器与单独的 Parallels macOS、Windows 或 Linux 冒烟通道并行运行。它们共享 VM 状态,可能会在快照恢复、包服务或来宾 gateway 状态上发生冲突。
- 更新后验证会运行常规的内置插件表面,因为语音、图像生成和媒体理解等 capability facade 是通过内置运行时 API 加载的,即使智能体轮次本身只检查一个简单的文本响应
- `pnpm openclaw qa aimock`
- 仅启动本地 AIMock 提供商服务器,用于直接协议冒烟测试。
- `pnpm openclaw qa matrix`
- 针对一次性 Docker 支持的 Tuwunel homeserver 运行 Matrix 实时 QA 测试通道。
- 该 QA 宿主当前仅供仓库 / 开发使用。打包后的 OpenClaw 安装不包含 `qa-lab`,因此不会暴露 `openclaw qa`
- 针对一次性的 Docker 支持 Tuwunel homeserver 运行 Matrix live QA 通道。
- 这个 QA 主机目前仅供仓库 / 开发使用。已打包的 OpenClaw 安装不包含 `qa-lab`,因此不会暴露 `openclaw qa`
- 仓库 checkout 会直接加载内置运行器;不需要单独的插件安装步骤。
- 预配三个临时 Matrix 用户(`driver`、`sut`、`observer`)以及一个私有房间,然后启动一个以真实 Matrix 插件作为 SUT 传输层的 QA Gateway 网关子进程。
- 默认使用固定稳定版 Tuwunel 镜像 `ghcr.io/matrix-construct/tuwunel:v1.5.1`。当你需要测试不同镜像时,可使用 `OPENCLAW_QA_MATRIX_TUWUNEL_IMAGE` 覆盖。
- 由于该测试通道会在本地预配一次性用户,因此 Matrix 不暴露共享凭证来源标志。
- 会`.artifacts/qa-e2e/...` 下写入 Matrix QA 报告、摘要、observed-events 工件,以及合并后的 stdout / stderr 输出日志
- 默认会输出进度,并通过 `OPENCLAW_QA_MATRIX_TIMEOUT_MS` 强制执行硬运行超时(默认 30 分钟)。清理由 `OPENCLAW_QA_MATRIX_CLEANUP_TIMEOUT_MS` 限制,失败信息中会包含用于恢复的 `docker compose ... down --remove-orphans` 命令。
- 预配三个临时 Matrix 用户(`driver`、`sut`、`observer`)以及一个私有房间,然后启动一个以真实 Matrix 插件作为被测传输层的 QA gateway 子进程。
- 默认使用固定稳定版 Tuwunel 镜像 `ghcr.io/matrix-construct/tuwunel:v1.5.1`。当你需要测试不同镜像时,可使用 `OPENCLAW_QA_MATRIX_TUWUNEL_IMAGE` 覆盖。
- Matrix 不暴露共享凭证来源标志,因为该通道会在本地预配一次性用户
- 会将 Matrix QA 报告、摘要、observed-events 产物以及合并的 stdout / stderr 输出日志写入 `.artifacts/qa-e2e/...`
- 默认会输出进度,并通过 `OPENCLAW_QA_MATRIX_TIMEOUT_MS` 强制执行硬运行超时(默认 30 分钟)。清理由 `OPENCLAW_QA_MATRIX_CLEANUP_TIMEOUT_MS` 限制,失败信息中会包含用于恢复的 `docker compose ... down --remove-orphans` 命令。
- `pnpm openclaw qa telegram`
- 使用来自环境变量的 driver 和 SUT 机器人令牌,针对真实私有群组运行 Telegram 实时 QA 测试通道。
- 使用环境变量中的 driver 和 SUT bot token针对真实私有群组运行 Telegram live QA 通道。
- 需要 `OPENCLAW_QA_TELEGRAM_GROUP_ID`、`OPENCLAW_QA_TELEGRAM_DRIVER_BOT_TOKEN` 和 `OPENCLAW_QA_TELEGRAM_SUT_BOT_TOKEN`。群组 id 必须是 Telegram chat 的数字 id。
- 支持 `--credential-source convex` 以使用共享池化凭证。默认使用环境变量模式,或设置 `OPENCLAW_QA_CREDENTIAL_SOURCE=convex` 以启用池化租约。
- 任一场景失败时都会以非零状态退出。若你想保留工件但不希望退出码失败,请使用 `--allow-failures`
- 需要同一个私有群组中的两个不同机器人,并且 SUT 机器人需要公开 Telegram 用户名。
- 为了稳定地观察机器人之间的交互,请在 `@BotFather` 中为两个机器人都启用 Bot-to-Bot Communication Mode并确保 driver 机器人可以观察群组中的机器人流量。
- 会`.artifacts/qa-e2e/...` 下写入 Telegram QA 报告、摘要和 observed-messages 工件。回复场景会包含从 driver 发送请求到观察到 SUT 回复的 RTT。
- 支持 `--credential-source convex` 以使用共享池化凭证。默认使用 env 模式,或者设置 `OPENCLAW_QA_CREDENTIAL_SOURCE=convex` 以启用池化租约。
- 任一场景失败时会以非零状态退出。如果你想保留产物而不返回失败退出码,可使用 `--allow-failures`
- 需要同一个私有群组中的两个不同 bot并且 SUT bot 必须公开一个 Telegram 用户名。
- 为了实现稳定的 bot 对 bot 观察,请在 `@BotFather` 中为两个 bot 启用 Bot-to-Bot Communication Mode并确保 driver bot 可以观察群组中的 bot 流量。
- 会将 Telegram QA 报告、摘要和 observed-messages 产物写入 `.artifacts/qa-e2e/...`。回复类场景会包含从 driver 发送请求到观察到 SUT 回复的 RTT。
实时传输测试通道共享一个标准契约,因此新增传输层时不会发生漂移:
live 传输通道共享一份标准契约,这样新传输方式就不会发生漂移:
`qa-channel` 仍然是广泛的合成 QA 套件,不属于实时传输覆盖矩阵的一部分。
`qa-channel` 仍然是广泛的合成 QA 测试套件,不属于 live 传输覆盖矩阵的一部分。
| 通道 | Canary | 提及门控 | allowlist 阻止 | 顶层回复 | 重启恢复 | 线程后续回复 | 线程隔离 | 反应观察 | 帮助命令 |
| ---- | ------ | -------- | -------------- | -------- | -------- | ------------ | -------- | -------- | -------- |
| Matrix | x | x | x | x | x | x | x | x | |
| Telegram | x | | | | | | | | x |
| 通道 | Canary | Mention gating | Allowlist block | 顶层回复 | 重启恢复 | 线程后续回复 | 线程隔离 | 表情反应观察 | 帮助命令 |
| -------- | ------ | -------------- | --------------- | --------------- | -------------- | ---------------- | ---------------- | -------------------- | ------------ |
| Matrix | x | x | x | x | x | x | x | x | |
| Telegram | x | | | | | | | | x |
### 通过 Convex 共享 Telegram 凭证v1
当为 `openclaw qa telegram` 启用 `--credential-source convex`(或 `OPENCLAW_QA_CREDENTIAL_SOURCE=convex`QA lab 会从 Convex 支持的凭证池获取一个独占租约,在测试通道运行期间持续为该租约发送心跳,并在关闭时释放租约。
当为 `openclaw qa telegram` 启用 `--credential-source convex`(或 `OPENCLAW_QA_CREDENTIAL_SOURCE=convex`QA lab 会从 Convex 支持的池获取一个独占租约,在通道运行期间持续为该租约发送心跳,并在关闭时释放租约。
参考 Convex 项目脚手架:
- `qa/convex-credential-broker/`
必需环境变量:
必需环境变量:
- `OPENCLAW_QA_CONVEX_SITE_URL`(例如 `https://your-deployment.convex.site`
- 为所选角色提供一个密钥:
- `OPENCLAW_QA_CONVEX_SECRET_MAINTAINER`,用于 `maintainer`
- `OPENCLAW_QA_CONVEX_SECRET_CI`,用于 `ci`
- `maintainer` 使用 `OPENCLAW_QA_CONVEX_SECRET_MAINTAINER`
- `ci` 使用 `OPENCLAW_QA_CONVEX_SECRET_CI`
- 凭证角色选择:
- CLI`--credential-role maintainer|ci`
- 环境变量默认值:`OPENCLAW_QA_CREDENTIAL_ROLE`(在 CI 中默认`ci`,否则默认是 `maintainer`
- 环境变量默认值:`OPENCLAW_QA_CREDENTIAL_ROLE`(在 CI 中默认`ci`,否则默认为 `maintainer`
可选环境变量:
@ -169,13 +170,13 @@ CI 会在专用工作流中运行 QA Lab。`Parity gate` 会在匹配的 PR 上
- `OPENCLAW_QA_CREDENTIAL_HTTP_TIMEOUT_MS`(默认 `15000`
- `OPENCLAW_QA_CONVEX_ENDPOINT_PREFIX`(默认 `/qa-credentials/v1`
- `OPENCLAW_QA_CREDENTIAL_OWNER_ID`(可选追踪 id
- `OPENCLAW_QA_ALLOW_INSECURE_HTTP=1` 允许仅供本地开发使用的 loopback `http://` Convex URL。
- `OPENCLAW_QA_ALLOW_INSECURE_HTTP=1` 允许在仅限本地开发时使用 loopback `http://` Convex URL。
正常运行时,`OPENCLAW_QA_CONVEX_SITE_URL` 应使用 `https://`
维护者管理命令(池添加 / 删除 / 列表)明确要求使用 `OPENCLAW_QA_CONVEX_SECRET_MAINTAINER`
供维护者使用的 CLI 助命令:
供维护者使用的 CLI 助命令:
```bash
pnpm openclaw qa credentials doctor
@ -184,7 +185,7 @@ pnpm openclaw qa credentials list --kind telegram
pnpm openclaw qa credentials remove --credential-id <credential-id>
```
实时运行前使用 `doctor`,可检查 Convex 站点 URL、broker 密钥、端点前缀、HTTP 超时以及 admin / list 可达性,同时不会打印密钥值。脚本和 CI 工具中可使用 `--json` 获取机器可读输出。
live 运行前使用 `doctor`,以检查 Convex 站点 URL、broker 密钥、端点前缀、HTTP 超时以及 admin / list 可达性,同时不会打印密钥值。在脚本和 CI 工具中使用 `--json` 可获得机器可读输出。
默认端点契约(`OPENCLAW_QA_CONVEX_SITE_URL` + `/qa-credentials/v1`
@ -209,60 +210,62 @@ pnpm openclaw qa credentials remove --credential-id <credential-id>
- 请求:`{ kind?, status?, includePayload?, limit? }`
- 成功:`{ status: "ok", credentials, count }`
Telegram 类型的载荷格式
Telegram 类型的 payload 结构
- `{ groupId: string, driverToken: string, sutToken: string }`
- `groupId` 必须是 Telegram chat 数字 id 字符串。
- 对于 `kind: "telegram"``admin/add` 会验证该格式,并拒绝格式错误的载荷
- `groupId` 必须是 Telegram chat 数字 id 字符串。
- 对于 `kind: "telegram"``admin/add` 会验证此结构,并拒绝格式错误的 payload
### 向 QA 添加一个渠道
要将一个渠道添加到 Markdown QA 系统中,恰好需要两样东西
将一个渠道添加到 Markdown QA 系统中,严格来说只需要两件事
1. 该渠道的传输适配器。
2. 一个用于验证渠道契约的场景包。
1. 一个该渠道的传输适配器。
2. 一个用于验证渠道契约的场景包。
如果共享的 `qa-lab` 宿主可以承担流程,就不要新增顶层 QA 命令根。
如果共享的 `qa-lab` 主机能够承载整个流程,就不要新增一个顶层 QA 命令根。
`qa-lab` 负责共享宿主机制:
`qa-lab` 负责共享主机制:
- `openclaw qa` 命令根
- 套件启动和清理
- 工作进程并发
- 工件写入
- 测试套件启动与关闭
- worker 并发
- 产物写入
- 报告生成
- 场景执行
- 对旧 `qa-channel` 场景的兼容别名
- 对旧 `qa-channel` 场景的兼容别名
运行器插件负责传输契约:
- 如何将 `openclaw qa <runner>` 挂载到共享 `qa` 根之
- 如何为该传输层配置 Gateway 网关
- `openclaw qa <runner>` 如何挂载在共享 `qa`
- 如何为该传输配置 gateway
- 如何检查就绪状态
- 如何注入入站事件
- 如何观察出站消息
- 如何暴露转录和规范化的传输状态
- 如何执行基于传输层的动作
- 如何处理传输层特定的重置或清理
- 如何暴露 transcript 和规范化传输状态
- 如何执行由传输支持的动作
- 如何处理传输特有的重置或清理
新渠道的最低接入门槛是:
1. 保持由 `qa-lab` 拥有共享的 `qa` 根。
2. 在共享的 `qa-lab` 宿主接缝上实现传输运行器。
3. 将传输层特定机制保留在运行器插件或渠道 harness 内部。
4. 将运行器挂载为 `openclaw qa <runner>`,而不是注册一个竞争的根命令。运行器插件应在 `openclaw.plugin.json` 中声明 `qaRunners`,并从 `runtime-api.ts` 导出对应的 `qaRunnerCliRegistrations` 数组。保持 `runtime-api.ts` 轻量;惰性 CLI 和运行器执行应留在独立入口点之后。
5. 在带主题的 `qa/scenarios/` 目录下编写或改造 Markdown 场景。
6. 对新场景使用通用场景辅助方法。
7. 除非仓库正在进行有意迁移,否则保持现有兼容别名继续可用。
1. 保持 `qa-lab` 作为共享 `qa` 根的拥有者。
2. 在共享的 `qa-lab` 主机接缝上实现该传输运行器。
3. 将传输特有机制保留在运行器插件或渠道 harness 内部。
4. 将运行器挂载为 `openclaw qa <runner>`,而不是注册一个相互竞争的根命令。
运行器插件应在 `openclaw.plugin.json` 中声明 `qaRunners`,并从 `runtime-api.ts` 导出匹配的 `qaRunnerCliRegistrations` 数组。
保持 `runtime-api.ts` 轻量;惰性 CLI 和运行器执行应留在单独的入口点之后。
5. 在主题化的 `qa/scenarios/` 目录下编写或改造 Markdown 场景。
6. 为新场景使用通用场景帮助方法。
7. 保持现有兼容别名继续可用,除非仓库正在进行有意的迁移。
决策规则是严格的:
- 如果某个行为可以在 `qa-lab` 中统一表达一次,就把它放 `qa-lab`
- 如果某个行为依赖某一个渠道传输层,就把它保留在该运行器插件或插件 harness 中。
- 如果某个场景需要一个多个渠道都可使用的新能力,请添加通用辅助方法,而不是在 `suite.ts` 中加入渠道专属分支。
- 如果某个行为只对一个传输层有意义,就保持该场景为传输层专属,并在场景契约中明确说明。
- 如果某个行为可以在 `qa-lab` 中统一表达一次,就把它放 `qa-lab`
- 如果某个行为依赖于单一渠道传输,就把它保留在该运行器插件或插件 harness 中。
- 如果某个场景需要一个超过一个渠道都可使用的新能力,就添加通用帮助方法,而不是在 `suite.ts` 中添加渠道特定分支。
- 如果某个行为只对单一传输有意义,就让该场景保持传输特定,并在场景契约中明确说明。
新场景推荐使用的通用辅助名称是:
新场景推荐使用的通用帮助方法名称是:
- `waitForTransportReady`
- `waitForChannelReady`
@ -285,220 +288,222 @@ Telegram 类型的载荷格式:
- `formatConversationTranscript`
- `resetBus`
新的渠道工作应使用通用辅助名称。
兼容别名的存在是为了避免一次性迁移日,而不是作为新场景编写的范式
新的渠道工作应使用通用帮助方法名称。
兼容别名的存在是为了避免一次性大迁移,而不是作为新场景编写的模型
## 测试套件(各自运行位置
## 测试套件(在哪儿运行什么
可以将这些套件理解为“真实性逐步增强”(同时不稳定性 / 成本也随之增加):
可以把这些测试套件理解为“真实性逐步增加”(同时不稳定性 / 成本也逐步增加):
### 单元 / 集成(默认)
### Unit / integration(默认)
- 命令:`pnpm test`
- 配置:未定向运行使用 `vitest.full-*.config.ts` 分片集,并且可能会将多项目分片展开为按项目分的配置,以便并行调度
- 文件:`vitest.unit.config.ts` 覆盖的 `src/**/*.test.ts`、`packages/**/*.test.ts`、`test/**/*.test.ts` 下的核心 / 单元清单,以及已列入白名单的 `ui` Node 测试
- 配置:未指定目标的运行使用 `vitest.full-*.config.ts` 分片集,并且可能会将多项目分片展开为按项目分的配置,以便并行调度
- 文件:核心 / unit 清单位于 `src/**/*.test.ts`、`packages/**/*.test.ts`、`test/**/*.test.ts`,以及由 `vitest.unit.config.ts` 覆盖的白名单 `ui` Node 测试
- 范围:
- 纯单元测试
- 进程内集成测试(Gateway 网关认证、路由、工具、解析、配置)
- 针对已知缺陷的确定性回归测试
- 进程内集成测试(gateway 凭证、路由、工具、解析、配置)
- 针对已知 bug 的确定性回归测试
- 预期:
- 在 CI 中运行
- 不需要真实密钥
- 应该快速且稳定
<AccordionGroup>
<Accordion title="项目、分片和作用域测试通道">
<Accordion title="项目、分片和作用域通道">
- 未定向`pnpm test` 会运行 12 个更小的分片配置(`core-unit-fast`、`core-unit-src`、`core-unit-security`、`core-unit-ui`、`core-unit-support`、`core-support-boundary`、`core-contracts`、`core-bundled`、`core-runtime`、`agentic`、`auto-reply`、`extensions`),而不是启动一个巨大的原生根项目进程。这样可以降低高负载机器上的峰值 RSS并避免 auto-reply / 扩展相关工作拖累无关套件。
- `pnpm test --watch` 仍然使用原生根 `vitest.config.ts` 项目图,因为多分片监循环并不现实。
- `pnpm test`、`pnpm test:watch` 和 `pnpm test:perf:imports` 现在会先通过有作用域的测试通道路由显式文件 / 目录目标,因此 `pnpm test extensions/discord/src/monitor/message-handler.preflight.test.ts`必承担完整根项目启动成本。
- `pnpm test:changed` 默认会将 git 变更路径展开为低成本的有作用域测试通道:直接测试编辑、同级 `*.test.ts` 文件、显式源码映射以及本地导入图依赖项。配置 / 设置 / package 编辑不会扩大测试范围,除非你显式使用 `OPENCLAW_TEST_CHANGED_BROAD=1 pnpm test:changed`
- `pnpm check:changed`针对小范围修改的常规智能本地检查门禁。它会将 diff 分类到 core、core tests、extensions、extension tests、apps、docs、release metadata、实时 Docker 工具和工具链然后运行匹配的类型检查、lint 和保护命令。它不会运行 Vitest 测试;如需测试证明,请调用 `pnpm test:changed` 或显式`pnpm test <target>`。仅含发布元数据的版本提升会运行有针对性的版本 / 配置 / 根依赖检查,并带有一个保护机制,用于拒绝顶层版本字段之外的 package 变更。
- 实时 Docker ACP harness 的编辑会运行聚焦检查:对实时 Docker 认证脚本进行 shell 语法检查,并执行一次实时 Docker 调度器 dry-run。只有当 diff 仅限于 `scripts["test:docker:live-*"]` 时,才会包含 `package.json` 变更;依赖、导出、版本及其他 package 表面编辑仍会走更广泛的保护检查
- 来自 agents、commands、plugins、auto-reply 辅助方法、`plugin-sdk` 以及类似纯工具区域的轻导入单元测试会路由到 `unit-fast` 测试通道,该通道会跳过 `test/setup-openclaw-runtime.ts`;有状态 / 运行时较重的文件仍保留在现有测试通道中
- 一些选定的 `plugin-sdk``commands` 辅助源码文件也会将 changed 模式运行映射到这些轻量测试通道中的显式同级测试,因此辅助方法编辑不必为该目录重跑完整的重型套件。
- `auto-reply` 为顶层 core 辅助方法、顶层 `reply.*` 集成测试以及 `src/auto-reply/reply/**` 子树提供了专用分桶。CI 还会进一步将 reply 子树拆分为 agent-runner、dispatch 和 commands / state-routing 分片,从而避免某个导入较重的分桶独占完整 Node 收尾阶段
- 未指定目标`pnpm test` 会运行 12 个更小的分片配置(`core-unit-fast`、`core-unit-src`、`core-unit-security`、`core-unit-ui`、`core-unit-support`、`core-support-boundary`、`core-contracts`、`core-bundled`、`core-runtime`、`agentic`、`auto-reply`、`extensions`),而不是一个巨大的原生根项目进程。这样可以降低高负载机器上的峰值 RSS并避免 auto-reply / 扩展相关工作拖慢无关测试套件。
- `pnpm test --watch` 仍然使用原生根 `vitest.config.ts` 项目图,因为多分片监循环并不现实。
- `pnpm test`、`pnpm test:watch` 和 `pnpm test:perf:imports` 会先通过有作用域的通道路由显式文件 / 目录目标,因此 `pnpm test extensions/discord/src/monitor/message-handler.preflight.test.ts`需要承担完整根项目启动的成本。
- `pnpm test:changed` 默认会将变更的 git 路径展开为廉价的有作用域通道:直接测试编辑、同级 `*.test.ts` 文件、显式源码映射以及本地 import 图依赖方。除非你显式使用 `OPENCLAW_TEST_CHANGED_BROAD=1 pnpm test:changed`,否则配置 / setup / package 编辑不会触发大范围测试运行
- `pnpm check:changed`窄范围工作时常规的智能本地检查门禁。它会将 diff 分类为 core、core tests、extensions、extension tests、apps、docs、release metadata、live Docker tooling 和 tooling然后运行匹配的类型检查、lint 和 guard 命令。它不会运行 Vitest 测试;如需测试证明,请调用 `pnpm test:changed` 或显式执行 `pnpm test <target>`。仅包含发布元数据的版本提升会运行有针对性的版本 / 配置 / 根依赖检查,并带有一个 guard用于拒绝顶层 version 字段以外的 package 变更。
- live Docker ACP harness 编辑会运行聚焦检查:对 live Docker 认证脚本进行 shell 语法检查,并执行一次 live Docker 调度器 dry-run。只有当 diff 仅限于 `scripts["test:docker:live-*"]` 时,`package.json` 变更才会被纳入其中;依赖、导出、版本以及其他 package 表面编辑仍然使用更广泛的 guard
- 来自 agents、commands、plugins、auto-reply helpers、`plugin-sdk` 以及类似纯工具区域的轻 import 单元测试,会通过 `unit-fast` 通道路由,该通道会跳过 `test/setup-openclaw-runtime.ts`;有状态 / 运行时较重的文件则保留在现有通道上
- 选定的 `plugin-sdk``commands` helper 源文件也会在 changed 模式运行中映射到这些轻量通道中的显式同级测试,因此 helper 编辑可以避免为该目录重新运行完整的重型测试套件。
- `auto-reply` 为顶层 core helpers、顶层 `reply.*` 集成测试以及 `src/auto-reply/reply/**` 子树提供了专用分桶。CI 还会将 reply 子树进一步拆分为 agent-runner、dispatch 和 commands / state-routing 分片,这样单个 import 较重的分桶就不会独占整个 Node 尾部时间
</Accordion>
<Accordion title="嵌入式运行器覆盖">
<Accordion title="嵌入式运行器覆盖范围">
- 当你修改消息工具发现输入或压缩运行时上下文时,请同时保持两层覆盖。
- 为纯路由和规范化边界添加聚焦的辅助方法回归测试。
- 保持嵌入式运行器集成套件健康:
- 当你更改消息工具发现输入或压缩运行时上下文时,务必同时保留两个层级的覆盖。
- 为纯路由和规范化边界添加聚焦的 helper 回归测试。
- 保持嵌入式运行器集成测试套件健康:
`src/agents/pi-embedded-runner/compact.hooks.test.ts`
`src/agents/pi-embedded-runner/run.overflow-compaction.test.ts`
`src/agents/pi-embedded-runner/run.overflow-compaction.loop.test.ts`
- 这些套件会验证带作用域的 id 和压缩行为仍然通过真实的 `run.ts` / `compact.ts` 路径流动;仅有辅助方法测试不能充分替代这些集成路径。
- 这些测试套件会验证带作用域的 id 和压缩行为仍然会经过真实的 `run.ts` / `compact.ts` 路径;仅有 helper 测试并不能充分替代这些集成路径。
</Accordion>
<Accordion title="Vitest 池隔离默认值">
<Accordion title="Vitest 池隔离默认值">
- 基础 Vitest 配置默认使用 `threads`
- 共享 Vitest 配置固定 `isolate: false`并在根项目、e2e 和实时配置中使用非隔离运行器。
- 根 UI 测试通道会保留其 `jsdom` 设置和优化器,但也运行在共享的非隔离运行器上。
- 每个 `pnpm test` 分片都继承共享 Vitest 配置中的相同 `threads` + `isolate: false` 默认值。
- `scripts/run-vitest.mjs` 默认会为 Vitest 子 Node 进程添加 `--no-maglev`,以减少大型本地运行期间的 V8 编译抖动。若要与原生 V8 行为比较,请设置 `OPENCLAW_VITEST_ENABLE_MAGLEV=1`
- 共享 Vitest 配置固定 `isolate: false`并在根项目、e2e 和 live 配置中使用非隔离运行器。
- 根 UI 通道保留其 `jsdom` setup 和 optimizer但同样运行在共享的非隔离运行器上。
- 每个 `pnpm test` 分片都从共享 Vitest 配置继承相同的 `threads` + `isolate: false` 默认值。
- `scripts/run-vitest.mjs` 默认会为 Vitest 子 Node 进程添加 `--no-maglev`,以减少大型本地运行期间的 V8 编译抖动。设置 `OPENCLAW_VITEST_ENABLE_MAGLEV=1` 可与原生 V8 行为进行对比
</Accordion>
<Accordion title="快速本地迭代">
- `pnpm changed:lanes` 会显示某个 diff 触发哪些架构测试通道。
- pre-commit hook 仅执行格式化。它会重新暂存格式化后的文件,不会运行 lint、类型检查或测试。
- `pnpm changed:lanes` 会显示某个 diff 触发哪些架构通道。
- pre-commit hook 仅负责格式化。它会重新暂存已格式化文件,不会运行 lint、类型检查或测试。
- 当你需要智能本地检查门禁时,请在交接或推送前显式运行 `pnpm check:changed`
- `pnpm test:changed` 默认会通过低成本的有作用域测试通道路由。仅当智能体判断某个 harness、配置、package 或契约编辑确实需要更广泛的 Vitest 覆盖时,才使用 `OPENCLAW_TEST_CHANGED_BROAD=1 pnpm test:changed`
- `pnpm test:max``pnpm test:changed:max` 保持相同的路由行为,只是使用更高的 worker 上限。
- 本地 worker 自动扩缩容有意保持保守,并且当宿主平均负载已经较高时会回退,因此多个并发 Vitest 运行默认造成的影响更小。
- 基础 Vitest 配置会将项目 / 配置文件标记为 `forceRerunTriggers`因此当测试接线变化时,changed 模式重跑仍然正确。
- 在受支持的宿主上,该配置会保持 `OPENCLAW_VITEST_FS_MODULE_CACHE` 启用;如果你想为直接性能分析指定一个显式缓存位置,请设置 `OPENCLAW_VITEST_FS_MODULE_CACHE_PATH=/abs/path`
- `pnpm test:changed` 默认通过廉价的有作用域通道进行路由。只有当智能体判断 harness、配置、package 或契约编辑确实需要更广泛的 Vitest 覆盖时,才使用 `OPENCLAW_TEST_CHANGED_BROAD=1 pnpm test:changed`
- `pnpm test:max``pnpm test:changed:max` 保持相同的路由行为,只是具有更高的 worker 上限。
- 本地 worker 自动伸缩刻意采取保守策略,当主机负载平均值已经较高时会回退,因此默认情况下多个并发 Vitest 运行造成的影响更小。
- 基础 Vitest 配置会将项目 / 配置文件标记为 `forceRerunTriggers`从而确保测试接线发生变化时 changed 模式重跑仍然正确。
- 配置会在受支持主机上保持启用 `OPENCLAW_VITEST_FS_MODULE_CACHE`;如果你希望为直接性能分析指定一个明确的缓存位置,请设置 `OPENCLAW_VITEST_FS_MODULE_CACHE_PATH=/abs/path`
</Accordion>
<Accordion title="性能调试">
- `pnpm test:perf:imports` 会启用 Vitest 导入耗时报告以及导入细分输出。
- `pnpm test:perf:imports:changed` 会将同样的性能分析视图限定为自 `origin/main` 以来变更的文件。
- 分片耗时数据会写入 `.artifacts/vitest-shard-timings.json`。整份配置运行会以配置路径作为 key基于 include-pattern 的 CI 分片会附加分片名称,以便单独跟踪过滤后的分片。
- 当某个热点测试的大部分时间仍花在启动导入上时,应将重型依赖放在一个狭窄的本地 `*.runtime.ts` 接缝之后,并直接 mock 该接缝,而不是为了传给 `vi.mock(...)` 就深层导入运行时辅助方法。
- `pnpm test:perf:changed:bench -- --ref <git-ref>` 会将已路由的 `test:changed` 与该已提交 diff 的原生根项目路径进行比较,并打印墙钟时间及 macOS 最大 RSS。
- `pnpm test:perf:changed:bench -- --worktree` 会通过 `scripts/test-projects.mjs` 和根 Vitest 配置对当前未提交工作树进行基准测试,并路由变更文件列表。
- `pnpm test:perf:profile:main` 会为 Vitest / Vite 启动和转换开销写入主线程 CPU profile。
- `pnpm test:perf:profile:runner` 会在禁用文件并行的情况下,为单元测试套件写入运行器 CPU + 堆 profile。
- `pnpm test:perf:imports` 会启用 Vitest import 时长报告以及 import 明细输出。
- `pnpm test:perf:imports:changed` 会将同样的性能分析视图限定到自 `origin/main` 以来变更的文件。
- 分片时序数据会写入 `.artifacts/vitest-shard-timings.json`
整个配置运行使用配置路径作为键include-pattern CI 分片会附加分片名称,这样就可以单独跟踪经过过滤的分片。
- 当某个热点测试的大部分时间仍然耗费在启动 import 上时,应将重型依赖保留在狭窄的本地 `*.runtime.ts` 接缝后面,并直接 mock 该接缝,而不是为了传给 `vi.mock(...)` 就深层 import 运行时 helper。
- `pnpm test:perf:changed:bench -- --ref <git-ref>` 会将经路由的 `test:changed` 与该已提交 diff 的原生根项目路径进行比较,并打印墙钟时间以及 macOS 最大 RSS。
- `pnpm test:perf:changed:bench -- --worktree` 会通过 `scripts/test-projects.mjs` 和根 Vitest 配置,将当前脏工作树中的变更文件列表路由后进行基准测试。
- `pnpm test:perf:profile:main` 会为 Vitest / Vite 启动和转换开销写出主线程 CPU profile。
- `pnpm test:perf:profile:runner` 会在禁用文件并行的情况下,为 unit 测试套件写出运行器 CPU + heap profile。
</Accordion>
</AccordionGroup>
### 稳定性(Gateway 网关
### 稳定性(gateway
- 命令:`pnpm test:stability:gateway`
- 配置:`vitest.gateway.config.ts`,强制单 worker
- 范围:
- 默认启动一个启用诊断功能的真实 loopback Gateway 网关
- 通过诊断事件路径驱动合成的 Gateway 网关消息、记忆和大负载 churn
- 启动一个默认启用诊断功能的真实 loopback Gateway 网关
- 通过诊断事件路径驱动合成的 gateway 消息、memory 和大负载 churn
- 通过 Gateway 网关 WS RPC 查询 `diagnostics.stability`
- 覆盖诊断稳定性 bundle 持久化辅助方法
- 覆盖诊断稳定性 bundle 持久化 helper
- 断言记录器保持有界、合成 RSS 样本保持在压力预算之下,并且每个会话的队列深度都会回落到零
- 预期:
- 对 CI 安全且不需要密钥
- 这是用于稳定性回归跟进的窄测试通道,不可替代完整 Gateway 网关套件
- 是用于稳定性回归跟进的窄范围通道,不可替代完整 Gateway 网关测试套件
### E2EGateway 网关冒烟)
### E2Egateway 冒烟)
- 命令:`pnpm test:e2e`
- 配置:`vitest.e2e.config.ts`
- 文件:`src/**/*.e2e.test.ts`、`test/**/*.e2e.test.ts`,以及 `extensions/` 下内置插件的 E2E 测试
- 运行时默认值:
- 使用 Vitest `threads`,并设置 `isolate: false`,与仓库其余部分保持一致。
- 使用 Vitest `threads` `isolate: false`,与仓库其余部分保持一致。
- 使用自适应 workerCI最多 2 个,本地:默认 1 个)。
- 默认以静默模式运行,以减少控制台 I/O 开销。
- 常用覆盖项:
- 使用 `OPENCLAW_E2E_WORKERS=<n>` 强制设置 worker 数量(上限为 16
- 使用 `OPENCLAW_E2E_WORKERS=<n>` 强制指定 worker 数量(上限为 16
- 使用 `OPENCLAW_E2E_VERBOSE=1` 重新启用详细控制台输出。
- 范围:
- 多实例 Gateway 网关端到端行为
- WebSocket / HTTP 表面、节点配对和更重的网络交互
- 多实例 gateway 端到端行为
- WebSocket / HTTP 表面、节点配对以及更重的网络场景
- 预期:
- 会在 CI 中运行(当流水线启用时)
- 会在 CI 中运行(当流水线启用时)
- 不需要真实密钥
- 比单元测试包含更多活动部件(可能更慢)
- 比 unit 测试有更多活动部件(可能更慢)
### E2EOpenShell 后端冒烟
- 命令:`pnpm test:e2e:openshell`
- 文件:`extensions/openshell/src/backend.e2e.test.ts`
- 范围:
- 通过 Docker 在宿主机上启动一个隔离的 OpenShell Gateway 网关
- 从一个临时本地 Dockerfile 创建沙箱
- 通过真实的 `sandbox ssh-config` + SSH exec 对 OpenClaw 的 OpenShell 后端进行验证
- 通过 Docker 在主机上启动一个隔离的 OpenShell gateway
- 从一个临时本地 Dockerfile 创建一个沙箱
- 通过真实的 `sandbox ssh-config` + SSH exec 运行 OpenClaw 的 OpenShell 后端
- 通过沙箱 fs bridge 验证远端规范文件系统行为
- 预期:
- 仅按需启用;不属于默认 `pnpm test:e2e` 运行的一部分
- 需要本地 `openshell` CLI 和可用的 Docker daemon
- 使用隔离的 `HOME` / `XDG_CONFIG_HOME`,然后销毁测试 Gateway 网关和沙箱
- 使用隔离的 `HOME` / `XDG_CONFIG_HOME`,然后销毁测试 gateway 和沙箱
- 常用覆盖项:
- 在手动运行更广泛的 e2e 套件时,使用 `OPENCLAW_E2E_OPENSHELL=1` 启用该测试
- 使用 `OPENCLAW_E2E_OPENSHELL_COMMAND=/path/to/openshell` 指向非默认 CLI 二进制文件或包装脚本
- 运行更广泛 e2e 测试套件时,设置 `OPENCLAW_E2E_OPENSHELL=1`启用该测试
- 设置 `OPENCLAW_E2E_OPENSHELL_COMMAND=/path/to/openshell` 指向非默认 CLI 二进制文件或包装脚本
### 实时测试(真实提供商 + 真实模型)
### live(真实提供商 + 真实模型)
- 命令:`pnpm test:live`
- 配置:`vitest.live.config.ts`
- 文件:`src/**/*.live.test.ts`、`test/**/*.live.test.ts`,以及 `extensions/` 下内置插件的实时测试
- 默认:由 `pnpm test:live` **启用**设置 `OPENCLAW_LIVE_TEST=1`
- 文件:`src/**/*.live.test.ts`、`test/**/*.live.test.ts`,以及 `extensions/` 下内置插件的 live 测试
- 默认:由 `pnpm test:live` **启用**(设置 `OPENCLAW_LIVE_TEST=1`
- 范围:
- “这个提供商 / 模型在_今天_是否确实能用并且使用真实凭证?”
- 捕获提供商格式变化、工具调用怪癖、认证问题和限流行为
- “这个提供商 / 模型 _今天_ 配合真实凭证是否真的可用?”
- 捕获提供商格式变更、工具调用怪癖、认证问题和速率限制行为
- 预期:
- 设计不具备 CI 稳定性(真实网络、真实提供商策略、配额、故障
- 会花钱 / 消耗限流额度
- 优先运行缩小范围的子集,而不是“全部都跑
- 实时运行会读取 `~/.profile` 以补齐缺失的 API 密钥。
- 默认情况下,实时运行仍会隔离 `HOME`,并将配置 / 认证材料复制到临时测试 home 中,这样单元测试 fixture 就不会修改你真实的 `~/.openclaw`
- 只有在你有意需要实时测试使用真实 home 目录时,才设置 `OPENCLAW_LIVE_USE_REAL_HOME=1`
- `pnpm test:live` 现在默认使用更安静的模式:会保留 `[live] ...` 进度输出,但会隐藏额外的 `~/.profile` 提示,并静音 Gateway 网关引导日志 / Bonjour 噪声。如果你想恢复完整启动日志,请设置 `OPENCLAW_LIVE_TEST_QUIET=0`
- API 密钥轮换(按提供商区分):设置逗号 / 分号格式的 `*_API_KEYS`,或设置 `*_API_KEY_1`、`*_API_KEY_2`(例如 `OPENAI_API_KEYS`、`ANTHROPIC_API_KEYS`、`GEMINI_API_KEYS`),或者通过 `OPENCLAW_LIVE_*_KEY` 为实时测试单独覆盖;测试在收到限流响应时会重试。
- 设计不具备 CI 稳定性(真实网络、真实提供商策略、配额、中断
- 会花钱 / 消耗速率限制
- 优先运行缩小范围的子集,而不是“全部”
- live 运行会读取 `~/.profile` 以获取缺失的 API 密钥。
- 默认情况下,live 运行仍会隔离 `HOME`,并将配置 / 认证材料复制到一个临时测试 home 中,这样 unit fixture 就不会改动你真实的 `~/.openclaw`
- 只有当你明确需要 live 测试使用真实 home 目录时,才设置 `OPENCLAW_LIVE_USE_REAL_HOME=1`
- `pnpm test:live` 现在默认使用更安静的模式:会保留 `[live] ...` 进度输出,但会抑制额外的 `~/.profile` 提示,并静默 gateway 启动日志 / Bonjour 噪声。如果你想恢复完整启动日志,请设置 `OPENCLAW_LIVE_TEST_QUIET=0`
- API 密钥轮换(按提供商区分):设置逗号 / 分号格式的 `*_API_KEYS` `*_API_KEY_1`、`*_API_KEY_2`(例如 `OPENAI_API_KEYS`、`ANTHROPIC_API_KEYS`、`GEMINI_API_KEYS`),或者通过 `OPENCLAW_LIVE_*_KEY` 进行按 live 覆盖;测试会在速率限制响应后重试。
- 进度 / 心跳输出:
- 实时套件现在会将进度行输出到 stderr因此即使 Vitest 控制台捕获保持安静,长时间的提供商调用仍能显示为活跃状态
- `vitest.live.config.ts` 会禁用 Vitest 控制台拦截,因此在实时运行期间,提供商 / Gateway 网关进度行会立即流式输出。
- 使用 `OPENCLAW_LIVE_HEARTBEAT_MS` 调整直接模型心跳。
- 使用 `OPENCLAW_LIVE_GATEWAY_HEARTBEAT_MS` 调整 Gateway 网关 / 探测心跳。
- live 测试套件现在会将进度行输出到 stderr因此即使 Vitest 控制台捕获处于安静模式,长时间的提供商调用也能明显看出仍在活动
- `vitest.live.config.ts` 会禁用 Vitest 控制台拦截,因此在 live 运行期间,提供商 / gateway 进度行会立即流式输出。
- 使用 `OPENCLAW_LIVE_HEARTBEAT_MS` 调整 direct-model 心跳。
- 使用 `OPENCLAW_LIVE_GATEWAY_HEARTBEAT_MS` 调整 gateway / probe 心跳。
## 我应该运行哪个套件?
## 我应该运行哪个测试套件?
使用这个决策表:
- 编辑逻辑 / 测试:运行 `pnpm test`(如果你改很多,再加上 `pnpm test:coverage`
- 修改 Gateway 网关网络 / WS 协议 / 配对:再加上 `pnpm test:e2e`
- 调试“我的机器人挂了” / 提供商特定故障 / 工具调用:运行一个缩小范围的 `pnpm test:live`
- 编辑逻辑 / 测试:运行 `pnpm test`(如果你改很多,再加上 `pnpm test:coverage`
- 修改 gateway 网络 / WS 协议 / 配对:再加上 `pnpm test:e2e`
- 调试“我的 bot 挂了” / 提供商特定故障 / 工具调用:运行一个缩小范围的 `pnpm test:live`
## 实时测试(涉及网络的测试)
## live接触网络的测试
关于实时模型矩阵、CLI 后端冒烟测试、ACP 冒烟测试、Codex app-server harness以及所有媒体提供商实时测试Deepgram、BytePlus国际版、ComfyUI、图像、音乐、视频、媒体 harness——以及实时运行的凭证处理——请参见 [Testing — live suites](/zh-CN/help/testing-live)。
关于 live 模型矩阵、CLI 后端冒烟测试、ACP 冒烟测试、Codex app-server harness以及所有媒体提供商 live 测试Deepgram、BytePlus国际版、ComfyUI、image、music、video、media harness——以及 live 运行的凭证处理——请参见[测试 — live 测试套件](/zh-CN/help/testing-live)。
## Docker 运行器(可选的“在 Linux 中可运行”检查)
## Docker 运行器(可选的“在 Linux 中可”检查)
这些 Docker 运行器分为两类:
- 实时模型运行器:`test:docker:live-models` 和 `test:docker:live-gateway` 只会在仓库 Docker 镜像中运行与其匹配的 profile-key 实时测试文件(`src/agents/models.profiles.live.test.ts` 和 `src/gateway/gateway-models.profiles.live.test.ts`),并挂载你的本地配置目录和工作区(如果已挂载,也会读取 `~/.profile`)。对应的本地入口点是 `test:live:models-profiles``test:live:gateway-profiles`
- Docker 实时运行器默认使用更小的冒烟上限,以便完整 Docker 扫描仍然可行:
`test:docker:live-models` 默认使用 `OPENCLAW_LIVE_MAX_MODELS=12`,而
`test:docker:live-gateway` 默认使用 `OPENCLAW_LIVE_GATEWAY_SMOKE=1`
- live 模型运行器:`test:docker:live-models` 和 `test:docker:live-gateway` 只会在仓库 Docker 镜像内运行其对应的 profile-key live 文件(`src/agents/models.profiles.live.test.ts` 和 `src/gateway/gateway-models.profiles.live.test.ts`),并挂载你的本地配置目录和工作区(如果已挂载,也会读取 `~/.profile`)。对应的本地入口点是 `test:live:models-profiles``test:live:gateway-profiles`
- Docker live 运行器默认采用更小的冒烟上限,这样完整 Docker 扫描仍然切实可行:
`test:docker:live-models` 默认设置 `OPENCLAW_LIVE_MAX_MODELS=12`,而
`test:docker:live-gateway` 默认设置 `OPENCLAW_LIVE_GATEWAY_SMOKE=1`
`OPENCLAW_LIVE_GATEWAY_MAX_MODELS=8`
`OPENCLAW_LIVE_GATEWAY_STEP_TIMEOUT_MS=45000`
`OPENCLAW_LIVE_GATEWAY_MODEL_TIMEOUT_MS=90000`。当你明确想要执行更大范围的详尽扫描时,可覆盖这些环境变量。
- `test:docker:all` 会先通过 `test:docker:live-build` 构建一次实时 Docker 镜像,再通过 `scripts/package-openclaw-for-docker.mjs` 将 OpenClaw 打包一次为 npm tarball然后构建 / 复用两个 `scripts/e2e/Dockerfile` 镜像。裸镜像仅作为用于安装 / 更新 / 插件依赖测试通道的 Node / Git 运行器;这些测试通道会挂载预构建 tarball。功能镜像会将同一个 tarball 安装到 `/app`供已构建应用功能测试通道使用。Docker 测试通道定义位于 `scripts/lib/docker-e2e-scenarios.mjs`;规划逻辑位于 `scripts/lib/docker-e2e-plan.mjs``scripts/test-docker-all.mjs` 负责执行选定计划。该汇总测试使用加权本地调度器:`OPENCLAW_DOCKER_ALL_PARALLELISM` 控制进程槽位,而资源上限会防止重型实时、npm 安装和多服务测试通道同时启动。默认值为 10 个槽位,`OPENCLAW_DOCKER_ALL_LIVE_LIMIT=9`、`OPENCLAW_DOCKER_ALL_NPM_LIMIT=10` 和 `OPENCLAW_DOCKER_ALL_SERVICE_LIMIT=7`;仅当 Docker 宿主有更多余量时,才调整 `OPENCLAW_DOCKER_ALL_WEIGHT_LIMIT``OPENCLAW_DOCKER_ALL_DOCKER_LIMIT`该运行器默认会执行 Docker preflight移除陈旧的 OpenClaw E2E 容器,每 30 秒打印一次状态,将成功测试通道的耗时存储到 `.artifacts/docker-tests/lane-timings.json`,并在后续运行中利用这些时优先启动较长的测试通道。使用 `OPENCLAW_DOCKER_ALL_DRY_RUN=1` 可在不构建或运行 Docker 的情况下打印加权测试通道清单,或使用 `node scripts/test-docker-all.mjs --plan-json` 打印所选测试通道、package / 镜像需求和凭证的 CI 计划。
`OPENCLAW_LIVE_GATEWAY_MODEL_TIMEOUT_MS=90000`。当你明确想要更大规模的穷尽扫描时,可覆盖这些环境变量。
- `test:docker:all` 会先通过 `test:docker:live-build` 构建一次 live Docker 镜像,再通过 `scripts/package-openclaw-for-docker.mjs` 将 OpenClaw 打包一次为 npm tarball然后构建 / 复用两个 `scripts/e2e/Dockerfile` 镜像。裸镜像仅包含供 install / update / plugin-dependency 通道使用的 Node / Git 运行器;这些通道会挂载预构建 tarball。功能镜像会将同一个 tarball 安装到 `/app`,用于 built-app 功能通道。Docker 通道定义位于 `scripts/lib/docker-e2e-scenarios.mjs`;规划逻辑位于 `scripts/lib/docker-e2e-plan.mjs``scripts/test-docker-all.mjs` 负责执行所选计划。这个聚合器使用加权本地调度器:`OPENCLAW_DOCKER_ALL_PARALLELISM` 控制进程槽位,而资源上限会阻止重型 live、npm-install 和多服务通道同时全部启动。默认值是 10 个槽位,`OPENCLAW_DOCKER_ALL_LIVE_LIMIT=9`、`OPENCLAW_DOCKER_ALL_NPM_LIMIT=10` 和 `OPENCLAW_DOCKER_ALL_SERVICE_LIMIT=7`;仅当 Docker 主有更多余量时,才调整 `OPENCLAW_DOCKER_ALL_WEIGHT_LIMIT``OPENCLAW_DOCKER_ALL_DOCKER_LIMIT`运行器默认会执行 Docker 预检,清理过时的 OpenClaw E2E 容器,每 30 秒打印一次状态,将成功通道的时序写入 `.artifacts/docker-tests/lane-timings.json`,并在后续运行中利用这些时优先启动较长的通道。使用 `OPENCLAW_DOCKER_ALL_DRY_RUN=1` 可在不构建或运行 Docker 的情况下打印加权通道清单,或使用 `node scripts/test-docker-all.mjs --plan-json` 打印所选通道、package / image 需求和凭证的 CI 计划。
- 容器冒烟运行器:`test:docker:openwebui`、`test:docker:onboard`、`test:docker:npm-onboard-channel-agent`、`test:docker:update-channel-switch`、`test:docker:session-runtime-context`、`test:docker:agents-delete-shared-workspace`、`test:docker:gateway-network`、`test:docker:browser-cdp-snapshot`、`test:docker:mcp-channels`、`test:docker:pi-bundle-mcp-tools`、`test:docker:cron-mcp-cleanup`、`test:docker:plugins`、`test:docker:plugin-update` 和 `test:docker:config-reload` 会启动一个或多个真实容器,并验证更高层级的集成路径。
实时模型 Docker 运行器还会仅 bind-mount 所需的 CLI 认证 home 目录(如果运行未缩小范围,则会挂载所有受支持的目录),然后在运行前将其复制到容器 home 中,以便外部 CLI OAuth 能刷新令牌而不修改宿主认证存储:
live 模型 Docker 运行器还会仅 bind-mount 所需的 CLI 认证 home如果运行未缩小范围则会挂载所有受支持的 home然后在运行前将它们复制到容器 home 中,这样外部 CLI OAuth 就可以刷新 token而不会改动主机认证存储:
- 直接模型:`pnpm test:docker:live-models`(脚本:`scripts/test-live-models-docker.sh`
- ACP 绑定冒烟测试:`pnpm test:docker:live-acp-bind`(脚本:`scripts/test-live-acp-bind-docker.sh`;默认覆盖 Claude、Codex 和 Gemini对 Droid/OpenCode 的严格覆盖可通过 `pnpm test:docker:live-acp-bind:droid``pnpm test:docker:live-acp-bind:opencode` 运行)
- ACP 绑定冒烟测试:`pnpm test:docker:live-acp-bind`(脚本:`scripts/test-live-acp-bind-docker.sh`;默认覆盖 Claude、Codex 和 Gemini严格的 Droid / OpenCode 覆盖可通过 `pnpm test:docker:live-acp-bind:droid``pnpm test:docker:live-acp-bind:opencode` 运行)
- CLI 后端冒烟测试:`pnpm test:docker:live-cli-backend`(脚本:`scripts/test-live-cli-backend-docker.sh`
- Codex app-server harness 冒烟测试:`pnpm test:docker:live-codex-harness`(脚本:`scripts/test-live-codex-harness-docker.sh`
- Gateway 网关 + 开发智能体:`pnpm test:docker:live-gateway`(脚本:`scripts/test-live-gateway-models-docker.sh`
- Open WebUI 实时冒烟测试:`pnpm test:docker:openwebui`(脚本:`scripts/e2e/openwebui-docker.sh`
- Gateway 网关 + dev 智能体:`pnpm test:docker:live-gateway`(脚本:`scripts/test-live-gateway-models-docker.sh`
- Docker 可观测性冒烟测试:包含在 `pnpm test:docker:all``pnpm test:docker:local:all` 中(脚本:`scripts/e2e/docker-observability-smoke.sh`)。它会在一个基于源码的 Docker 镜像中运行 QA-lab OTEL 和 Prometheus 诊断检查。设置 `OPENCLAW_DOCKER_OBSERVABILITY_LOOPS=<count>` 可在一次容器运行中重复两项检查。
- Open WebUI live 冒烟测试:`pnpm test:docker:openwebui`(脚本:`scripts/e2e/openwebui-docker.sh`
- 新手引导向导TTY完整脚手架`pnpm test:docker:onboard`(脚本:`scripts/e2e/onboard-docker.sh`
- Npm tarball 新手引导 / 渠道 / 智能体冒烟测试:`pnpm test:docker:npm-onboard-channel-agent` 会在 Docker 中全局安装打包的 OpenClaw tarball通过 env-ref 新手引导配置 OpenAI默认配置 Telegram验证 doctor 会修复已激活插件的运行时依赖,并运行一次模拟 OpenAI 智能体轮次。可使用 `OPENCLAW_CURRENT_PACKAGE_TGZ=/path/to/openclaw-*.tgz` 复用预构建 tarball使用 `OPENCLAW_NPM_ONBOARD_HOST_BUILD=0` 跳过宿主重建,或通过 `OPENCLAW_NPM_ONBOARD_CHANNEL=discord` 切换渠道。
- 更新渠道切换冒烟测试:`pnpm test:docker:update-channel-switch` 会在 Docker 中全局安装打包的 OpenClaw tarball将渠道从 package `stable` 切换到 git `dev`,验证持久化的渠道和插件在更新后仍可工作,然后切回 package `stable` 并检查更新状态。
- 会话运行时上下文冒烟测试:`pnpm test:docker:session-runtime-context` 会验证隐藏运行时上下文转录的持久化,以及 doctor 对受影响的重复 prompt-rewrite 分支的修复。
- Bun 全局安装冒烟测试:`bash scripts/e2e/bun-global-install-smoke.sh` 会打包当前工作树,在隔离的 home 中使用 `bun install -g` 安装,并验证 `openclaw infer image providers --json` 返回的是内置图像提供商而不是挂起。可使用 `OPENCLAW_BUN_GLOBAL_SMOKE_PACKAGE_TGZ=/path/to/openclaw-*.tgz` 复用预构建 tarball使用 `OPENCLAW_BUN_GLOBAL_SMOKE_HOST_BUILD=0` 跳过宿主构建,或通过 `OPENCLAW_BUN_GLOBAL_SMOKE_DIST_IMAGE=openclaw-dockerfile-smoke:local` 从已构建的 Docker 镜像复制 `dist/`
- 安装器 Docker 冒烟测试:`bash scripts/test-install-sh-docker.sh` 会在 root、update 和 direct-npm 容器之间共享一个 npm 缓存。更新冒烟测试默认以 npm `latest` 作为稳定基线,然后升级到候选 tarball。可在本地通过 `OPENCLAW_INSTALL_SMOKE_UPDATE_BASELINE=2026.4.22` 覆盖,或在 GitHub 上通过 Install Smoke 工作流的 `update_baseline_version` 输入覆盖。非 root 安装器检查会保持隔离的 npm 缓存,这样 root 拥有的缓存条目不会掩盖用户本地安装行为。设置 `OPENCLAW_INSTALL_SMOKE_NPM_CACHE_DIR=/path/to/cache` 可在本地重之间复用 root / update / direct-npm 缓存。
- Install Smoke CI 会通过 `OPENCLAW_INSTALL_SMOKE_SKIP_NPM_GLOBAL=1` 跳过重复的 direct-npm 全局更新;当需要直接 `npm install -g` 覆盖时,请在本地运行脚本且不要设置该环境变量。
- 智能体删除共享工作区 CLI 冒烟测试:`pnpm test:docker:agents-delete-shared-workspace`(脚本:`scripts/e2e/agents-delete-shared-workspace-docker.sh`)默认构建根 Dockerfile 镜像,在隔离的容器 home 中注入两个智能体和一个工作区,运行 `agents delete --json`,并验证 JSON 有效以及工作区保留行为。可使用 `OPENCLAW_AGENTS_DELETE_SHARED_WORKSPACE_E2E_IMAGE=openclaw-dockerfile-smoke:local OPENCLAW_AGENTS_DELETE_SHARED_WORKSPACE_E2E_SKIP_BUILD=1` 复用 install-smoke 镜像。
- npm tarball 新手引导 / 渠道 / 智能体冒烟测试:`pnpm test:docker:npm-onboard-channel-agent` 会在 Docker 中全局安装打包的 OpenClaw tarball通过 env-ref 新手引导配置 OpenAI默认配置 Telegram验证 doctor 会修复已激活插件的运行时依赖,然后运行一次模拟的 OpenAI 智能体轮次。使用 `OPENCLAW_CURRENT_PACKAGE_TGZ=/path/to/openclaw-*.tgz` 复用预构建 tarball使用 `OPENCLAW_NPM_ONBOARD_HOST_BUILD=0` 可跳过主机构建,或使用 `OPENCLAW_NPM_ONBOARD_CHANNEL=discord` 切换渠道。
- 更新渠道切换冒烟测试:`pnpm test:docker:update-channel-switch` 会在 Docker 中全局安装打包的 OpenClaw tarball将渠道从 package `stable` 切换到 git `dev`,验证持久化的渠道和插件在更新后可用,然后再切回 package `stable` 并检查更新状态。
- 会话运行时上下文冒烟测试:`pnpm test:docker:session-runtime-context` 会验证隐藏运行时上下文 transcript 的持久化,以及 doctor 对受影响的重复 prompt-rewrite 分支的修复。
- Bun 全局安装冒烟测试:`bash scripts/e2e/bun-global-install-smoke.sh` 会打包当前树,在隔离的 home 中通过 `bun install -g` 安装它,并验证 `openclaw infer image providers --json` 返回的是内置 image 提供商,而不是卡住。使用 `OPENCLAW_BUN_GLOBAL_SMOKE_PACKAGE_TGZ=/path/to/openclaw-*.tgz` 复用预构建 tarball使用 `OPENCLAW_BUN_GLOBAL_SMOKE_HOST_BUILD=0` 可跳过主机构建,或使用 `OPENCLAW_BUN_GLOBAL_SMOKE_DIST_IMAGE=openclaw-dockerfile-smoke:local` 从已构建的 Docker 镜像复制 `dist/`
- Installer Docker 冒烟测试:`bash scripts/test-install-sh-docker.sh` 会在 root、update 和 direct-npm 容器之间共享一个 npm 缓存。更新冒烟测试默认使用 npm `latest` 作为稳定基线,然后再升级到候选 tarball。在本地可使用 `OPENCLAW_INSTALL_SMOKE_UPDATE_BASELINE=2026.4.22` 覆盖,或在 GitHub 上通过 Install Smoke 工作流的 `update_baseline_version` 输入覆盖。非 root installer 检查会保留隔离的 npm 缓存,这样 root 所拥有的缓存条目就不会掩盖用户本地安装行为。设置 `OPENCLAW_INSTALL_SMOKE_NPM_CACHE_DIR=/path/to/cache` 可在本地重复运行之间复用 root / update / direct-npm 缓存。
- Install Smoke CI 会通过 `OPENCLAW_INSTALL_SMOKE_SKIP_NPM_GLOBAL=1` 跳过重复的 direct-npm 全局更新;当需要直接 `npm install -g` 覆盖时,请在本地运行该脚本且不要设置此环境变量。
- 智能体删除共享工作区 CLI 冒烟测试:`pnpm test:docker:agents-delete-shared-workspace`(脚本:`scripts/e2e/agents-delete-shared-workspace-docker.sh`)默认构建根 Dockerfile 镜像,在隔离的容器 home 中注入两个智能体和一个工作区,运行 `agents delete --json`,并验证 JSON 有效以及工作区保留行为。可通过 `OPENCLAW_AGENTS_DELETE_SHARED_WORKSPACE_E2E_IMAGE=openclaw-dockerfile-smoke:local OPENCLAW_AGENTS_DELETE_SHARED_WORKSPACE_E2E_SKIP_BUILD=1` 复用 install-smoke 镜像。
- Gateway 网关网络两个容器WS 认证 + 健康检查):`pnpm test:docker:gateway-network`(脚本:`scripts/e2e/gateway-network-docker.sh`
- 浏览器 CDP 快照冒烟测试:`pnpm test:docker:browser-cdp-snapshot`(脚本:`scripts/e2e/browser-cdp-snapshot-docker.sh`)会构建源码 E2E 镜像 Chromium 层,以原始 CDP 启动 Chromium运行 `browser doctor --deep`,并验证 CDP 角色快照覆盖链接 URL、光标提升的可点击元素、iframe 引用和 frame 元数据。
- OpenAI Responses `web_search` 最小推理回归测试:`pnpm test:docker:openai-web-search-minimal`(脚本:`scripts/e2e/openai-web-search-minimal-docker.sh`)会通过 Gateway 网关运行一个模拟 OpenAI 服务器,验证 `web_search` 会将 `reasoning.effort``minimal` 提升 `low`,然后强制提供商 schema 拒绝并检查原始细节是否出现在 Gateway 网关日志中。
- MCP 渠道桥接(带种子 Gateway 网关 + stdio bridge + 原始 Claude notification-frame 冒烟测试):`pnpm test:docker:mcp-channels`(脚本:`scripts/e2e/mcp-channels-docker.sh`
- Pi 内置 MCP 工具(真实 stdio MCP 服务器 + 嵌入式 Pi profile allow / deny 冒烟测试):`pnpm test:docker:pi-bundle-mcp-tools`(脚本:`scripts/e2e/pi-bundle-mcp-tools-docker.sh`
- Cron / 子智能体 MCP 清理(真实 Gateway 网关 + 在隔离 cron 和一次性子智能体运行后清理 stdio MCP 子进程`pnpm test:docker:cron-mcp-cleanup`(脚本:`scripts/e2e/cron-mcp-cleanup-docker.sh`
- 插件安装冒烟测试、ClawHub 安装 / 卸载、市场更新以及 Claude-bundle 启用 / 检查):`pnpm test:docker:plugins`(脚本:`scripts/e2e/plugins-docker.sh`
设置 `OPENCLAW_PLUGINS_E2E_CLAWHUB=0` 可跳过实时 ClawHub 区块,或通过 `OPENCLAW_PLUGINS_E2E_CLAWHUB_SPEC``OPENCLAW_PLUGINS_E2E_CLAWHUB_ID` 覆盖默认 package。
- 浏览器 CDP 快照冒烟测试:`pnpm test:docker:browser-cdp-snapshot`(脚本:`scripts/e2e/browser-cdp-snapshot-docker.sh`)会构建源码 E2E 镜像 Chromium 层,以原始 CDP 启动 Chromium运行 `browser doctor --deep`,并验证 CDP 角色快照覆盖 link URL、cursor 提升的可点击项、iframe 引用和 frame 元数据。
- OpenAI Responses `web_search` 最小 reasoning 回归测试:`pnpm test:docker:openai-web-search-minimal`(脚本:`scripts/e2e/openai-web-search-minimal-docker.sh`)会通过 Gateway 网关运行一个模拟 OpenAI 服务器,验证 `web_search` 会将 `reasoning.effort``minimal` 提升 `low`,然后强制提供商 schema 拒绝并检查原始细节是否出现在 Gateway 网关日志中。
- MCP 渠道 bridge带种子的 Gateway 网关 + stdio bridge + 原始 Claude notification-frame 冒烟测试):`pnpm test:docker:mcp-channels`(脚本:`scripts/e2e/mcp-channels-docker.sh`
- Pi bundle MCP 工具(真实 stdio MCP 服务器 + 嵌入式 Pi profile allow / deny 冒烟测试):`pnpm test:docker:pi-bundle-mcp-tools`(脚本:`scripts/e2e/pi-bundle-mcp-tools-docker.sh`
- Cron / subagent MCP 清理(真实 Gateway 网关 + 在隔离 cron 和一次性 subagent 运行后的 stdio MCP 子进程清理`pnpm test:docker:cron-mcp-cleanup`(脚本:`scripts/e2e/cron-mcp-cleanup-docker.sh`
- 插件安装冒烟测试、ClawHub 安装 / 卸载、市场更新,以及 Claude bundle 启用 / 检查):`pnpm test:docker:plugins`(脚本:`scripts/e2e/plugins-docker.sh`
设置 `OPENCLAW_PLUGINS_E2E_CLAWHUB=0` 可跳过 live ClawHub 模块,或使用 `OPENCLAW_PLUGINS_E2E_CLAWHUB_SPEC``OPENCLAW_PLUGINS_E2E_CLAWHUB_ID` 覆盖默认 package。
- 插件更新未变更冒烟测试:`pnpm test:docker:plugin-update`(脚本:`scripts/e2e/plugin-update-unchanged-docker.sh`
- 配置热重载元数据冒烟测试:`pnpm test:docker:config-reload`(脚本:`scripts/e2e/config-reload-source-docker.sh`
- 内置插件运行时依赖:`pnpm test:docker:bundled-channel-deps` 默认会构建一个小型 Docker 运行器镜像,在宿主上构建并打包一次 OpenClaw然后将该 tarball 挂载到每个 Linux 安装场景中。可使用 `OPENCLAW_SKIP_DOCKER_BUILD=1` 复用镜像,在刚完成本地构建后使用 `OPENCLAW_BUNDLED_CHANNEL_HOST_BUILD=0` 跳过宿主重建,或通过 `OPENCLAW_CURRENT_PACKAGE_TGZ=/path/to/openclaw-*.tgz` 指向现有 tarball。完整 Docker 汇总测试会先预打包一次该 tarball然后将内置渠道检查分片为独立测试通道,其中包括 Telegram、Discord、Slack、Feishu、memory-lancedb 和 ACPX 的独更新测试通道。直接运行内置测试通道时,可使用 `OPENCLAW_BUNDLED_CHANNELS=telegram,slack` 缩小渠道矩阵,或使用 `OPENCLAW_BUNDLED_CHANNEL_UPDATE_TARGETS=telegram,acpx` 缩小更新场景。该测试通道还会验证 `channels.<id>.enabled=false``plugins.entries.<id>.enabled=false` 会抑制 doctor / 运行时依赖修复。
- 迭代期间若想缩小内置插件运行时依赖测试范围,可禁用无关场景,例如:
- 内置插件运行时依赖:`pnpm test:docker:bundled-channel-deps` 默认会构建一个小型 Docker 运行器镜像,在主上构建并打包一次 OpenClaw然后将该 tarball 挂载到每个 Linux 安装场景中。可使用 `OPENCLAW_SKIP_DOCKER_BUILD=1` 复用镜像,使用 `OPENCLAW_BUNDLED_CHANNEL_HOST_BUILD=0` 在完成一次新的本地构建后跳过主机重建,或使用 `OPENCLAW_CURRENT_PACKAGE_TGZ=/path/to/openclaw-*.tgz` 指向现有 tarball。完整 Docker 聚合器会先预打包一次这个 tarball然后将内置渠道检查拆分为独立通道,其中包括 Telegram、Discord、Slack、Feishu、memory-lancedb 和 ACPX 的独更新通道。直接运行内置通道时,可使用 `OPENCLAW_BUNDLED_CHANNELS=telegram,slack` 缩小渠道矩阵,或使用 `OPENCLAW_BUNDLED_CHANNEL_UPDATE_TARGETS=telegram,acpx` 缩小更新场景。该通道还会验证 `channels.<id>.enabled=false``plugins.entries.<id>.enabled=false` 会抑制 doctor / 运行时依赖修复。
- 在迭代时缩小内置插件运行时依赖范围,可禁用无关场景,例如:
`OPENCLAW_BUNDLED_CHANNEL_SCENARIOS=0 OPENCLAW_BUNDLED_CHANNEL_UPDATE_SCENARIO=0 OPENCLAW_BUNDLED_CHANNEL_ROOT_OWNED_SCENARIO=0 OPENCLAW_BUNDLED_CHANNEL_SETUP_ENTRY_SCENARIO=0 pnpm test:docker:bundled-channel-deps`
如需手动预构建并复用共享功能镜像:
@ -508,87 +513,83 @@ OPENCLAW_DOCKER_E2E_IMAGE=openclaw-docker-e2e-functional:local pnpm test:docker:
OPENCLAW_DOCKER_E2E_IMAGE=openclaw-docker-e2e-functional:local OPENCLAW_SKIP_DOCKER_BUILD=1 pnpm test:docker:mcp-channels
```
当设置了 `OPENCLAW_GATEWAY_NETWORK_E2E_IMAGE` 之类的套件专用镜像覆盖时,它们仍然优先生效。当 `OPENCLAW_SKIP_DOCKER_BUILD=1` 指向远程共享镜像时,如果本地尚不存在,脚本会拉取该镜像。QR 和安装器 Docker 测试保留它们各自的 Dockerfile因为它们验证的是 package / 安装行为,而不是共享的已构建应用运行时。
设置后,像 `OPENCLAW_GATEWAY_NETWORK_E2E_IMAGE` 这样的测试套件专用镜像覆盖项仍然优先生效。当 `OPENCLAW_SKIP_DOCKER_BUILD=1` 指向远程共享镜像时,如果本地尚不存在,脚本会先拉取它。QR 和 installer Docker 测试保留各自独立的 Dockerfile因为它们验证的是 package / 安装行为,而不是共享的 built-app 运行时。
实时模型 Docker 运行器还会以只读方式 bind-mount 当前 checkout并将其暂存到容器内的临时工作目录中。这样既能保持运行时镜像精简又能让 Vitest 针对你精确的本地源码 / 配置运行。
暂存步骤会跳过大型本地专用缓存和应用构建输出,例如
`.pnpm-store`、`.worktrees`、`__openclaw_vitest__` 以及应用本地 `.build`
Gradle 输出目录,这样 Docker 实时运行就不会花数分钟复制机器专属工件。
它们还会设置 `OPENCLAW_SKIP_CHANNELS=1`,这样 Gateway 网关实时探测就不会在容器内启动真实的 Telegram / Discord / 等渠道工作进程。
`test:docker:live-models` 仍然运行 `pnpm test:live`,因此当你需要缩小或排除该 Docker 测试通道中的 Gateway 网关实时覆盖范围时,也请一并传入 `OPENCLAW_LIVE_GATEWAY_*`
`test:docker:openwebui` 是一个更高层级的兼容性冒烟测试:它会启动一个启用了 OpenAI 兼容 HTTP 端点的 OpenClaw Gateway 网关容器,针对该 Gateway 网关启动一个固定版本的 Open WebUI 容器,通过 Open WebUI 完成登录,验证 `/api/models` 暴露了 `openclaw/default`,然后通过 Open WebUI 的 `/api/chat/completions` 代理发送一个真实聊天请求。
首次运行可能会明显更慢,因为 Docker 可能需要拉取 Open WebUI 镜像,而 Open WebUI 也可能需要完成自身的冷启动设置。
该测试通道需要可用的实时模型密钥,而 `OPENCLAW_PROFILE_FILE`
(默认 `~/.profile`)是在 Docker 化运行中提供该密钥的主要方式。
成功运行会打印一个小型 JSON 载荷,例如 `{ "ok": true, "model":
live 模型 Docker 运行器还会将当前 checkout 以只读方式 bind-mount 进去,并在容器内将其暂存到一个临时工作目录中。这样可以让运行时镜像保持精简,同时仍然针对你精确的本地源码 / 配置运行 Vitest。暂存步骤会跳过大型仅本地缓存和应用构建输出例如 `.pnpm-store`、`.worktrees`、`__openclaw_vitest__`,以及应用本地 `.build` 或 Gradle 输出目录,这样 Docker live 运行就不会花上数分钟复制与机器相关的产物。
它们还会设置 `OPENCLAW_SKIP_CHANNELS=1`,这样 Gateway 网关 live 探测就不会在容器内启动真实的 Telegram / Discord / 等渠道 worker。
`test:docker:live-models` 仍然运行 `pnpm test:live`,因此当你需要从该 Docker 通道中缩小或排除 gateway live 覆盖时,也要一并传入 `OPENCLAW_LIVE_GATEWAY_*`
`test:docker:openwebui` 是一个更高层级的兼容性冒烟测试:它会启动一个启用了 OpenAI 兼容 HTTP 端点的 OpenClaw gateway 容器,再针对该 gateway 启动一个固定版本的 Open WebUI 容器,通过 Open WebUI 登录,验证 `/api/models` 暴露了 `openclaw/default`,然后通过 Open WebUI 的 `/api/chat/completions` 代理发送一个真实聊天请求。
首次运行可能会明显更慢,因为 Docker 可能需要拉取 Open WebUI 镜像,而 Open WebUI 也可能需要完成其自身的冷启动 setup。
该通道要求一个可用的 live 模型密钥,而 `OPENCLAW_PROFILE_FILE`(默认是 `~/.profile`)是在 Docker 化运行中提供它的主要方式。
成功运行会打印一小段 JSON 负载,例如 `{ "ok": true, "model":
"openclaw/default", ... }`。
`test:docker:mcp-channels` 是有意保持确定性的,不需要真实的 Telegram、Discord 或 iMessage 账号。它会启动一个已注入种子数据的 Gateway 网关容器,启动第二个容器来生成 `openclaw mcp serve`,然后验证路由后的会话发现、转录读取、附件元数据、实时事件队列行为、出站发送路由,以及通过真实 stdio MCP bridge 传递的 Claude 风格渠道 + 权限通知。通知检查会直接检查原始 stdio MCP 帧,因此该冒烟测试验证的是 bridge 实际发出的内容,而不仅仅是某个特定客户端 SDK 恰好暴露出的内容。
`test:docker:pi-bundle-mcp-tools` 具有确定性,不需要实时模型密钥。它会构建仓库 Docker 镜像,在容器内启动一个真实 stdio MCP 探测服务器,通过嵌入式 Pi 内置 MCP 运行时将该服务器实例化,执行工具,然后验证 `coding``messaging` 会保留 `bundle-mcp` 工具,而 `minimal` `tools.deny: ["bundle-mcp"]` 会将其过滤掉。
`test:docker:cron-mcp-cleanup` 具有确定性,不需要实时模型密钥。它会启动一个带有真实 stdio MCP 探测服务器的已注入种子数据的 Gateway 网关,运行一个隔离的 cron 轮次和一个 `/subagents spawn` 一次性子智能体轮次,然后验证 MCP 子进程会在每次运行后退出。
`test:docker:mcp-channels` 刻意保持确定性,不需要真实的 Telegram、Discord 或 iMessage 账号。它会启动一个带种子的 Gateway 容器,再启动第二个容器来生成 `openclaw mcp serve`,然后通过真实的 stdio MCP bridge 验证路由会话发现、transcript 读取、附件元数据、live 事件队列行为、出站发送路由,以及 Claude 风格的渠道 + 权限通知。通知检查会直接检查原始 stdio MCP frame因此该冒烟测试验证的是 bridge 实际发出的内容,而不只是某个特定客户端 SDK 恰好暴露出来的内容。
`test:docker:pi-bundle-mcp-tools` 具有确定性,不需要 live 模型密钥。它会构建仓库 Docker 镜像,在容器内启动一个真实的 stdio MCP 探测服务器,通过嵌入式 Pi bundle MCP 运行时将该服务器实例化,执行工具,然后验证 `coding``messaging` 会保留 `bundle-mcp` 工具,而 `minimal``tools.deny: ["bundle-mcp"]` 会将其过滤掉。
`test:docker:cron-mcp-cleanup` 具有确定性,不需要 live 模型密钥。它会启动一个带种子的 Gateway 网关和一个真实的 stdio MCP 探测服务器,运行一次隔离的 cron 轮次和一次 `/subagents spawn` 单次子智能体轮次,然后验证 MCP 子进程会在每次运行后退出。
手动 ACP 自然语言线程冒烟测试(非 CI
手动 ACP 自然语言线程冒烟测试(不在 CI 中运行
- `bun scripts/dev/discord-acp-plain-language-smoke.ts --channel <discord-channel-id> ...`
- 保留此脚本用于回归 / 调试工作流。后续可能还需要它来验证 ACP 线程路由,因此不要删除。
- 保留此脚本用于回归 / 调试工作流。后续可能还需要它来验证 ACP 线程路由,因此不要删除
有用的环境变量:
常用环境变量:
- `OPENCLAW_CONFIG_DIR=...`(默认:`~/.openclaw`挂载到 `/home/node/.openclaw`
- `OPENCLAW_WORKSPACE_DIR=...`(默认:`~/.openclaw/workspace`挂载到 `/home/node/.openclaw/workspace`
- `OPENCLAW_PROFILE_FILE=...`(默认:`~/.profile`,挂载到 `/home/node/.profile` 并在运行测试前读取
- `OPENCLAW_DOCKER_PROFILE_ENV_ONLY=1` 用于仅验证从 `OPENCLAW_PROFILE_FILE` 读取的环境变量,此时使用临时配置 / 工作区目录,且不挂载外部 CLI 认证目录
- `OPENCLAW_DOCKER_CLI_TOOLS_DIR=...`(默认:`~/.cache/openclaw/docker-cli-tools`挂载到 `/home/node/.npm-global`,用于 Docker 内缓存 CLI 安装
- `OPENCLAW_CONFIG_DIR=...`(默认:`~/.openclaw`)挂载到 `/home/node/.openclaw`
- `OPENCLAW_WORKSPACE_DIR=...`(默认:`~/.openclaw/workspace`)挂载到 `/home/node/.openclaw/workspace`
- `OPENCLAW_PROFILE_FILE=...`(默认:`~/.profile`挂载到 `/home/node/.profile`并在运行测试前读取
- `OPENCLAW_DOCKER_PROFILE_ENV_ONLY=1` 用于仅验证从 `OPENCLAW_PROFILE_FILE` 读取的环境变量,使用临时配置 / 工作区目录,且不挂载外部 CLI 认证
- `OPENCLAW_DOCKER_CLI_TOOLS_DIR=...`(默认:`~/.cache/openclaw/docker-cli-tools`)挂载到 `/home/node/.npm-global`,用于 Docker 内缓存 CLI 安装
- `$HOME` 下的外部 CLI 认证目录 / 文件会以只读方式挂载到 `/host-auth...` 下,然后在测试开始前复制到 `/home/node/...`
- 默认目录:`.minimax`
- 默认文件:`~/.codex/auth.json`、`~/.codex/config.toml`、`.claude.json`、`~/.claude/.credentials.json`、`~/.claude/settings.json`、`~/.claude/settings.local.json`
- 缩小提供商范围的运行只会挂载从 `OPENCLAW_LIVE_PROVIDERS` / `OPENCLAW_LIVE_GATEWAY_PROVIDERS` 推断出的所需目录 / 文件
- 可通过 `OPENCLAW_DOCKER_AUTH_DIRS=all`、`OPENCLAW_DOCKER_AUTH_DIRS=none` 或逗号列表(如 `OPENCLAW_DOCKER_AUTH_DIRS=.claude,.codex`)手动覆盖
- `OPENCLAW_LIVE_GATEWAY_MODELS=...` / `OPENCLAW_LIVE_MODELS=...` 用于缩小运行范围
- `OPENCLAW_LIVE_GATEWAY_PROVIDERS=...` / `OPENCLAW_LIVE_PROVIDERS=...` 用于在容器内筛选提供商
- `OPENCLAW_SKIP_DOCKER_BUILD=1` 用于在不需要重建时复用现有的 `openclaw:local-live` 镜像进行重跑
- `OPENCLAW_LIVE_GATEWAY_PROVIDERS=...` / `OPENCLAW_LIVE_PROVIDERS=...` 用于在容器内过滤提供商
- `OPENCLAW_SKIP_DOCKER_BUILD=1` 用于复用现有的 `openclaw:local-live` 镜像,以便在不需要重建时重复运行
- `OPENCLAW_LIVE_REQUIRE_PROFILE_KEYS=1` 用于确保凭证来自 profile 存储(而不是环境变量)
- `OPENCLAW_OPENWEBUI_MODEL=...` 用于为 Open WebUI 冒烟测试选择由 Gateway 网关暴露的模型
- `OPENCLAW_OPENWEBUI_PROMPT=...` 用于覆盖 Open WebUI 冒烟测试使用的 nonce 检查提示词
- `OPENCLAW_OPENWEBUI_MODEL=...` 用于选择 Gateway 网关为 Open WebUI 冒烟测试暴露的模型
- `OPENCLAW_OPENWEBUI_PROMPT=...` 用于覆盖 Open WebUI 冒烟测试使用的 nonce 检查提示词
- `OPENWEBUI_IMAGE=...` 用于覆盖固定的 Open WebUI 镜像标签
## 文档完整性检查
修改文档后运行文档检查:`pnpm check:docs`。
当你还需要检查页内标题时,运行完整的 Mintlify 锚点验`pnpm docs:check-links:anchors`。
修改文档后运行文档检查:`pnpm check:docs`。
当你还需要检查页内标题锚点时,运行完整的 Mintlify 锚点验:`pnpm docs:check-links:anchors`。
## 离线回归测试(对 CI 安全)
## 离线回归(对 CI 安全)
这些是“不接入真实提供商”的“真实流水线”回归测试:
这些是在没有真实提供商时的“真实流水线”回归测试:
- Gateway 网关工具调用(模拟 OpenAI、真实 Gateway 网关 + Agent loop`src/gateway/gateway.test.ts`用例“runs a mock OpenAI tool call end-to-end via gateway agent loop”
- Gateway 网关工具调用(模拟 OpenAI、真实 gateway + Agent loop`src/gateway/gateway.test.ts`用例“runs a mock OpenAI tool call end-to-end via gateway agent loop”
- Gateway 网关向导WS `wizard.start` / `wizard.next`,强制写入配置 + 认证):`src/gateway/gateway.test.ts`用例“runs wizard over ws and writes auth token config”
## 智能体可靠性 evalsSkills
## 智能体可靠性评估Skills
我们已经有一些对 CI 安全的测试,它们的行为类似“智能体可靠性 evals”:
我们已经有一些对 CI 安全的测试,其行为类似于“智能体可靠性评估”:
- 通过真实 Gateway 网关 + Agent loop 执行模拟工具调用(`src/gateway/gateway.test.ts`)。
- 通过真实 gateway + Agent loop 进行模拟工具调用(`src/gateway/gateway.test.ts`)。
- 验证会话接线和配置效果的端到端向导流程(`src/gateway/gateway.test.ts`)。
对于 Skills见 [Skills](/zh-CN/tools/skills))目前仍缺少的内容:
对于 Skills见 [Skills](/zh-CN/tools/skills)目前仍缺少的内容:
- **决策能力:**提示词中列出 Skills 时,智能体是否会选择正确的 Skills或避开无关的 Skills
- **遵从性:** 智能体是否会在使用前读取 `SKILL.md` 并遵循所要求的步骤 / 参数?
- **工作流契约:** 用于断言工具顺序、会话历史延续以及沙箱边界的多轮场景。
- **决策能力:** prompt 中列出 Skills 时,智能体是否会选择正确的 Skills或避开无关的 Skills
- **合规性:** 智能体在使用前是否会读取 `SKILL.md`,并遵循所需步骤 / 参数?
- **工作流契约:** 断言工具顺序、会话历史延续以及沙箱边界的多轮场景。
未来的 evals 应首先保持确定性:
未来的评估应优先保持确定性:
- 使用模拟提供商的场景运行器,用于断言工具调用 + 顺序、skill 文件读取和会话接线。
- 一小套聚焦 Skills 的场景(使用 vs 避免、门控、提示词注入)。
- 仅在对 CI 安全的套件到位之后,再增加可选的实时 evals选择加入、环境变量门控)。
- 一个使用模拟提供商的场景运行器,用于断言工具调用 + 顺序、skill 文件读取和会话接线。
- 一小组聚焦 skill 的场景(使用 vs 避免、门控、prompt 注入)。
- 只有在对 CI 安全的测试套件就位之后,才添加可选的 live 评估(选择启用、由环境变量控制)。
## 契约测试(插件和渠道形状)
契约测试用于验证每个已注册插件和渠道都符合其接口契约。它们会遍历所有已发现的插件,并运行一组形状和行为断言。默认的 `pnpm test` 单元测试通道会有意跳过这些共享接缝和冒烟测试文件;当你修改共享渠道或提供商表面时,请显式运行契约命令。
契约测试用于验证每个已注册插件和渠道都符合其接口契约。它们会遍历所有发现的插件,并运行一套关于结构和行为的断言。默认的 `pnpm test` unit 通道会刻意跳过这些共享接缝和冒烟文件;当你修改共享渠道或提供商表面时,请显式运行契约命令。
### 命令
- 所有契约测试`pnpm test:contracts`
- 所有契约:`pnpm test:contracts`
- 仅渠道契约:`pnpm test:contracts:channels`
- 仅提供商契约:`pnpm test:contracts:plugins`
@ -596,14 +597,14 @@ Gradle 输出目录,这样 Docker 实时运行就不会花数分钟复制机
位于 `src/channels/plugins/contracts/*.contract.test.ts`
- **plugin** - 基本插件形状id、名称、能力
- **plugin** - 基本插件结构id、name、capabilities
- **setup** - 设置向导契约
- **session-binding** - 会话绑定行为
- **outbound-payload** - 消息载结构
- **outbound-payload** - 消息载结构
- **inbound** - 入站消息处理
- **actions** - 渠道动作处理器
- **threading** - 线程 ID 处理
- **directory** - Directory / roster API
- **directory** - 目录 / roster API
- **group-policy** - 群组策略执行
### 提供商 Status 契约
@ -611,41 +612,41 @@ Gradle 输出目录,这样 Docker 实时运行就不会花数分钟复制机
位于 `src/plugins/contracts/*.contract.test.ts`
- **status** - 渠道 Status 探测
- **registry** - 插件注册表形状
- **registry** - 插件注册表结构
### 提供商契约
位于 `src/plugins/contracts/*.contract.test.ts`
- **auth** - 认证流程契约
- **auth-choice** - 认证选择 / 选取
- **auth-choice** - 认证选项 / 选择
- **catalog** - 模型目录 API
- **discovery** - 插件发现
- **loader** - 插件加载
- **runtime** - 提供商运行时
- **shape** - 插件形状 / 接口
- **shape** - 插件结构 / 接口
- **wizard** - 设置向导
### 何时运行
- 修改 plugin-sdk 导出或子路径之后
- 添加或修改渠道或提供商插件之后
- 重构插件注册或发现逻辑之后
- 在更改 `plugin-sdk` 导出或子路径之后
- 添加或修改渠道或提供商插件之后
- 重构插件注册或发现逻辑之后
契约测试会在 CI 中运行,不需要真实 API 密钥。
## 添加回归测试(指南)
当你修复了一个在实时测试中发现的提供商 / 模型问题时:
当你修复一个在 live 中发现的提供商 / 模型问题时:
- 尽可能添加一个对 CI 安全的回归测试(模拟 / stub 提供商,或捕获精确的请求形状转换)
- 如果问题天然只能在实时环境中复现(限流、认证策略),就保持实时测试范围狭窄,并通过环境变量选择加入
- 优先定位能够捕获该缺陷的最小层级:
- 提供商请求转换 / 重放缺陷 → 直接模型测试
- Gateway 网关会话 / 历史 / 工具流水线缺陷 → Gateway 网关实时冒烟测试或对 CI 安全的 Gateway 网关模拟测试
- SecretRef 遍历护栏:
- `src/secrets/exec-secret-ref-id-parity.test.ts` 会从注册表元数据(`listSecretTargetRegistryEntries()`)中为每个 SecretRef 类推导出一个采样目标,然后断言遍历片段 exec id 会被拒绝。
- 如果你在 `src/secrets/target-registry-data.ts` 中添加了新的 `includeInPlan` SecretRef 目标族,请更新该测试中的 `classifyTargetClass`。该测试会在遇到未分类目标 id 时有意失败,从而防止新的类别被静默跳过。
- 如果可能,添加一个对 CI 安全的回归测试(模拟 / stub 提供商,或捕获精确的请求形状转换)
- 如果它本质上只能通过 live 发现(速率限制、认证策略),就让 live 测试保持窄范围,并通过环境变量选择启用
- 优先瞄准能捕获该 bug 的最小层级:
- 提供商请求转换 / 重放 bug → 直接模型测试
- gateway 会话 / 历史 / 工具管道 bug → gateway live 冒烟测试或对 CI 安全的 gateway mock 测试
- SecretRef 遍历护栏:
- `src/secrets/exec-secret-ref-id-parity.test.ts` 会从注册表元数据(`listSecretTargetRegistryEntries()`)中为每个 SecretRef 类派生一个采样目标,然后断言遍历段 exec id 会被拒绝。
- 如果你在 `src/secrets/target-registry-data.ts` 中添加了新的 `includeInPlan` SecretRef 目标族,请更新该测试中的 `classifyTargetClass`。该测试会在遇到未分类 target id 时故意失败,这样新类别就无法被静默跳过。
## 相关内容