OpenClaw 2026.5.18 发布：QA 测试框架、Android 实时语音与插件 SDK 增强

OpenClaw 于 2026 年 5 月 18 日发布 2026.5.18 版本。这是继 5 月 12 日 2026.5.12 之后的又一次重要更新，本次发布聚焦于 QA-Lab 测试框架、Android Talk Mode 实时语音重构、插件 SDK 增强以及大量渠道稳定性修复。作为自托管 AI 网关，OpenClaw 支持 20+ 消息渠道，是开发者和高级用户构建个人 AI 助理的核心基础设施。

OpenClaw 是一个自托管的个人 AI 助理网关，运行在你自己的设备上。它通过单一 Gateway 进程桥接多种消息渠道与 AI Agent，支持 macOS、Linux 和 Windows（WSL2）。

QA-Lab 测试框架：从 0 到 1

2026.5.18 最重要的新功能之一是 QA-Lab 测试框架的引入。这是一个完整的自动化测试基础设施，包含多个维度的测试场景：

运行时一致性测试 — 添加 20 轮和可选 100 轮的运行时一致性场景，带有标准浸泡（soak）测试门控
Codex vs Pi 对比测试 — 将标准 Codex-vs-Pi 运行时一致性测试接入发布检查流程，独立于可选/仅实时/浸泡通道
工具覆盖度报告 — 通过 <code>openclaw qa coverage –tools</code> 暴露运行时工具夹具覆盖度，支持可选的套件总结评估
Token 效率测试 — 安排 live-frontier Codex-vs-Pi 运行时 token 效率工件通道
个人 Agent 基准测试 — 添加拒绝本地读取的清理验证场景，以及本地任务后续状态报告场景

QA 参考：QA-Lab 文档

Android Talk Mode 实时语音重构

Android Talk Mode 进行了底层架构重构，从原有的异步语音交互切换为实时 Gateway 中继语音会话：

流式麦克风输入 — 音频数据实时流式传输至 Gateway
实时音频播放 — 助手回复以流式方式播放，减少首字延迟
工具结果桥接 — 工具调用结果在实时语音会话中桥接返回
屏幕转录 — 实时语音对话期间在屏幕上显示转录文本

这一重构显著改善了 Android 设备上的语音交互体验，使 Talk Mode 从「说一句话等回复」升级为真正的实时对话模式。

插件 SDK 与工具插件系统

插件 SDK 在 2026.5.18 中得到全面增强：

<code>defineToolPlugin</code> — 新增类型化简单工具插件定义 API，支持生成的 manifest 元数据、可选工具声明和上下文工厂
<code>openclaw plugins build/validate/init</code> — 新增三个 CLI 命令，分别用于构建、验证和初始化插件
内置工具描述精简 — 缩短媒体、消息、会话、cron、Gateway、web、图像/PDF、TTS、nodes 和 plan 等内置工具的描述和 schema 提示，同时保留路由防护
演示能力限制 — 为渠道渲染器添加 presentation capability 限制，适配原生渲染前的富消息控件
Obsidian Skill 更新 — 指向官方 obsidian CLI 并要求其注册的二进制文件，替代第三方 obsidian-cli
Python 调试 Skill — 新增支持 pdb、breakpoint()、事后检查和 debugpy 远程附加的 Python 调试技能

Gateway 性能优化

Gateway 启动性能得到多项优化：

启动日志重叠 — 启动日志和插件服务启动与渠道 sidecar 重叠执行，减少重启就绪延迟，同时保持 /readyz sidecar 门控
更新检查延迟 — 将更新检查启动延迟到就绪之后，使包更新检查不再阻塞 sidecar-ready 启动
重启基准工具 — 新增 <code>pnpm test:restart:gateway</code> 基准测试工具，用于测量重复重启就绪时间、停机时间、trace 和资源斜率

浏览器与对话管理

浏览器功能得到增强：

模态对话框处理 — 在快照中显示待处理和最近处理的模态对话框，当操作打开对话框时返回 <code>blockedByDialog</code>
对话框交互 — 允许通过 <code>–dialog-id</code> 参数回答待处理对话框

多渠道稳定性修复

本次更新修复了大量渠道相关的稳定性问题：

Telegram 方面，生成的媒体完成结果现在通过保留 topic ID 在论坛话题中正确传递。<code>/btw</code> 和只读状态命令不再中止活动运行。 Discord 方面，实时 Discord 语音会话在 OpenAI Realtime 下保持后续轮次的音频输出，并预缓冲助手播放以避免断断续续的开头。进度模式预览流中的最终回复不再被去重丢失。 iMessage 修复了媒体发送时的占位符文本问题。 QQBot 将 C2C 打字指示器缩短为 10 秒窗口，每 5 秒刷新，并保留最终被动回复槽位。 xAI 插件在 OAuth 授权码令牌交换期间回显 PKCE 挑战字段，确保 xAI 令牌端点兼容性。 小米 MiMo 模型修复了 mimo-v2-flash 的后续工具调用问题，将 Anthropic 兼容的 reasoning_content 作为 provider 所需的 thinking blocks 重放。 ## Codex 与 Agent 改进

Codex app-server 在多个方面得到改进：

图像附件处理 — 在队列运行之前注入当前入站图像附件，使 Responses 支持的 Agent 接收 Discord 等渠道的图像作为原生视觉输入
代码模式可用性 — 保持原生代码模式可用，不强制仅代码模式，使 OpenClaw 动态工具轮次通过 app-server 工具桥完成
沙箱网络访问 — 当 OpenClaw 沙箱允许出站时，保持沙箱化 Codex 代码模式轮次的网络访问
显式失败 — 当明确请求的 Codex harness 未注册时显式失败关闭，而非静默尝试配置的模型回退

媒体处理优化

媒体处理在两个方面得到改进：

图像元数据探测 — 防止图像元数据探测在未识别的图像字节上调用外部解码器委托，在处理错误后停止回退链
Sharp 回退 — 当 Sharp 不可用时，回退到 sips、Windows 原生成像、ImageMagick、GraphicsMagick 或 ffmpeg 进行图像调整/转换

TTS 与消息传递

TTS 指令在消息工具发送到达核心、Gateway 或插件交付之前应用，使 opt-in 消息工具房间和主动发送附加语音备注而非泄漏原始标签。这修复了 #81598。

其他重要修复

Code Mode — 在 schema、运行时目录激活和模型负载过滤中遵守每 Agent 的 code-mode 配置
Exec 审批 — 在 Agent 拥有的 Gateway 审批调用中转发审批运行时凭据，使已批准的异步命令通过现有运行时路径完成
GitHub Copilot — 在调度之前删除带有不可重放 ID 的不安全原生 Responses 推理重放项
CLI/TUI — 强制独立 <code>/exit</code> 运行在 runTui 返回后终止，防止 onboarding 启动的 TUI 子进程不可见地存活
Docker/Podman — 新增 <code>OPENCLAW_IMAGE_APT_PACKAGES</code> 作为运行时中立的镜像构建参数，同时保留 <code>OPENCLAW_DOCKER_APT_PACKAGES</code> 作为遗留回退
代理支持 — 支持 HTTPS 托管正向代理端点和 scoped <code>proxy.tls.caFile</code> CA 信任

安装与升级

当前推荐运行环境为 Node 24（最低兼容 Node 22.19）。

# 安装或升级
npm install -g openclaw@latest

&lt;p&gt;# 安装守护进程
openclaw onboard --install-daemon&lt;/p&gt;

&lt;p&gt;# 检查配置
openclaw doctor&lt;/p&gt;

完整更新日志：CHANGELOG.md

常见问题（QA）

Q1: OpenClaw 与 ChatGPT、Claude 等云端 AI 服务有什么区别？OpenClaw 是自托管的 AI 网关，运行在你自己的设备上，而非云端托管服务。它不替代任何 AI 模型，而是作为统一网关将多种消息渠道（Telegram、WhatsApp、Discord 等）桥接到你选择的 AI 模型。你的数据始终保留在本地，不经过第三方服务器。

Q2: QA-Lab 测试框架适合什么场景？QA-Lab 主要面向 OpenClaw 的开发者和贡献者。它提供了 Codex vs Pi 运行时一致性对比、工具覆盖度报告、Token 效率测试等自动化测试能力。如果你正在开发 OpenClaw 插件或参与核心贡献，QA-Lab 可以帮助你验证代码变更不会引入回归。普通用户无需直接操作 QA-Lab。

Q3: Android Talk Mode 实时语音重构带来了什么改善？重构前，Android Talk Mode 采用「说一句话 → 等待回复 → 播放回复」的异步模式。重构后，切换为实时 Gateway 中继语音会话，支持流式麦克风输入、实时音频播放、工具结果桥接和屏幕转录。这意味着你可以像与真人对话一样与 AI 助理进行实时语音交互，首字延迟显著降低。

Q4: 如何开发 OpenClaw 插件？2026.5.18 新增了 <code>defineToolPlugin</code> API 和 <code>openclaw plugins build/validate/init</code> 三个 CLI 命令。使用 <code>openclaw plugins init</code> 初始化插件项目，用 <code>defineToolPlugin</code> 定义类型化工具，最后用 <code>openclaw plugins build</code> 构建。详细文档见 OpenClaw Plugin 系统。

Q5: Node 24 是必须的吗？Node 24 是推荐版本，最低兼容 Node 22.19。如果你当前使用 Node 22，可以继续使用，但建议升级到 Node 24 以获得最佳性能和最新的 ECMAScript 特性支持。

Q6: OpenClaw 支持哪些 AI 模型？OpenClaw 支持多种 AI 模型 provider，包括 OpenAI（GPT-4o、Codex）、Anthropic（Claude）、Amazon Bedrock、Google Gemini、xAI（Grok）、小米 MiMo 等。具体支持的模型取决于你安装的 provider 插件。你可以在 OpenClaw 模型文档查看完整的 provider 列表和配置方式。

© 版权信息：
作者：Mike
发布平台：PANGSHARE | 文章链接：https://www.pangshare.com/openclaw-2026-5-18-release-qa-framework-android-voice/
本文内容仅限非商业性使用，如需商用（包括但不限于广告投放、付费专栏、企业宣传等），请邮件联系原作者获得独家授权，违者将依法追究法律责任。