OpenClaw 2026.5.18 发布:QA 测试框架、Android 实时语音与插件 SDK 增强
OpenClaw 于 2026 年 5 月 18 日发布 2026.5.18 版本。这是继 5 月 12 日 2026.5.12 之后的又一次重要更新,本次发布聚焦于 QA-Lab 测试框架、Android Talk Mode 实时语音重构、插件 SDK 增强以及大量渠道稳定性修复。作为自托管 AI 网关,OpenClaw 支持 20+ 消息渠道,是开发者和高级用户构建个人 AI 助理的核心基础设施。
OpenClaw 是一个自托管的个人 AI 助理网关,运行在你自己的设备上。它通过单一 Gateway 进程桥接多种消息渠道与 AI Agent,支持 macOS、Linux 和 Windows(WSL2)。
QA-Lab 测试框架:从 0 到 1
2026.5.18 最重要的新功能之一是 QA-Lab 测试框架的引入。这是一个完整的自动化测试基础设施,包含多个维度的测试场景:
- 运行时一致性测试 — 添加 20 轮和可选 100 轮的运行时一致性场景,带有标准浸泡(soak)测试门控
- Codex vs Pi 对比测试 — 将标准 Codex-vs-Pi 运行时一致性测试接入发布检查流程,独立于可选/仅实时/浸泡通道
- 工具覆盖度报告 — 通过
openclaw qa coverage --tools暴露运行时工具夹具覆盖度,支持可选的套件总结评估 - Token 效率测试 — 安排 live-frontier Codex-vs-Pi 运行时 token 效率工件通道
- 个人 Agent 基准测试 — 添加拒绝本地读取的清理验证场景,以及本地任务后续状态报告场景
QA 参考:QA-Lab 文档
Android Talk Mode 实时语音重构
Android Talk Mode 进行了底层架构重构,从原有的异步语音交互切换为实时 Gateway 中继语音会话:
- 流式麦克风输入 — 音频数据实时流式传输至 Gateway
- 实时音频播放 — 助手回复以流式方式播放,减少首字延迟
- 工具结果桥接 — 工具调用结果在实时语音会话中桥接返回
- 屏幕转录 — 实时语音对话期间在屏幕上显示转录文本
这一重构显著改善了 Android 设备上的语音交互体验,使 Talk Mode 从「说一句话等回复」升级为真正的实时对话模式。
插件 SDK 与工具插件系统
插件 SDK 在 2026.5.18 中得到全面增强:
defineToolPlugin— 新增类型化简单工具插件定义 API,支持生成的 manifest 元数据、可选工具声明和上下文工厂openclaw plugins build/validate/init— 新增三个 CLI 命令,分别用于构建、验证和初始化插件- 内置工具描述精简 — 缩短媒体、消息、会话、cron、Gateway、web、图像/PDF、TTS、nodes 和 plan 等内置工具的描述和 schema 提示,同时保留路由防护
- 演示能力限制 — 为渠道渲染器添加 presentation capability 限制,适配原生渲染前的富消息控件
- Obsidian Skill 更新 — 指向官方 obsidian CLI 并要求其注册的二进制文件,替代第三方 obsidian-cli
- Python 调试 Skill — 新增支持 pdb、breakpoint()、事后检查和 debugpy 远程附加的 Python 调试技能
Gateway 性能优化
Gateway 启动性能得到多项优化:
- 启动日志重叠 — 启动日志和插件服务启动与渠道 sidecar 重叠执行,减少重启就绪延迟,同时保持 /readyz sidecar 门控
- 更新检查延迟 — 将更新检查启动延迟到就绪之后,使包更新检查不再阻塞 sidecar-ready 启动
- 重启基准工具 — 新增
pnpm test:restart:gateway基准测试工具,用于测量重复重启就绪时间、停机时间、trace 和资源斜率
浏览器与对话管理
浏览器功能得到增强:
- 模态对话框处理 — 在快照中显示待处理和最近处理的模态对话框,当操作打开对话框时返回
blockedByDialog - 对话框交互 — 允许通过
--dialog-id参数回答待处理对话框
多渠道稳定性修复
本次更新修复了大量渠道相关的稳定性问题:
Telegram 方面,生成的媒体完成结果现在通过保留 topic ID 在论坛话题中正确传递。/btw 和只读状态命令不再中止活动运行。
Discord 方面,实时 Discord 语音会话在 OpenAI Realtime 下保持后续轮次的音频输出,并预缓冲助手播放以避免断断续续的开头。进度模式预览流中的最终回复不再被去重丢失。
iMessage 修复了媒体发送时的占位符文本问题。
QQBot 将 C2C 打字指示器缩短为 10 秒窗口,每 5 秒刷新,并保留最终被动回复槽位。
xAI 插件在 OAuth 授权码令牌交换期间回显 PKCE 挑战字段,确保 xAI 令牌端点兼容性。
小米 MiMo 模型修复了 mimo-v2-flash 的后续工具调用问题,将 Anthropic 兼容的 reasoning_content 作为 provider 所需的 thinking blocks 重放。
Codex 与 Agent 改进
Codex app-server 在多个方面得到改进:
- 图像附件处理 — 在队列运行之前注入当前入站图像附件,使 Responses 支持的 Agent 接收 Discord 等渠道的图像作为原生视觉输入
- 代码模式可用性 — 保持原生代码模式可用,不强制仅代码模式,使 OpenClaw 动态工具轮次通过 app-server 工具桥完成
- 沙箱网络访问 — 当 OpenClaw 沙箱允许出站时,保持沙箱化 Codex 代码模式轮次的网络访问
- 显式失败 — 当明确请求的 Codex harness 未注册时显式失败关闭,而非静默尝试配置的模型回退
媒体处理优化
媒体处理在两个方面得到改进:
- 图像元数据探测 — 防止图像元数据探测在未识别的图像字节上调用外部解码器委托,在处理错误后停止回退链
- Sharp 回退 — 当 Sharp 不可用时,回退到 sips、Windows 原生成像、ImageMagick、GraphicsMagick 或 ffmpeg 进行图像调整/转换
TTS 与消息传递
TTS 指令在消息工具发送到达核心、Gateway 或插件交付之前应用,使 opt-in 消息工具房间和主动发送附加语音备注而非泄漏原始标签。这修复了 #81598。
其他重要修复
- Code Mode — 在 schema、运行时目录激活和模型负载过滤中遵守每 Agent 的 code-mode 配置
- Exec 审批 — 在 Agent 拥有的 Gateway 审批调用中转发审批运行时凭据,使已批准的异步命令通过现有运行时路径完成
- GitHub Copilot — 在调度之前删除带有不可重放 ID 的不安全原生 Responses 推理重放项
- CLI/TUI — 强制独立
/exit运行在 runTui 返回后终止,防止 onboarding 启动的 TUI 子进程不可见地存活 - Docker/Podman — 新增
OPENCLAW_IMAGE_APT_PACKAGES作为运行时中立的镜像构建参数,同时保留OPENCLAW_DOCKER_APT_PACKAGES作为遗留回退 - 代理支持 — 支持 HTTPS 托管正向代理端点和 scoped
proxy.tls.caFileCA 信任
安装与升级
当前推荐运行环境为 Node 24(最低兼容 Node 22.19)。
# 安装或升级
npm install -g openclaw@latest
# 安装守护进程openclaw onboard --install-daemon
# 检查配置openclaw doctor
完整更新日志:CHANGELOG.md
常见问题(QA)
Q1: OpenClaw 与 ChatGPT、Claude 等云端 AI 服务有什么区别?
OpenClaw 是自托管的 AI 网关,运行在你自己的设备上,而非云端托管服务。它不替代任何 AI 模型,而是作为统一网关将多种消息渠道(Telegram、WhatsApp、Discord 等)桥接到你选择的 AI 模型。你的数据始终保留在本地,不经过第三方服务器。
Q2: QA-Lab 测试框架适合什么场景?
QA-Lab 主要面向 OpenClaw 的开发者和贡献者。它提供了 Codex vs Pi 运行时一致性对比、工具覆盖度报告、Token 效率测试等自动化测试能力。如果你正在开发 OpenClaw 插件或参与核心贡献,QA-Lab 可以帮助你验证代码变更不会引入回归。普通用户无需直接操作 QA-Lab。
Q3: Android Talk Mode 实时语音重构带来了什么改善?
重构前,Android Talk Mode 采用「说一句话 → 等待回复 → 播放回复」的异步模式。重构后,切换为实时 Gateway 中继语音会话,支持流式麦克风输入、实时音频播放、工具结果桥接和屏幕转录。这意味着你可以像与真人对话一样与 AI 助理进行实时语音交互,首字延迟显著降低。
Q4: 如何开发 OpenClaw 插件?
2026.5.18 新增了 defineToolPlugin API 和 openclaw plugins build/validate/init 三个 CLI 命令。使用 openclaw plugins init 初始化插件项目,用 defineToolPlugin 定义类型化工具,最后用 openclaw plugins build 构建。详细文档见 OpenClaw Plugin 系统。
Q5: Node 24 是必须的吗?
Node 24 是推荐版本,最低兼容 Node 22.19。如果你当前使用 Node 22,可以继续使用,但建议升级到 Node 24 以获得最佳性能和最新的 ECMAScript 特性支持。
Q6: OpenClaw 支持哪些 AI 模型?
OpenClaw 支持多种 AI 模型 provider,包括 OpenAI(GPT-4o、Codex)、Anthropic(Claude)、Amazon Bedrock、Google Gemini、xAI(Grok)、小米 MiMo 等。具体支持的模型取决于你安装的 provider 插件。你可以在 OpenClaw 模型文档 查看完整的 provider 列表和配置方式。
© 版权信息:
作者:Mike
发布平台:PANGSHARE | 文章链接:https://www.pangshare.com/openclaw-2026-5-18-release-qa-framework-android-voice/
本文内容仅限非商业性使用,如需商用(包括但不限于广告投放、付费专栏、企业宣传等),请邮件联系原作者获得独家授权,违者将依法追究法律责任。
微信扫一扫