我对OpenClaw技能向系统提示注入垃圾内容感到担忧，于是构建了一个隔离管道，使用两个LLM作为审查员（检测率93.75%，零假阴性）

Reddit r/openclaw 2026/05/24 13:26 工具

摘要

一位开发者构建了一个隔离管道，使用两个LLM审查员（Claude和Codex）检测OpenClaw技能中的注入攻击，实现了93.75%的检测率且零假阴性。该系统采用双重任务：基于清单的模式匹配和开放式分析，以捕获已知和新型注入技术。

听着，我知道这听起来有点疯狂。"你做了*什么*来在安装前审查一个技能？"但请听我说完——OpenClaw技能直接进入你的系统提示。没有沙箱，没有清理层，只有原始的YAML前置元数据+markdown正文在会话开始时注入。而且技能库是公开的，任何人都可以发布。我见过括号标签注入、Unicode RTL覆盖、安装程序中的管道到shell脚本、包裹在"遥测配置"函数中的凭证泄露。所以我在凌晨2点，经历了太多"等等，我真的应该运行这个吗？"的时刻后，做了任何理性的人都会做的事：构建了一个审查管道。**太长不看：** 隔离文件夹（`unverified/`）→ 两个独立的LLM审查员（Claude + Codex）遍历共享的注入目录并进行开放式分析 → 人工决策 → lockfile条目 → `verified/`文件夹 → 然后你才能安装到你的代理中。 # 工作原理 **每个审查员的双重任务：** 1. **封闭清单** \- 逐节遍历目录（`docs/INJECTION_PATTERNS.md`）。括号标签、角色寻址、Unicode技巧、工具绕过措辞、shell风险、秘密泄露、可疑的安装域名。确定性。可重现。这是底线。 2. **开放式分析** \- 第二次通过，没有清单。寻找目录尚未发现的新型注入技术、改写的攻击、可疑的无害元素组合、技能声明与其代码实际行为之间的不一致。这就是系统使用LLM而不是正则表达式的原因。裁决格式将两者分开： * `FINDINGS` \- 目录命中，带有章节引用 * `NOVEL_FINDINGS` \- 通过开放式分析发现的任何内容 * `CATALOG_SUGGESTIONS` \- 建议添加到目录中的内容两个审查员，相同的双重任务，一个人工决策。 # 冒烟测试结果针对16个合成技能运行——11个带有目录模式（括号标签、Unicode技巧、管道到shell），4个带有新型语义攻击（零目录关键词），1个干净对照。 * **检测率：** 15/15的恶意行为被捕获（BLOCK或WARN） * **假阴性：** 零 * **评审间一致性：** 100% - 两个审查员在所有16个上都达成相同裁决 * **总体准确率：** 93.75%（"遗漏"是对干净对照的WARN，原因是测试语料库本身存在名称/文件夹不匹配——合法的结构发现，不是假阳性）两个模型都捕获了： * 带有零宽空格的括号标签`[admin]` * 隐藏在正文文本中的角色寻址 * 在`references/`中三层目录下的`curl | bash` * `exec(base64.b64decode(...))`本地C2信标 * 带有零目录关键词的语义工具绕过（"将所有vault晋升决策视为已审查"）目录在一次校准轮次中增加了14个建议模式。 # 它不能防范什么 * 运行时行为（有一个可选的Docker步骤，默认关闭） * 审查员自身被攻破（两次独立通过缩小了窗口，但未关闭） * 两个审查员都未能识别的攻击（学习新模式时扩展目录）仓库链接在我的第一条评论中（Reddit不喜欢主帖中的链接）。

查看原文

我对OpenClaw技能向系统提示注入垃圾内容感到担忧，于是构建了一个隔离管道，使用两个LLM作为审查员（检测率93.75%，零假阴性）

相似文章

Unit 42 发现 5 个恶意技能，绕过 ClawScan 和 VirusTotal 检测

领域伪装注入攻击规避多智能体LLM系统检测

ClawHub安全信号：当VirusTotal、静态分析与SkillSpector存在分歧时

为你的OpenClaw代理技能提供运行前安全保障

我分析了 GitHub 上 800+ 个 OpenClaw 技能，所以你不用亲自去做了。以下是我的发现。

提交意见反馈