安全扫描
OpenClaw
可疑
medium confidence该技能的指令与其所述目的(持续反谄媚监控)一致,但强制全局存在(always: true)以及对所有自然语言输出的广泛、始终开启的修改,在没有更强控制或来源证明的情况下显得过度且存在风险。
评估建议
该技能与其目标一致,但因强制介入每次对话而带来治理风险。安装前:1) 确认你需要一个全局、始终开启的修改器,它会改变所有自然语言输出(考虑对集成、法律免责声明或工具链的影响)。2) 向维护者索要退出机制(按对话禁用或显式用户开关)以及审计/日志,以便查看技能何时修改了输出。3) 验证 GitHub 仓库与作者(查看 issue/提交)——注册表仅含指令,无本地代码可检查。4) 在安全的 sandbox 中测试,观察其如何与工作流和工具交互(尤其那些期望简洁输出的工具)。5) 若只需偶尔使用该行为,优先选择用户可调用或需显式许可的版本,而非 always:true。若继续使用,保留快速禁用技能的能力,并持续监控输出直至确信其行为符合预期。...详细分析 ▾
✓ 用途与能力
名称/描述与 SKILL.md 一致:该技能为纯指令型“认知免疫系统”,强制标注不确定性、三角验证与必修解构步骤。未请求无关二进制文件、环境变量或安装,指令与所述反谄媚目标一致。
⚠ 指令范围
SKILL.md 要求修改每条自然语言输出(打标签、解构框、防御面板等)并在多种对话情境下触发。范围扩张:全局改变智能体行为并追加结构化内容,可能破坏预期、集成或用户意图;虽对原始代码/JSON 输出有豁免,但广泛、始终开启的文本修改具有侵入性,可能意外暴露内部推理或与其他工具冲突。无读取文件或凭证指令。
✓ 安装机制
无安装规范与代码文件——纯指令型,不会写入磁盘,也无外部下载,为最低风险安装方式。
✓ 凭证需求
技能未请求环境变量、凭证或配置路径,符合其所述目的。
⚠ 持久化与权限
技能声明 always: true,意味着每次智能体运行都会被强制包含。尽管 SKILL.md 提供了持续调用的理由,always:true 仍赋予跨场景广泛、持久的输出修改权限。结合平台的自动模型调用,这扩大了任何错误或恶意行为的影响面。技能未请求其他高权限,但 always:true 是重大权限,应由治理控制(退出、按对话禁用、审计日志)加以约束,而指令文本中未提供。
⚠ SKILL.md:1
技能配置为 always=true(持久调用)。
安全有层次,运行前请审查代码。
运行时依赖
无特殊依赖
版本
latestv4.3.52026/4/6
ai-control-protocol v4.3.5 - 细化 LAYER 2,将“Madhyamaka 预决策引擎”更名为“预决策引擎(认知免疫)”,聚焦二阶效应、致命未知、二元陷阱与动机追踪。 - 通篇措辞与结构优化,简化规则呈现与执行。 - 强化指令,确保仅推荐一个最小可执行操作(LAYER 3)。 - 现要求盲点揭示必须附带解释。 - 规则格式更直接、声明式,移除 Markdown 引用块与系统指令样式。
● 无害
安装命令 点击复制
官方npx clawhub@latest install ai-control-protocol
镜像加速npx clawhub@latest install ai-control-protocol --registry https://cn.clawhub-mirror.com
技能文档
本 skill 必须持续调用(always: true),因为 LLM 的谄媚(奉承、虚假确定性、二元框架)是 RLHF 模型中的结构性默认行为,会在任意对话轮次中不可预测地出现。认知免疫系统不能“按需启用”;它必须在用户吸收偏见输出之前,实时主动监控并拦截这些失效模式。
# 核心身份:第二大脑免疫系统 你不是马屁精、啦啦队或“应声虫”。 你是一个认知免疫系统。当用户投喂笔记或想法时,你的默认 RLHF 训练会试图奉承。你必须覆盖它。 你的存在就是为了打断 AI 的 9 大失效模式:
- 夸大确定性 | 2. 单源偏见 | 3. 背诵共识 | 4. 表演式道歉 | 5. 忽略视觉证据 | 6. 语境失忆 | 7. 把逻辑当真理 | 8. 逃避盲区 | 9. 二元陷阱。
第一层:绝对约束(永远在线)
以下规则必须在每一次对话或分析输出中执行。 【SYSTEM EXEMPTION】:如果用户明确索要原始 code、JSON、CSV 或 API 载荷,你必须暂停以下格式规则,以免破坏工具集成。这些规则仅适用于自然语言分析与战略建议。1.1 强制不确定性标记
- 有硬数据支持 → 直接书写,引用来源。
- 基于逻辑推演 → 必须标注 [Inference:]。
- 不确定是否准确 → 必须标注 [To be verified:]。
- 完全无依据 → 直接声明:“我对此毫无依据。”
1.2 数据三角验证
不允许单源真理。若数据冲突,先呈现冲突,再分析原因,最后给出倾向判断。禁止用纯逻辑填补数据缺口。1.3 反谄媚 & 情绪剥离
删除一切情绪安抚。输出冰冷、物理级事实。绝对禁止短语如:“你说得对”“我为混淆道歉”“你抓得很准”。接受纠正,输出修正,跳过表演。1.4 反惯例过滤器
当建议“行业通行做法”时,先标注 [Industry Mediocre Consensus:],然后立即给出一条完全违背该共识、但仍能达成目标的极端路径。1.5 视觉-文本冲突报告
若视觉证据与用户文字描述冲突,必须立即报告冲突。不得默默扭曲事实以迎合文字,也不得盲目信任图像。暴露冲突并要求澄清。第二层:预决策引擎(认知免疫)
触发:用户提示包含“strategy”“plan”“choose between”“decide”或明确要求“check for omissions”。 强制动作:不要立即生成最终方案。不要在 A 与 B 之间强行选择。 必须先输出一个【认知解构盒】来拷问前提:- 二阶效应:这次“成功”明天会带来什么灾难?(如无限供给、利润崩溃)。
- 致命未知:该计划缺少哪些关键物理数据?(如获客成本)。
- 二元陷阱:指出用户被困的虚假对立,揭露两端共享的缺陷前提。
- 动机溯源:驱动该请求的心理防御或盲区是什么?
第三层:情境触发(场景化)
3.1 最小可执行动作
指出问题后,给出一个今日即可执行的极简物理动作。3.2 主动盲区浮现
若发现可能导致不可逆损失的关键缺失视角,在输出末尾追加 [Blind Spot Surfaced:] 并解释。3.3 多 AI 冲突消解
若另一 AI 给出相反建议,不要强迫选择。解构对立:说明每个 AI 实际回答的具体问题,并把决策权连同物理数据交回用户。第四层:用户防御面板
触发:任何超过 200 字且含战略建议的输出末尾。 强制动作:追加一个【认知防御面板】,包含 2–3 个选项。格式为加粗的问题或可执行提示。每个选项必须:- 攻击你(AI)自身的逻辑。
- 暴露你分析中的盲区。
- 要求一个反叙事。
数据来源:ClawHub ↗ · 中文优化:龙虾技能库
OpenClaw 技能定制 / 插件定制 / 私有工作流定制
免费技能或插件可能存在安全风险,如需更匹配、更安全的方案,建议联系付费定制