运行时依赖
安装命令
点击复制本土化适配说明
Generate Judgements — 生成判断 安装说明: 安装命令:["openclaw skills install generate-judgements"]
技能文档
为技能评估生成判断 分析技能的源文件并为mlflow-skills自动评估框架生成细粒度的judge_definitions。每个判断是一个是/否问题,LLM法官通过阅读执行跟踪来回答。 前提 访问目标技能目录(必须包含SKILL.md) 熟悉mlflow-skills YAML配置格式(参见references/yaml-config-spec.md) 工作流程 digraph generate_judgements { rankdir=TB; node [shape=box]; collect [label="阶段 1\n收集和分析技能文件"]; infer [label="阶段 2\n推断范围"]; confirm_scope [label="用户确认范围" shape=diamond]; generate [label="阶段 3\n生成判断"]; present [label="阶段 4\n呈现给用户"]; confirm_judge [label="用户批准?" shape=diamond]; write [label="阶段 5\n写入/更新 YAML"]; collect -> infer; infer -> confirm_scope; confirm_scope -> generate [label="批准"]; confirm_scope -> infer [label="修订"]; generate -> present; present -> confirm_judge; confirm_judge -> write [label="批准"]; confirm_judge -> generate [label="修订"]; } 阶段 1:收集和分析技能文件 要求用户输入两个参数(或自动检测): 技能目录路径 —— 包含SKILL.md的文件夹 现有的测试配置YAML路径(可选) —— 如果提供,工具将更新其judge_definitions部分,而不是创建新文件 然后按以下顺序读取所有可用的文件: 优先级 文件 目的 1 SKILL.md 主要源 —— 工作流步骤、行为规则、输出格式 2 references/* 支持细节 —— 模板、CLI命令、查询模式 3 README.md / README_CN.md 额外上下文 —— 范围边界、限制 4 现有的测试配置YAML 了解当前判断以避免重复 在读取过程中,提取和记录: 工作流步骤 —— 技能必须遵循的编号步骤 行为规则 —— "必须"、"始终"、"永不"、"不"指令 输出格式要求 —— 文件命名、部分、表格、必填字段 条件分支 —— if/else路径,导致不同的输出 重要指南 —— "重要指南"或类似部分在末尾 阶段 2:推断范围 分析技能以识别不同的执行路径,这些路径产生不同的输出或遵循不同的逻辑。每个不同的路径成为一个范围。 如何识别范围: 在工作流中寻找条件分支(例如"If X → 做 A;否则 → 做 B") 寻找可选步骤(例如"仅在...时执行此步骤") 寻找不同的输出模式(例如"仅检查清单"与"评估报告") 范围命名规则: 使用小写、单词或连字符名称:checklist、assessment、research 范围all被保留 —— 它意味着"始终运行,无论测试范围如何" 每个技能至少有一个隐含的all范围,用于共享/公共行为 向用户呈现推断范围,并附上每个范围的简要描述: 我在此技能中找到了以下执行分支:
all—— 共享的公共行为(技能加载、文档搜索、分类、源注释)checklist—— 仅检查清单的输出路径(无实时资源,生成检查清单文件,提供下一步)assessment—— 实时评估路径(运行AWS CLI,生成评估报告,无单独的检查清单)
- name: sequential-mcp-calls
- name: workflow-correct