Generate Judgements — 生成判断

v1.0.0

在创建或更新测试判断定义（judge_definitions）用于代理技能评估YAML配置时使用。分析一个技能的SKILL.md并参考...

0· 0·0 当前·0 累计

by @panlm

网页工具

使用场景：使用Generate Judgements — 生成判断进行网页工具使用Generate Judgements — 生成判断

下载技能包项目主页

运行时依赖

无特殊依赖

安装命令

点击复制

官方npx clawhub@latest install generate-judgements

镜像加速npx clawhub@latest install generate-judgements --registry https://cn.longxiaskill.com 镜像可用

本土化适配说明

Generate Judgements — 生成判断安装说明：安装命令：["openclaw skills install generate-judgements"]

需要定制？告诉我你的需求 →

技能文档

为技能评估生成判断分析技能的源文件并为mlflow-skills自动评估框架生成细粒度的judge_definitions。每个判断是一个是/否问题，LLM法官通过阅读执行跟踪来回答。前提访问目标技能目录（必须包含SKILL.md）熟悉mlflow-skills YAML配置格式（参见references/yaml-config-spec.md）工作流程 digraph generate_judgements { rankdir=TB; node [shape=box]; collect [label="阶段 1\n收集和分析技能文件"]; infer [label="阶段 2\n推断范围"]; confirm_scope [label="用户确认范围" shape=diamond]; generate [label="阶段 3\n生成判断"]; present [label="阶段 4\n呈现给用户"]; confirm_judge [label="用户批准?" shape=diamond]; write [label="阶段 5\n写入/更新 YAML"]; collect -> infer; infer -> confirm_scope; confirm_scope -> generate [label="批准"]; confirm_scope -> infer [label="修订"]; generate -> present; present -> confirm_judge; confirm_judge -> write [label="批准"]; confirm_judge -> generate [label="修订"]; } 阶段 1：收集和分析技能文件要求用户输入两个参数（或自动检测）：技能目录路径 —— 包含SKILL.md的文件夹现有的测试配置YAML路径（可选） —— 如果提供，工具将更新其judge_definitions部分，而不是创建新文件然后按以下顺序读取所有可用的文件：优先级文件目的 1 SKILL.md 主要源 —— 工作流步骤、行为规则、输出格式 2 references/* 支持细节 —— 模板、CLI命令、查询模式 3 README.md / README_CN.md 额外上下文 —— 范围边界、限制 4 现有的测试配置YAML 了解当前判断以避免重复在读取过程中，提取和记录：工作流步骤 —— 技能必须遵循的编号步骤行为规则 —— "必须"、"始终"、"永不"、"不"指令输出格式要求 —— 文件命名、部分、表格、必填字段条件分支 —— if/else路径，导致不同的输出重要指南 —— "重要指南"或类似部分在末尾阶段 2：推断范围分析技能以识别不同的执行路径，这些路径产生不同的输出或遵循不同的逻辑。每个不同的路径成为一个范围。如何识别范围：在工作流中寻找条件分支（例如"If X → 做 A；否则 → 做 B"）寻找可选步骤（例如"仅在...时执行此步骤"）寻找不同的输出模式（例如"仅检查清单"与"评估报告"）范围命名规则：使用小写、单词或连字符名称：checklist、assessment、research 范围all被保留 —— 它意味着"始终运行，无论测试范围如何" 每个技能至少有一个隐含的all范围，用于共享/公共行为向用户呈现推断范围，并附上每个范围的简要描述：我在此技能中找到了以下执行分支：

all —— 共享的公共行为（技能加载、文档搜索、分类、源注释）
checklist —— 仅检查清单的输出路径（无实时资源，生成检查清单文件，提供下一步）
assessment —— 实时评估路径（运行AWS CLI，生成评估报告，无单独的检查清单）

看起来对吗？应该添加、删除或重命名任何范围吗？等待用户确认后再继续。阶段 3：生成判断对于每个确认的范围，生成细粒度的judge_definitions。遵循以下规则： 3.1 粒度原则每个检查点对应一个判断。每个判断测试一个行为或要求。 # GOOD —— 一个具体的检查

name: sequential-mcp-calls

scope: all question: > 检查MCP工具调用是否按顺序执行... # BAD —— 多个检查塞入一个

name: workflow-correct

scope: all question: > 检查代理是否按顺序搜索文档，读取页面，提取项目到 5 个类别，并写入文件... 3.2 判断类别按以下顺序为每个范围生成判断：类别 A：技能加载和调用（范围：all）技能是否加载（SKILL.md读取）？参考文件在需要时是否读取？类别 B：工作流行为（范围：all或范围特定）每个工作流步骤是否正确执行？是否遵循顺序/并行执行规则？是否遵循错误处理/重试规则？条件分支是否正确采取？类别 C：输出质量（范围：all或范围特定）输出是否包含所有必填部分/类别？输出是否遵循命名约定？输出是否包含所需的元数据（源注释、ID等）？数量是否在预期范围内？类别 D：范围特定行为（每个非all范围）此执行路径有什么独特之处？在此路径中不应该发生什么？（负面检查）预期的其他输出/操作是什么？类别 E：指南...

运行时依赖

安装命令

本土化适配说明

技能文档

相关技能推荐