skill测试 — 技能测试

v3.0.0

Skill 质量测评工具，基于 SkillsBench 方法论对 Agent Skills 进行静态文档分析。评估 Skill 的触发准确性、文档质量、结构完整性等维度。当用户需要 (1) 测评某个 Skill 的文档质量 (2) 评估 Skill 的 description 设计 (3) 生成 Skill 测评报告时，可以使用该工具。

0· 0·0 当前·0 累计

by @gloreasu

生产力工具

下载技能包项目主页

运行时依赖

无特殊依赖

安装命令

点击复制

官方npx clawhub@latest install skill-ce-shi

镜像加速npx clawhub@latest install skill-ce-shi --registry https://cn.longxiaskill.com镜像同步中

需要定制？告诉我你的需求 →

技能文档

SkillsBench 评估工具 - 技能质量评估工具安全说明本技能仅进行静态文档分析，不执行任何代码，不访问网络，不修改文件系统。所有评估基于 SKILL.md 文档内容，不涉及实际运行测试。

概述本技能基于 SkillsBench 开源评估框架的方法论，为 OpenClaw 内网版提供专业的技能质量评估能力。核心价值：全面评估：覆盖触发准确性、文档质量、结构完整性等多维度量化指标：提供可量化的评分和改进建议安全可靠：纯静态分析，无代码执行风险迭代优化：帮助技能作者持续改进文档质量

评估模式：静态文档分析特点：快速 - 几秒钟完成安全 - 不执行任何命令基于文档 - 分析 SKILL.md 内容无风险 - 只读操作

适用场景：评估技能文档质量快速筛选多个技能检查文档规范性上传前质量检查评估内容： Description 设计质量文档结构和完整性示例代码格式资源文件组织触发准确性设计

使用方式：请评估 westock-data 技能请检查 tapd 技能的文档规范性帮助我评估 weather 技能的质量

评测维度

触发准确性（Trigger Accuracy）- 权重 30%

评估技能的 description 字段是否能准确触发。测试方法：分析 description 是否清晰完整，检查是否包含关键触发词汇，评估是否明确了与其他技能的分工，验证触发词是否容易误触发评分标准：优秀（90-100分）：description 清晰全面，触发准确，无误触发风险良好（70-89分）：大部分场景触发正确，少数边界情况不准确一般（50-69分）：触发不稳定，description 需要改进较差（低于50分）：description 不清晰，容易误触发或不触发

文档质量（Documentation Quality）- 权重 30%

评估技能文档的清晰度、结构和可读性。测试方法：检查文档结构是否合理，评估示例是否充分且实用，验证是否遵循 OpenClaw 技能规范，检查格式是否统一评分标准：优秀（90-100分）：文档结构清晰，示例丰富，遵循规范，易读性强良好（70-89分）：文档基本清晰，示例充足，少量格式问题一般（50-69分）：文档结构混乱或示例不足，可读性差较差（低于50分）：文档不清晰，缺少关键信息，难以理解

执行完整性（Execution Completeness）- 权重 25%

评估技能的指令描述是否完整、清晰、可理解。注意：此维度仅评估文档层面的完整性，不实际执行代码。测试方法：检查 SKILL.md 中的步骤是否完整，验证示例代码格式是否正确，检查是否包含必要的错误处理指引，评估参数说明是否完整评分标准：优秀（90-100分）：指令完整清晰，文档描述准确，步骤详细良好（70-89分）：核心功能文档完整，部分细节需补充一般（50-69分）：文档不完整或描述不清，缺少关键步骤较差（低于50分）：指令不完整，缺少关键说明，无法理解

资源组织（Resource Organization）- 权重 15%

评估 scripts/references/assets 等资源文件的组织是否合理。测试方法：检查文件目录结构是否符合规范，验证资源文件是否正确引用，评估是否遵循渐进式披露原则，检查文件命名是否规范评分标准：优秀（90-100分）：目录结构清晰，资源引用正确，遵循最佳实践良好（70-89分）：结构合理，少量组织问题一般（50-69分）：结构混乱或资源引用不清晰较差（低于50分）：严重违反规范，资源组织混乱

最佳实践： skill-name/ ├── SKILL.md # 主文档，简洁清晰 ├── references/ # 详细参考文档 │ ├── api-reference.md │ └── examples.md ├── scripts/ # 辅助脚本（如有） └── assets/ # 图片等资源

使用流程第 1 步：读取技能内容 read /path/to/skill/SKILL.md 如果包含 references/ 或 scripts/ 目录，也需要读取： ls /path/to/skill/references/ ls /path/to/skill/scripts/

第 2 步：进行多维度评估按照 4 个维度逐一评估，每个维度给出：评分（0-100）发现的问题改进建议

第 3 步：生成评估报告生成结构化的评估报告，包括：综合得分和评级各维度详细分析发现的问题清单具体改进建议

评估报告模板生成的评估报告应遵循以下结构： # 技能评估报告：SKILL_NAME 评估时间： YYYY-MM-DD HH：MM 评估模式： 静态文档分析 评估版本： VERSION_IF_AVAILABLE 评估者： OpenClaw SkillsBench 评估工具 ---

总体评分

综合得分： XX/100 | 维度 | 得分 | 等级 | 权重 | 加权得分 | |------|------|------|------|---------| | 触发准确性 | XX/100 | / / | 30% | XX.X | | 文档质量 | XX/100 | / / | 30% | XX.X | | 执行完整性 | XX/100 | / / | 25% | XX.X | | 资源组织 | XX/100 | / / | 15% | XX.X | 评级： 优秀 / 良好 / 一般 / 较差 ---

优点

[列出技能的优点]
...

发现的问题

严重问题（P0）- [ ] [具体问题描述]

重要问题（P1）- [ ] [具体问题描述]

一般问题（P2）- [ ] [具体问题描述]

改进建议

优先级 1（立即修复）

[具体建议，包括修改位置和修改方法]

优先级 2（短期优化）

[具体建议]

优先级 3（长期改进）

[具体建议]

详细分析

1. 触发准确性分析

Description 内容： [当前的 description] 分析： - [分析 description 的优缺点] - [是否容易触发] - [是否有误触发风险] 改进建议： - [具体的改进建议]

2. 文档质量分析

文档结构： - [分析文档的章节组织] - [评估示例的充分性] - [检查格式规范性] 发现的问题： - [列出具体问题] 改进建议： - [具体的改进建议]

3. 执行完整性分析

指令完整性： - [分析步骤是否完整] - [评估参数说明是否清晰] - [检查错误处理说明] 发现的问题： - [列出具体问题] 改进建议： - [具体的改进建议]

4. 资源组织分析

目录结构： [显示实际的目录结构] 分析： - [评估目录组织是否合理] - [检查文件命名规范] - [验证资源引用正确性] 改进建议： - [具体的改进建议]

总结

[总结性评价和核心建议] 关键改进点：

[最重要的改进建议]
[次重要的改进建议]
[其他建议]

测评完成时间：

YYYY-MM-DD HH：MM 测评工具版本： skillsbench-evaluator v3.0（静态分析专版）

批量评估模式当需要

数据来源：ClawHub ↗ · 中文优化：龙虾技能库