运行时依赖
安装命令
点击复制技能文档
SkillsBench 评估工具 - 技能质量评估工具 安全说明 本技能仅进行静态文档分析,不执行任何代码,不访问网络,不修改文件系统。 所有评估基于 SKILL.md 文档内容,不涉及实际运行测试。
概述 本技能基于 SkillsBench 开源评估框架的方法论,为 OpenClaw 内网版提供专业的技能质量评估能力。 核心价值: 全面评估:覆盖触发准确性、文档质量、结构完整性等多维度 量化指标:提供可量化的评分和改进建议 安全可靠:纯静态分析,无代码执行风险 迭代优化:帮助技能作者持续改进文档质量
评估模式:静态文档分析 特点: 快速 - 几秒钟完成 安全 - 不执行任何命令 基于文档 - 分析 SKILL.md 内容 无风险 - 只读操作
适用场景: 评估技能文档质量 快速筛选多个技能 检查文档规范性 上传前质量检查 评估内容: Description 设计质量 文档结构和完整性 示例代码格式 资源文件组织 触发准确性设计
使用方式: 请评估 westock-data 技能 请检查 tapd 技能的文档规范性 帮助我评估 weather 技能的质量
评测维度
- 触发准确性(Trigger Accuracy)- 权重 30%
- 文档质量(Documentation Quality)- 权重 30%
- 执行完整性(Execution Completeness)- 权重 25%
- 资源组织(Resource Organization)- 权重 15%
最佳实践: skill-name/ ├── SKILL.md # 主文档,简洁清晰 ├── references/ # 详细参考文档 │ ├── api-reference.md │ └── examples.md ├── scripts/ # 辅助脚本(如有) └── assets/ # 图片等资源
使用流程 第 1 步:读取技能内容 read /path/to/skill/SKILL.md 如果包含 references/ 或 scripts/ 目录,也需要读取: ls /path/to/skill/references/ ls /path/to/skill/scripts/
第 2 步:进行多维度评估 按照 4 个维度逐一评估,每个维度给出: 评分(0-100) 发现的问题 改进建议
第 3 步:生成评估报告 生成结构化的评估报告,包括: 综合得分和评级 各维度详细分析 发现的问题清单 具体改进建议
评估报告模板 生成的评估报告应遵循以下结构: # 技能评估报告:SKILL_NAME 评估时间: YYYY-MM-DD HH:MM 评估模式: 静态文档分析 评估版本: VERSION_IF_AVAILABLE 评估者: OpenClaw SkillsBench 评估工具 ---
总体评分
综合得分: XX/100 | 维度 | 得分 | 等级 | 权重 | 加权得分 | |------|------|------|------|---------| | 触发准确性 | XX/100 | / / | 30% | XX.X | | 文档质量 | XX/100 | / / | 30% | XX.X | | 执行完整性 | XX/100 | / / | 25% | XX.X | | 资源组织 | XX/100 | / / | 15% | XX.X | 评级: 优秀 / 良好 / 一般 / 较差 ---优点
- [列出技能的优点]
- ...
发现的问题
严重问题(P0)- [ ] [具体问题描述]
重要问题(P1)- [ ] [具体问题描述]
一般问题(P2)- [ ] [具体问题描述]
改进建议
优先级 1(立即修复)
- [具体建议,包括修改位置和修改方法]
优先级 2(短期优化)
- [具体建议]
优先级 3(长期改进)
- [具体建议]
详细分析
1. 触发准确性分析
Description 内容: [当前的 description] 分析: - [分析 description 的优缺点] - [是否容易触发] - [是否有误触发风险] 改进建议: - [具体的改进建议]2. 文档质量分析
文档结构: - [分析文档的章节组织] - [评估示例的充分性] - [检查格式规范性] 发现的问题: - [列出具体问题] 改进建议: - [具体的改进建议]3. 执行完整性分析
指令完整性: - [分析步骤是否完整] - [评估参数说明是否清晰] - [检查错误处理说明] 发现的问题: - [列出具体问题] 改进建议: - [具体的改进建议]4. 资源组织分析
目录结构: [显示实际的目录结构] 分析: - [评估目录组织是否合理] - [检查文件命名规范] - [验证资源引用正确性] 改进建议: - [具体的改进建议]总结
[总结性评价和核心建议] 关键改进点:- [最重要的改进建议]
- [次重要的改进建议]
- [其他建议]
测评完成时间:
YYYY-MM-DD HH:MM 测评工具版本: skillsbench-evaluator v3.0(静态分析专版)批量评估模式 当需要