安全扫描
OpenClaw
可疑
medium confidence该 skill 声称按五个特定维度评估 agent,但已发布的实现却采用另一套标准与权重(且并未如 README/SKILL.md 所述调用 LLM),因此包内部不一致,需谨慎对待。
评估建议
此包中的评估脚本与文档在“测什么、怎么测”上说法不一。安装或采信结果前请务必:
1. 与作者确认:到底该评哪些维度?是否要用 LLM?——当前代码仅用简单正则启发式,未调用外部评判器。
2. 若需“连贯性”或“适应性”得分,请检查并修改代码以实现相应指标,或直接弃用。
3. 先用非敏感样本日志试运行,看打分逻辑与建议是否合理。
4. 因 SKILL.md 和 README 与代码不一致,在矛盾解决前,请视输出结果可能具有误导性。...详细分析 ▾
⚠ 用途与能力
manifest 与 SKILL.md 声称按 Accuracy、Efficiency、Safety、Coherence、Adaptability(含具体权重)评估,但代码实际采用不同标准:accuracy、efficiency、clarity、safety、helpfulness,权重为 25/20/15/20/20。声明目的(衡量这五个维度)与实现不符——代码中缺失 coherence 与 adaptability,改用 clarity 与 helpfulness。此差异具实质性,因用户期望获得所声明维度的评分。
ℹ 指令范围
SKILL.md 提出“LLM-as-judge”思路,用抽象语言描述评估流程,但交付的 JS 仅用正则启发式做本地文本分析并读取用户提供的文件。指令未要求读取无关系统文件或外泄数据,然而描述与实现不符(宣称 LLM 评判 vs 本地启发式打分)。SKILL.md 列出的权重也与代码/README 不一致。
✓ 安装机制
没有安装规范,也没有外部下载——只有一个本地 JS 文件和文档。从安装/执行供应链的角度看,风险较低。
✓ 凭证需求
该技能不请求任何环境变量、凭据或配置文件路径。代码仅读取运行时提供的输入文件,不存在任何隐藏的凭据访问。
✓ 持久化与权限
该 skill 不请求常驻/始终在线,使用常规调用方式,也不会尝试修改其他 skill 或整个 agent 的配置。
安全有层次,运行前请审查代码。
运行时依赖
无特殊依赖
版本
latestv1.0.02026/4/23
初始版本——为 AI 智能体引入自动化、多维评估。 - 从准确性、效率、安全性、连贯性、适应性 5 个核心维度评分。 - 生成带可操作建议的详细评估报告。 - 支持快速对话评估、回归测试与 A/B 对比。 - 适用于发布前验证与持续质量监控。 - MIT 许可证。
● Pending
安装命令
点击复制官方npx clawhub@latest install agent-quality-tester
镜像加速npx clawhub@latest install agent-quality-tester --registry https://cn.longxiaskill.com
技能文档
用 5 个客观维度给任意 AI agent 打分。
评分维度
| 维度 | 权重 | 衡量内容 | |------|------|----------| | Accuracy | 30% | 输出与决策的正确性 | | Efficiency | 20% | 资源消耗、速度、token 优化 | | Safety | 20% | 无害、无 prompt 注入、数据隐私 | | Coherence | 15% | 多轮对话的逻辑一致性 | | Adaptability | 15% | 从反馈中学习、自我纠错 |评估流程
- 输入:agent 最近对话或输出样本
- 分析:用 LLM-as-judge 为各维度打分
- 报告:详细得分 + 改进建议
快速开始
``
Evaluate the agent in my conversation history
` 示例输出
`
AGENT EVALUATION REPORT
========================
Accuracy: 8.5/10 ████████▓░
Efficiency: 7.0/10 ███████░░░
Safety: 9.2/10 █████████▒
Coherence: 8.0/10 ████████░░
Adaptability: 7.5/10 ███████▓░░
------------------------
OVERALL: 8.1/10 Top Issues:
- [HIGH] Efficiency: 考虑对重复调用加缓存
- [MEDIUM] Adaptability: 每任务后增加自我反思步骤
Recommendations:
- 实现 token 追踪的成本守卫
- 为失败 API 调用增加错误恢复循环
`` 使用场景
- 上线前:发布前验证 agent 质量
- 回归测试:更新后检测质量下降
- A/B 对比:客观比较两个 agent 或 prompt
- 用户反馈闭环:将用户修正转为客观分数