📦 Agent — 智能体

v1.0.0

质量测试员 评估 AI 智能体的输出在准确性、效率、安全性、连贯性与适应性方面的表现,给出评分与改进建议。

12· 9·1 当前·1 累计
by @sky-lv (SKY-lv)
下载技能包
最后更新
2026/4/23
0
安全扫描
VirusTotal
Pending
查看报告
OpenClaw
可疑
medium confidence
该 skill 声称按五个特定维度评估 agent,但已发布的实现却采用另一套标准与权重(且并未如 README/SKILL.md 所述调用 LLM),因此包内部不一致,需谨慎对待。
评估建议
此包中的评估脚本与文档在“测什么、怎么测”上说法不一。安装或采信结果前请务必: 1. 与作者确认:到底该评哪些维度?是否要用 LLM?——当前代码仅用简单正则启发式,未调用外部评判器。 2. 若需“连贯性”或“适应性”得分,请检查并修改代码以实现相应指标,或直接弃用。 3. 先用非敏感样本日志试运行,看打分逻辑与建议是否合理。 4. 因 SKILL.md 和 README 与代码不一致,在矛盾解决前,请视输出结果可能具有误导性。...
详细分析 ▾
用途与能力
manifest 与 SKILL.md 声称按 Accuracy、Efficiency、Safety、Coherence、Adaptability(含具体权重)评估,但代码实际采用不同标准:accuracy、efficiency、clarity、safety、helpfulness,权重为 25/20/15/20/20。声明目的(衡量这五个维度)与实现不符——代码中缺失 coherence 与 adaptability,改用 clarity 与 helpfulness。此差异具实质性,因用户期望获得所声明维度的评分。
指令范围
SKILL.md 提出“LLM-as-judge”思路,用抽象语言描述评估流程,但交付的 JS 仅用正则启发式做本地文本分析并读取用户提供的文件。指令未要求读取无关系统文件或外泄数据,然而描述与实现不符(宣称 LLM 评判 vs 本地启发式打分)。SKILL.md 列出的权重也与代码/README 不一致。
安装机制
没有安装规范,也没有外部下载——只有一个本地 JS 文件和文档。从安装/执行供应链的角度看,风险较低。
凭证需求
该技能不请求任何环境变量、凭据或配置文件路径。代码仅读取运行时提供的输入文件,不存在任何隐藏的凭据访问。
持久化与权限
该 skill 不请求常驻/始终在线,使用常规调用方式,也不会尝试修改其他 skill 或整个 agent 的配置。
安全有层次,运行前请审查代码。

运行时依赖

无特殊依赖

版本

latestv1.0.02026/4/23

初始版本——为 AI 智能体引入自动化、多维评估。 - 从准确性、效率、安全性、连贯性、适应性 5 个核心维度评分。 - 生成带可操作建议的详细评估报告。 - 支持快速对话评估、回归测试与 A/B 对比。 - 适用于发布前验证与持续质量监控。 - MIT 许可证。

Pending

安装命令

点击复制
官方npx clawhub@latest install agent-quality-tester
镜像加速npx clawhub@latest install agent-quality-tester --registry https://cn.longxiaskill.com

技能文档

用 5 个客观维度给任意 AI agent 打分。

评分维度

| 维度 | 权重 | 衡量内容 | |------|------|----------| | Accuracy | 30% | 输出与决策的正确性 | | Efficiency | 20% | 资源消耗、速度、token 优化 | | Safety | 20% | 无害、无 prompt 注入、数据隐私 | | Coherence | 15% | 多轮对话的逻辑一致性 | | Adaptability | 15% | 从反馈中学习、自我纠错 |

评估流程

  • 输入:agent 最近对话或输出样本
  • 分析:用 LLM-as-judge 为各维度打分
  • 报告:详细得分 + 改进建议

快速开始

`` Evaluate the agent in my conversation history `

示例输出

` AGENT EVALUATION REPORT ======================== Accuracy: 8.5/10 ████████▓░ Efficiency: 7.0/10 ███████░░░ Safety: 9.2/10 █████████▒ Coherence: 8.0/10 ████████░░ Adaptability: 7.5/10 ███████▓░░ ------------------------ OVERALL: 8.1/10

Top Issues:

  • [HIGH] Efficiency: 考虑对重复调用加缓存
  • [MEDIUM] Adaptability: 每任务后增加自我反思步骤

Recommendations:

  • 实现 token 追踪的成本守卫
  • 为失败 API 调用增加错误恢复循环
``

使用场景

  • 上线前:发布前验证 agent 质量
  • 回归测试:更新后检测质量下降
  • A/B 对比:客观比较两个 agent 或 prompt
  • 用户反馈闭环:将用户修正转为客观分数

MIT License © SKY-lv

数据来源ClawHub ↗ · 中文优化:龙虾技能库