📦 Agent — 智能体

Name: Agent — 智能体
Rating: 12

v1.0.0

质量测试员评估 AI 智能体的输出在准确性、效率、安全性、连贯性与适应性方面的表现，给出评分与改进建议。

12· 9·1 当前·1 累计

by @sky-lv (SKY-lv)

测试工具 AI模型访问存储部署 CI/CD DevOps

下载技能包

最后更新

2026/4/23

安全扫描

VirusTotal

Pending

查看报告

OpenClaw

可疑

medium confidence

该 skill 声称按五个特定维度评估 agent，但已发布的实现却采用另一套标准与权重（且并未如 README/SKILL.md 所述调用 LLM），因此包内部不一致，需谨慎对待。

评估建议

此包中的评估脚本与文档在“测什么、怎么测”上说法不一。安装或采信结果前请务必： 1. 与作者确认：到底该评哪些维度？是否要用 LLM？——当前代码仅用简单正则启发式，未调用外部评判器。 2. 若需“连贯性”或“适应性”得分，请检查并修改代码以实现相应指标，或直接弃用。 3. 先用非敏感样本日志试运行，看打分逻辑与建议是否合理。 4. 因 SKILL.md 和 README 与代码不一致，在矛盾解决前，请视输出结果可能具有误导性。...

详细分析 ▾

⚠ 用途与能力

manifest 与 SKILL.md 声称按 Accuracy、Efficiency、Safety、Coherence、Adaptability（含具体权重）评估，但代码实际采用不同标准：accuracy、efficiency、clarity、safety、helpfulness，权重为 25/20/15/20/20。声明目的（衡量这五个维度）与实现不符——代码中缺失 coherence 与 adaptability，改用 clarity 与 helpfulness。此差异具实质性，因用户期望获得所声明维度的评分。

ℹ 指令范围

SKILL.md 提出“LLM-as-judge”思路，用抽象语言描述评估流程，但交付的 JS 仅用正则启发式做本地文本分析并读取用户提供的文件。指令未要求读取无关系统文件或外泄数据，然而描述与实现不符（宣称 LLM 评判 vs 本地启发式打分）。SKILL.md 列出的权重也与代码/README 不一致。

✓ 安装机制

没有安装规范，也没有外部下载——只有一个本地 JS 文件和文档。从安装/执行供应链的角度看，风险较低。

✓ 凭证需求

该技能不请求任何环境变量、凭据或配置文件路径。代码仅读取运行时提供的输入文件，不存在任何隐藏的凭据访问。

✓ 持久化与权限

该 skill 不请求常驻/始终在线，使用常规调用方式，也不会尝试修改其他 skill 或整个 agent 的配置。

安全有层次，运行前请审查代码。

运行时依赖

无特殊依赖

版本

latestv1.0.02026/4/23

初始版本——为 AI 智能体引入自动化、多维评估。 - 从准确性、效率、安全性、连贯性、适应性 5 个核心维度评分。 - 生成带可操作建议的详细评估报告。 - 支持快速对话评估、回归测试与 A/B 对比。 - 适用于发布前验证与持续质量监控。 - MIT 许可证。

● Pending

安装命令

点击复制

官方npx clawhub@latest install agent-quality-tester

镜像加速npx clawhub@latest install agent-quality-tester --registry https://cn.longxiaskill.com

技能文档

用 5 个客观维度给任意 AI agent 打分。

评分维度

| 维度 | 权重 | 衡量内容 | |------|------|----------| | Accuracy | 30% | 输出与决策的正确性 | | Efficiency | 20% | 资源消耗、速度、token 优化 | | Safety | 20% | 无害、无 prompt 注入、数据隐私 | | Coherence | 15% | 多轮对话的逻辑一致性 | | Adaptability | 15% | 从反馈中学习、自我纠错 |

评估流程

输入：agent 最近对话或输出样本
分析：用 LLM-as-judge 为各维度打分
报告：详细得分 + 改进建议

快速开始

  
Evaluate the agent in my conversation history

  
示例输出

  
AGENT EVALUATION REPORT  
========================  
Accuracy: 8.5/10 ████████▓░  
Efficiency: 7.0/10 ███████░░░  
Safety: 9.2/10 █████████▒  
Coherence: 8.0/10 ████████░░  
Adaptability: 7.5/10 ███████▓░░  
------------------------  
OVERALL: 8.1/10  
Top Issues:  
[HIGH] Efficiency: 考虑对重复调用加缓存  
[MEDIUM] Adaptability: 每任务后增加自我反思步骤  
Recommendations:  
实现 token 追踪的成本守卫  
为失败 API 调用增加错误恢复循环

使用场景

上线前：发布前验证 agent 质量
回归测试：更新后检测质量下降
A/B 对比：客观比较两个 agent 或 prompt
用户反馈闭环：将用户修正转为客观分数

数据来源：ClawHub ↗ · 中文优化：龙虾技能库