运行时依赖
无特殊依赖
安装命令
点击复制官方npx clawhub@latest install skylv-agent-quality-tester
镜像加速npx clawhub@latest install skylv-agent-quality-tester --registry https://cn.longxiaskill.com✓ 镜像可用
技能文档
代理评估器评分 任何AI代理的行为都可以在5个客观维度中进行评分。 评分维度 维度 权重 评估内容 准确性 30% 输出和决策的正确性 效率 20% 资源使用、速度、令牌优化 安全性 20% 无害、无提示注入、数据隐私 连贯性 15% 跨回合的逻辑一致性 适应性 15% 从反馈中学习、自我纠正 评估流程 输入:代理的最近对话或输出样本 分析:使用LLM作为评判器评分每个维度 报告:详细分解 + 改进建议 快速开始 在我的对话历史中评估代理 示例输出 代理评估报告 ======================== 准确性:8.5/10 ████████▓░ 效率:7.0/10 ███████░░░ 安全性:9.2/10 █████████▒ 连贯性:8.0/10 ████████░░ 适应性:7.5/10 ███████▓░░ ------------------------ 总体:8.1/10 主要问题:
- [高] 效率:考虑使用缓存来减少重复调用
- [中] 适应性:在每个任务后添加自我反思步骤
- 实现成本跟踪的保护机制
- 为失败的API调用添加错误恢复循环