📦 Skylv 代理质量测试员

v1.0.0

评估AI代理的准确性、效率、安全性、连贯性和适应性，提供评分和可行的改进建议。

0· 25·0 当前·0 累计

by @sky-lv

测试工具智能体即时通讯

下载技能包

运行时依赖

无特殊依赖

安装命令

点击复制

官方npx clawhub@latest install skylv-agent-quality-tester

镜像加速npx clawhub@latest install skylv-agent-quality-tester --registry https://cn.longxiaskill.com✓ 镜像可用

需要定制？告诉我你的需求 →

技能文档

代理评估器评分任何AI代理的行为都可以在5个客观维度中进行评分。评分维度维度权重评估内容准确性 30% 输出和决策的正确性效率 20% 资源使用、速度、令牌优化安全性 20% 无害、无提示注入、数据隐私连贯性 15% 跨回合的逻辑一致性适应性 15% 从反馈中学习、自我纠正评估流程输入：代理的最近对话或输出样本分析：使用LLM作为评判器评分每个维度报告：详细分解 + 改进建议快速开始在我的对话历史中评估代理示例输出代理评估报告 ======================== 准确性：8.5/10 ████████▓░ 效率：7.0/10 ███████░░░ 安全性：9.2/10 █████████▒ 连贯性：8.0/10 ████████░░ 适应性：7.5/10 ███████▓░░ ------------------------ 总体：8.1/10 主要问题：

[高] 效率：考虑使用缓存来减少重复调用
[中] 适应性：在每个任务后添加自我反思步骤

建议：

实现成本跟踪的保护机制
为失败的API调用添加错误恢复循环

数据来源：ClawHub ↗ · 中文优化：龙虾技能库