Agent Eval — 智能体量化评估

v1.0.0

基于Karpathy AutoResearch的多智能体复盘闭环系统，可对各类任务自动生成yes/no打分，持续优化升级，支持内容、法律、科学等多维评估模板，每日自评并输出周报。

0· 78·1 当前·1 累计

by @luaqnyin·MIT-0

智能体测试工具数据分析自动化工作流

下载技能包

License

MIT-0

最后更新

2026/4/10

安全扫描

VirusTotal

无害

查看报告

OpenClaw

可疑

medium confidence

该技能的指令与智能体评估目的相符，但运行时需读写特定本地智能体记忆文件并发送报告，而元数据未声明所需配置路径或凭据，存在不一致，需谨慎。

评估建议

安装前，请核实并限制该技能可访问的文件及报告发送方式：1) 要求作者明确声明 memory/YYYY-MM-DD.md、memory/evolution/<agent-id>.md、patterns.md、AGENTS.md、HEARTBEAT.md 等文件的最小权限（只读/写入）；2) 确认“发给老板”的确切投递机制（邮件？内部消息？）并防止数据被外泄至任意端点；3) 先在隔离/测试环境运行并审计其所有磁盘写入；4) 使用前从智能体记忆文件中移除或编辑敏感信息；5) 优先采用最小权限控制（限定服务账户或目录级沙箱）并启用日志审计；6) 若作者无法澄清缺失的配置/权限声明，应将此视为警示并避免授予广泛文件系统访问。...

详细分析 ▾

ℹ 用途与能力

名称/描述与SKILL.md内容一致，描述闭环智能体评估系统（生成→评估→修改→重跑）。但清单声明无需配置路径，而指令却需访问多个本地文件，存在声明与实际操作不匹配。

⚠ 指令范围

运行时指令要求读取每日任务日志与仓库文件，写入进化日志、PAT记录与patterns.md，并“将整体评分趋势发给老板”却未指明投递方式，给予智能体较大自由度访问并可能传输敏感数据。

✓ 安装机制

纯指令技能，无安装步骤与代码文件，不会写入磁盘，安装风险最低。

⚠ 凭证需求

技能未声明凭据或配置路径，却需读写多个本地文件；缺少所需路径/权限声明，无法实施最小权限控制。

ℹ 持久化与权限

always:false（非强制常驻）。技能计划每日/每周评估循环与自主操作，结合文件访问与模糊的发送指令，若被滥用影响面扩大；但自主调用为平台默认，不单独视为高风险。

安全有层次，运行前请审查代码。

License

MIT-0

可自由使用、修改和再分发，无需署名。

查看条款 ↗

运行时依赖

无特殊依赖

版本

latestv1.0.02026/4/10

首次发布，引入模块化、可量化的智能体评估框架，具备自我改进反馈循环。 - 为内容、法律、科学、文学、分析、医学等多种智能体提供标准化 yes/no 检查清单与评分规则 - 建立加权、分维度评估项及基于时间的自动评估流程（每日自评、每周 CEO 报告） - 定义清晰的评分等级与可操作的优化触发器，便于追踪 - 与现有记忆、质量、研究系统集成，实现智能体无缝进化 - 聚焦真实任务集与明确的改进周期

● 无害

安装命令

点击复制

官方npx clawhub@latest install agent-eval

镜像加速npx clawhub@latest install agent-eval --registry https://cn.longxiaskill.com 镜像可用

需要定制？告诉我你的需求 →

License

运行时依赖

版本

安装命令

相关技能推荐