Agent Evaluation — 代理评估

Name: Agent Evaluation — 代理评估
Rating: 1 (6 reviews)
Author: rustyorb

v?

用于测试和基准测试大语言模型（LLM）代理，包括行为测试、能力评估、可靠性指标和生产监控。即使顶级代理在真实世界基准测试中也往往达不到50%的表现。适用场景：代理测试、代理评估、基准测试代理、代理可靠性、测试代理。

6· 4,000·0 当前·0 累计

下载技能包

无特殊依赖

安装命令点击复制

官方clawhub install agent-evaluation

镜像加速clawhub install agent-evaluation --registry https://cn.clawhub-mirror.com

用于测试和基准测试大语言模型（LLM）代理...

适用场景：代理测试、代理评估、基准测试代理、代理可靠性、测试代理。

...（注意：由于原始SKILL.md内容未提供，以上为示例。请替换为实际翻译内容）

数据来源：ClawHub ↗ · 中文优化：龙虾技能库

OpenClaw 技能定制 / 插件定制 / 私有工作流定制

免费技能或插件可能存在安全风险，如需更匹配、更安全的方案，建议联系付费定制