首页龙虾技能列表 › Agent Evaluation — 代理评估

Agent Evaluation — 代理评估

v?

用于测试和基准测试大语言模型(LLM)代理,包括行为测试、能力评估、可靠性指标和生产监控。即使顶级代理在真实世界基准测试中也往往达不到50%的表现。适用场景:代理测试、代理评估、基准测试代理、代理可靠性、测试代理。

6· 4,000·0 当前·0 累计

运行时依赖

无特殊依赖

安装命令 点击复制

官方clawhub install agent-evaluation
镜像加速clawhub install agent-evaluation --registry https://cn.clawhub-mirror.com

技能文档

简介

用于测试和基准测试大语言模型(LLM)代理...

用法

适用场景:代理测试、代理评估、基准测试代理、代理可靠性、测试代理。

...(注意:由于原始SKILL.md内容未提供,以上为示例。请替换为实际翻译内容

数据来源:ClawHub ↗ · 中文优化:龙虾技能库
OpenClaw 技能定制 / 插件定制 / 私有工作流定制

免费技能或插件可能存在安全风险,如需更匹配、更安全的方案,建议联系付费定制

了解定制服务