首页龙虾技能列表 › Aa Benchmarking Framework — 多维度LLM评估基准测试框架

Aa Benchmarking Framework — 多维度LLM评估基准测试框架

v0.1.0

提供综合评分和效率前沿分析用于LLM评估,结合多个质量维度(准确性、延迟、成本、一致性)进行多维度模型比较、评估仪表盘构建和效率前沿识别。

0· 73·1 当前·1 累计
by @nissan (Nissan Dookeran)·MIT-0
下载技能包
License
MIT-0
最后更新
2026/3/28
安全扫描
VirusTotal
Pending
查看报告
OpenClaw
可疑
medium confidence
该技能的宣称目的(LLM基准测试)合理,但清单和运行指令中存在不一致(未声明的凭证、'生产'环境设置和计划的外部集成缺乏网络/秘密详细信息),应在使用前澄清。
评估建议
该技能目前为草稿,目标合理,但多个不一致使其在生产环境中使用风险较高。安装或授予代理访问权限前,请要求作者:(1)提供具体的运行指令和示例命令/脚本;(2)声明任何所需的环境变量(如LangFuse API密钥)并说明为什么'primaryEnv'设置为'生产';(3)澄清是否需要出站网络并更新元数据;(4)提供实现(代码或安装规格)以便您审查将要运行的内容。如果必须现在测试,请在一个隔离的环境中进行,确保无敏感凭证或生产数据。...
详细分析 ▾
用途与能力
名称、描述和计划能力与基准测试/分析技能相符。请求python3作为运行时对于数据处理/可视化是合理的。然而,元数据的primaryEnv设置为'生产'是无解释的,并且对于纯基准测试助手来说是不成比例的;SKILL.md还引用了与LangFuse(外部跟踪服务)的集成,但未声明任何所需的凭证或网络访问。
指令范围
SKILL.md是一个草稿,仅包含高级计划能力,不包含具体的运行指令。它提到从LangFuse摄取跟踪数据并导出结果,这意味着读取外部数据并进行出站网络请求,但元数据声称出站网络是假的,并且未声明任何环境变量或端点。由于运行时行为未指定,因此不清楚该技能将读取什么数据、将联系哪些端点或将需要什么凭证。
安装机制
仅指令的技能,无安装规格和代码文件。这降低了立即的磁盘/写入风险。声明python3作为所需的二进制对于计划的实现是合理的;否则,没有被获取或安装的内容。
凭证需求
未声明任何环境变量,但元数据将primaryEnv设置为'生产',文本承诺与LangFuse集成(通常需要API密钥)。这种不匹配意味着该技能将需要未声明的秘密/网络访问,或者清单是错误的;两者都是不完整或不一致的安全姿态的红旗。
持久化与权限
always为假,并且没有安装钩子或指令来修改代理/系统配置。该技能在其当前形式下不请求持久的高特权存在。
安全有层次,运行前请审查代码。

License

MIT-0

可自由使用、修改和再分发,无需署名。

运行时依赖

无特殊依赖

版本

latestv0.1.02026/3/28

新技能:假设驱动的本地推理路由模型评估框架

● Pending

安装命令 点击复制

官方npx clawhub@latest install aa-benchmarking-framework
镜像加速npx clawhub@latest install aa-benchmarking-framework --registry https://cn.clawhub-mirror.com

技能文档

AA 基准测试框架 > 状态:草稿 — 该技能计划但尚未完全实现。 ## 功能 提供系统化的多维度LLM评估框架,使用综合评分、效率前沿分析和Pareto最优性。设计用于团队需要超越简单排行榜的原则性模型选择。 ## 计划能力 - 可配置维度权重的综合评分(准确性、延迟、成本、召回率、F1) - 任意两个或多个评估维度的Pareto前沿检测 - 多维度比较的雷达/蜘蛛图可视化 - 跨基准运行的统计学意义测试(t检验、Mann-Whitney U检验) - 与LangFuse集成用于基于跟踪的评估数据摄取 - 导出CSV/JSON用于下游分析 ## 使用场景 - 在竞争目标下选择3+LLM提供商(例如GPT-4o vs Claude 3.5 vs Gemini) - 构建重复的模型评估仪表盘 - 使用可视化证据向利益相关者展示模型选择理由 - 运行效率前沿分析以识别质量阈值下的成本最优模型

数据来源:ClawHub ↗ · 中文优化:龙虾技能库
OpenClaw 技能定制 / 插件定制 / 私有工作流定制

免费技能或插件可能存在安全风险,如需更匹配、更安全的方案,建议联系付费定制

了解定制服务