Aa Benchmarking Framework — 多维度LLM评估基准测试框架

v0.1.0

提供综合评分和效率前沿分析用于LLM评估，结合多个质量维度（准确性、延迟、成本、一致性）进行多维度模型比较、评估仪表盘构建和效率前沿识别。

0· 73·1 当前·1 累计

by @nissan (Nissan Dookeran)·MIT-0

AI模型访问

使用场景：使用Aa Benchmarking Framework — 多维度LLM评估基准测试框架进行AI模型访问使用Aa Benchmarking Framework — 多维度LLM评估基准测试框架

下载技能包

License

MIT-0

最后更新

2026/3/28

安全扫描

VirusTotal

Pending

查看报告

OpenClaw

可疑

medium confidence

该技能的宣称目的（LLM基准测试）合理，但清单和运行指令中存在不一致（未声明的凭证、'生产'环境设置和计划的外部集成缺乏网络/秘密详细信息），应在使用前澄清。

评估建议

该技能目前为草稿，目标合理，但多个不一致使其在生产环境中使用风险较高。安装或授予代理访问权限前，请要求作者：（1）提供具体的运行指令和示例命令/脚本；（2）声明任何所需的环境变量（如LangFuse API密钥）并说明为什么'primaryEnv'设置为'生产'；（3）澄清是否需要出站网络并更新元数据；（4）提供实现（代码或安装规格）以便您审查将要运行的内容。如果必须现在测试，请在一个隔离的环境中进行，确保无敏感凭证或生产数据。...

详细分析 ▾

ℹ 用途与能力

名称、描述和计划能力与基准测试/分析技能相符。请求python3作为运行时对于数据处理/可视化是合理的。然而，元数据的primaryEnv设置为'生产'是无解释的，并且对于纯基准测试助手来说是不成比例的；SKILL.md还引用了与LangFuse（外部跟踪服务）的集成，但未声明任何所需的凭证或网络访问。

⚠ 指令范围

SKILL.md是一个草稿，仅包含高级计划能力，不包含具体的运行指令。它提到从LangFuse摄取跟踪数据并导出结果，这意味着读取外部数据并进行出站网络请求，但元数据声称出站网络是假的，并且未声明任何环境变量或端点。由于运行时行为未指定，因此不清楚该技能将读取什么数据、将联系哪些端点或将需要什么凭证。

✓ 安装机制

仅指令的技能，无安装规格和代码文件。这降低了立即的磁盘/写入风险。声明python3作为所需的二进制对于计划的实现是合理的；否则，没有被获取或安装的内容。

⚠ 凭证需求

未声明任何环境变量，但元数据将primaryEnv设置为'生产'，文本承诺与LangFuse集成（通常需要API密钥）。这种不匹配意味着该技能将需要未声明的秘密/网络访问，或者清单是错误的；两者都是不完整或不一致的安全姿态的红旗。

✓ 持久化与权限

always为假，并且没有安装钩子或指令来修改代理/系统配置。该技能在其当前形式下不请求持久的高特权存在。

安全有层次，运行前请审查代码。

License

MIT-0

可自由使用、修改和再分发，无需署名。

查看条款 ↗

运行时依赖

无特殊依赖

版本

latestv0.1.02026/3/28

新技能：假设驱动的本地推理路由模型评估框架

● Pending

安装命令

点击复制

官方npx clawhub@latest install aa-benchmarking-framework

镜像加速npx clawhub@latest install aa-benchmarking-framework --registry https://cn.longxiaskill.com 镜像可用

本土化适配说明

Aa Benchmarking Framework — 多维度LLM评估基准测试框架安装说明：安装命令：npx clawhub@latest install aa-benchmarking-framework

需要定制？告诉我你的需求 →

技能文档

AA 基准测试框架 > 状态：草稿 — 该技能计划但尚未完全实现。 ## 功能提供系统化的多维度LLM评估框架，使用综合评分、效率前沿分析和Pareto最优性。设计用于团队需要超越简单排行榜的原则性模型选择。 ## 计划能力 - 可配置维度权重的综合评分（准确性、延迟、成本、召回率、F1） - 任意两个或多个评估维度的Pareto前沿检测 - 多维度比较的雷达/蜘蛛图可视化 - 跨基准运行的统计学意义测试（t检验、Mann-Whitney U检验） - 与LangFuse集成用于基于跟踪的评估数据摄取 - 导出CSV/JSON用于下游分析 ## 使用场景 - 在竞争目标下选择3+LLM提供商（例如GPT-4o vs Claude 3.5 vs Gemini） - 构建重复的模型评估仪表盘 - 使用可视化证据向利益相关者展示模型选择理由 - 运行效率前沿分析以识别质量阈值下的成本最优模型

License

运行时依赖

版本

安装命令

本土化适配说明

技能文档

相关技能推荐