安全扫描
OpenClaw
可疑
medium confidence该技能的宣称目的(LLM基准测试)合理,但清单和运行指令中存在不一致(未声明的凭证、'生产'环境设置和计划的外部集成缺乏网络/秘密详细信息),应在使用前澄清。
评估建议
该技能目前为草稿,目标合理,但多个不一致使其在生产环境中使用风险较高。安装或授予代理访问权限前,请要求作者:(1)提供具体的运行指令和示例命令/脚本;(2)声明任何所需的环境变量(如LangFuse API密钥)并说明为什么'primaryEnv'设置为'生产';(3)澄清是否需要出站网络并更新元数据;(4)提供实现(代码或安装规格)以便您审查将要运行的内容。如果必须现在测试,请在一个隔离的环境中进行,确保无敏感凭证或生产数据。...详细分析 ▾
ℹ 用途与能力
名称、描述和计划能力与基准测试/分析技能相符。请求python3作为运行时对于数据处理/可视化是合理的。然而,元数据的primaryEnv设置为'生产'是无解释的,并且对于纯基准测试助手来说是不成比例的;SKILL.md还引用了与LangFuse(外部跟踪服务)的集成,但未声明任何所需的凭证或网络访问。
⚠ 指令范围
SKILL.md是一个草稿,仅包含高级计划能力,不包含具体的运行指令。它提到从LangFuse摄取跟踪数据并导出结果,这意味着读取外部数据并进行出站网络请求,但元数据声称出站网络是假的,并且未声明任何环境变量或端点。由于运行时行为未指定,因此不清楚该技能将读取什么数据、将联系哪些端点或将需要什么凭证。
✓ 安装机制
仅指令的技能,无安装规格和代码文件。这降低了立即的磁盘/写入风险。声明python3作为所需的二进制对于计划的实现是合理的;否则,没有被获取或安装的内容。
⚠ 凭证需求
未声明任何环境变量,但元数据将primaryEnv设置为'生产',文本承诺与LangFuse集成(通常需要API密钥)。这种不匹配意味着该技能将需要未声明的秘密/网络访问,或者清单是错误的;两者都是不完整或不一致的安全姿态的红旗。
✓ 持久化与权限
always为假,并且没有安装钩子或指令来修改代理/系统配置。该技能在其当前形式下不请求持久的高特权存在。
安全有层次,运行前请审查代码。
运行时依赖
无特殊依赖
版本
latestv0.1.02026/3/28
新技能:假设驱动的本地推理路由模型评估框架
● Pending
安装命令 点击复制
官方npx clawhub@latest install aa-benchmarking-framework
镜像加速npx clawhub@latest install aa-benchmarking-framework --registry https://cn.clawhub-mirror.com
技能文档
AA 基准测试框架 > 状态:草稿 — 该技能计划但尚未完全实现。 ## 功能 提供系统化的多维度LLM评估框架,使用综合评分、效率前沿分析和Pareto最优性。设计用于团队需要超越简单排行榜的原则性模型选择。 ## 计划能力 - 可配置维度权重的综合评分(准确性、延迟、成本、召回率、F1) - 任意两个或多个评估维度的Pareto前沿检测 - 多维度比较的雷达/蜘蛛图可视化 - 跨基准运行的统计学意义测试(t检验、Mann-Whitney U检验) - 与LangFuse集成用于基于跟踪的评估数据摄取 - 导出CSV/JSON用于下游分析 ## 使用场景 - 在竞争目标下选择3+LLM提供商(例如GPT-4o vs Claude 3.5 vs Gemini) - 构建重复的模型评估仪表盘 - 使用可视化证据向利益相关者展示模型选择理由 - 运行效率前沿分析以识别质量阈值下的成本最优模型
数据来源:ClawHub ↗ · 中文优化:龙虾技能库
OpenClaw 技能定制 / 插件定制 / 私有工作流定制
免费技能或插件可能存在安全风险,如需更匹配、更安全的方案,建议联系付费定制