📦 Experiment Designer — 实验设计师

v2.1.1

一站式实验规划助手:生成可检验假设、估算样本量、ICE 优先级排序、解读 A/B 结果,附本地 Python 样本量计算器,助你科学决策。

0· 494·4 当前·4 累计
alirezarezvani 头像by @alirezarezvani (Alireza Rezvani)·MIT-0
下载技能包
License
MIT-0
最后更新
2026/3/11
0
安全扫描
VirusTotal
无害
查看报告
OpenClaw
安全
high confidence
该技能的文件与运行指令均符合实验设计助手定位:仅含文档与本地样本量脚本,不索取凭据、不安装任何组件,也未尝试异常访问。
评估建议
该技能看似名副其实:仅提供文档及本地 Python 样本量计算器。使用前请:1) 审查 sample_size_calculator.py,确保其假设(两比例 A/B、等组大小、相对 vs 绝对 MDE 解释)与您的实验匹配;2) 高利害场景下,用其他计算器或统计包验证结果;3) 本工具不支持序贯监控、多重比较或连续指标功效分析——请在流程中自行施加适当统计校正。...
详细分析 ▾
用途与能力
名称/描述(实验设计、假设撰写、样本量估算)与所含材料一致:两份参考文档及本地样本量计算器脚本。未请求无关凭据、二进制文件或配置路径。
指令范围
SKILL.md 聚焦主题(假设格式、指标、样本量估算、ICE 优先级、停止规则)。指令仅引用包内本地文件并演示如何运行本地 Python 脚本;未引导代理读取无关文件或向外传输数据。
安装机制
无安装规范(纯指令型技能,仅含一个本地脚本)。不会从外部 URL 下载或提取任何内容,也不会自动安装软件包。
凭证需求
技能无需环境变量、凭据或配置路径。所有功能本地执行,且与声明目的相称。
持久化与权限
always 为 false,技能由用户调用。不会请求持久性系统级更改或提升权限。
安全有层次,运行前请审查代码。

License

MIT-0

可自由使用、修改和再分发,无需署名。

运行时依赖

无特殊依赖

版本

latestv2.1.12026/3/11

v2.1.1:优化,参考文档拆分

无害

安装命令

点击复制
官方npx clawhub@latest install experiment-designer
镜像加速npx clawhub@latest install experiment-designer --registry https://cn.longxiaskill.com

技能文档

# 实验设计师 用清晰的假设和可辩护的决策来设计、排序和评估产品实验。 ## 何时使用 本技能适用于: - A/B 与多变量实验规划 - 假设撰写与成功标准定义 - 样本量与最小可检测效应(MDE)估算 - 基于 ICE 评分的实验优先级排序 - 为产品决策解读统计结果 ## 核心工作流 1. 用 If/Then/Because 格式撰写假设 - 如果我们改变 [干预] - 那么 [指标] 将按 [预期方向/幅度] 改变 - 因为 [行为机制] 2. 在测试前定义指标 - 主要指标:唯一决策指标 - 护栏指标:质量/风险保护 - 次要指标:仅用于诊断 3. 估算样本量 - 基线转化率或基线均值 - 最小可检测效应(MDE) - 显著性水平(alpha)与功效 使用: ``bash python3 scripts/sample_size_calculator.py --baseline-rate 0.12 --mde 0.02 --mde-type absolute ` 4. 用 ICE 给实验排序 - Impact:潜在收益 - Confidence:证据质量 - Ease:成本/速度/复杂度 ICE 分数 = (Impact Confidence Ease) / 10 5. 启动并设定停止规则 - 预先确定固定样本量或固定实验时长 - 避免无合适方法的反复“偷看” - 持续监控护栏指标 6. 解读结果 - 统计显著 ≠ 业务显著 - 将点估计 + 置信区间与决策阈值比较 - 调查新奇效应与分群异质性 ## 假设质量检查清单 - [ ] 明确干预措施与受众 - [ ] 指定可度量的指标变化 - [ ] 给出合理的因果理由 - [ ] 包含预期最小效应 - [ ] 定义失败条件 ## 常见实验陷阱 - 功效不足导致假阴性 - 同时改动过多、缺乏隔离 - 实验中途修改受众或实现方式 - 因随机波动提前停止 - 忽视样本比例失衡与埋点漂移 - 只看 p 值、忽略效应量就宣布成功 ## 统计解读护栏 - p 值 < alpha 仅说明反对原假设的证据,非绝对真理。 - 置信区间跨越零/无效应线时,方向性结论不确定。 - 区间很宽时,即使显著也意味精度低。 - 用与业务影响挂钩的实际显著阈值。 参见: - references/experiment-playbook.md - references/statistics-reference.md ## 工具 ### scripts/sample_size_calculator.py 根据以下参数计算所需样本量(每版本及总计): - baseline rate - MDE(绝对或相对) - significance level (alpha) - statistical power 示例: `bash python3 scripts/sample_size_calculator.py \ --baseline-rate 0.10 \ --mde 0.015 \ --mde-type absolute \ --alpha 0.05 \ --power 0.8 ``

数据来源ClawHub ↗ · 中文优化:龙虾技能库