Experiment Designer — 实验设计师

v2.1.1

一站式实验规划助手：生成可检验假设、估算样本量、ICE 优先级排序、解读 A/B 结果，附本地 Python 样本量计算器，助你科学决策。

0· 494·4 当前·4 累计

by @alirezarezvani (Alireza Rezvani)·MIT-0

数据分析测试工具生产力工具文档工具开发工具

下载技能包

License

MIT-0

最后更新

2026/3/11

安全扫描

VirusTotal

无害

查看报告

OpenClaw

安全

high confidence

该技能的文件与运行指令均符合实验设计助手定位：仅含文档与本地样本量脚本，不索取凭据、不安装任何组件，也未尝试异常访问。

评估建议

该技能看似名副其实：仅提供文档及本地 Python 样本量计算器。使用前请：1) 审查 sample_size_calculator.py，确保其假设（两比例 A/B、等组大小、相对 vs 绝对 MDE 解释）与您的实验匹配；2) 高利害场景下，用其他计算器或统计包验证结果；3) 本工具不支持序贯监控、多重比较或连续指标功效分析——请在流程中自行施加适当统计校正。...

详细分析 ▾

✓ 用途与能力

名称/描述（实验设计、假设撰写、样本量估算）与所含材料一致：两份参考文档及本地样本量计算器脚本。未请求无关凭据、二进制文件或配置路径。

✓ 指令范围

SKILL.md 聚焦主题（假设格式、指标、样本量估算、ICE 优先级、停止规则）。指令仅引用包内本地文件并演示如何运行本地 Python 脚本；未引导代理读取无关文件或向外传输数据。

✓ 安装机制

无安装规范（纯指令型技能，仅含一个本地脚本）。不会从外部 URL 下载或提取任何内容，也不会自动安装软件包。

✓ 凭证需求

技能无需环境变量、凭据或配置路径。所有功能本地执行，且与声明目的相称。

✓ 持久化与权限

always 为 false，技能由用户调用。不会请求持久性系统级更改或提升权限。

安全有层次，运行前请审查代码。

License

MIT-0

可自由使用、修改和再分发，无需署名。

查看条款 ↗

运行时依赖

无特殊依赖

版本

latestv2.1.12026/3/11

v2.1.1：优化，参考文档拆分

● 无害

安装命令

点击复制

官方npx clawhub@latest install experiment-designer

镜像加速npx clawhub@latest install experiment-designer --registry https://cn.longxiaskill.com 镜像可用

需要定制？告诉我你的需求 →

技能文档

# 实验设计师用清晰的假设和可辩护的决策来设计、排序和评估产品实验。 ## 何时使用本技能适用于： - A/B 与多变量实验规划 - 假设撰写与成功标准定义 - 样本量与最小可检测效应（MDE）估算 - 基于 ICE 评分的实验优先级排序 - 为产品决策解读统计结果 ## 核心工作流 1. 用 If/Then/Because 格式撰写假设 - 如果我们改变 [干预] - 那么 [指标] 将按 [预期方向/幅度] 改变 - 因为 [行为机制] 2. 在测试前定义指标 - 主要指标：唯一决策指标 - 护栏指标：质量/风险保护 - 次要指标：仅用于诊断 3. 估算样本量 - 基线转化率或基线均值 - 最小可检测效应（MDE） - 显著性水平（alpha）与功效使用： ``bash python3 scripts/sample_size_calculator.py --baseline-rate 0.12 --mde 0.02 --mde-type absolute ` 4. 用 ICE 给实验排序 - Impact：潜在收益 - Confidence：证据质量 - Ease：成本/速度/复杂度 ICE 分数 = (Impact Confidence Ease) / 10 5. 启动并设定停止规则 - 预先确定固定样本量或固定实验时长 - 避免无合适方法的反复“偷看” - 持续监控护栏指标 6. 解读结果 - 统计显著 ≠ 业务显著 - 将点估计 + 置信区间与决策阈值比较 - 调查新奇效应与分群异质性 ## 假设质量检查清单 - [ ] 明确干预措施与受众 - [ ] 指定可度量的指标变化 - [ ] 给出合理的因果理由 - [ ] 包含预期最小效应 - [ ] 定义失败条件 ## 常见实验陷阱 - 功效不足导致假阴性 - 同时改动过多、缺乏隔离 - 实验中途修改受众或实现方式 - 因随机波动提前停止 - 忽视样本比例失衡与埋点漂移 - 只看 p 值、忽略效应量就宣布成功 ## 统计解读护栏 - p 值 < alpha 仅说明反对原假设的证据，非绝对真理。 - 置信区间跨越零/无效应线时，方向性结论不确定。 - 区间很宽时，即使显著也意味精度低。 - 用与业务影响挂钩的实际显著阈值。参见： - references/experiment-playbook.md - references/statistics-reference.md ## 工具 ### scripts/sample_size_calculator.py 根据以下参数计算所需样本量（每版本及总计）： - baseline rate - MDE（绝对或相对） - significance level (alpha) - statistical power 示例： `bash python3 scripts/sample_size_calculator.py \ --baseline-rate 0.10 \ --mde 0.015 \ --mde-type absolute \ --alpha 0.05 \ --power 0.8 ``

License

运行时依赖

版本

安装命令

技能文档

相关技能推荐