Data Analysis - 数据分析与可视化
v1.0.2提供一套完整的数据分析与可视化指南,帮助在 SQL、表格、笔记本、仪表盘、导出或临时表等数据源上进行 KPI 定义、图表选择、报告生成和洞察提炼,支持决策评估和异常检测。
84· 2.5万·336 当前·353 累计
运行时依赖
OSLinux · macOS · Windows
安装命令
点击复制官方npx clawhub@latest install data-analysis
镜像加速npx clawhub@latest install data-analysis --registry https://cn.longxiaskill.com 镜像可用
国内专用clawhub install data-analysis
本土化适配说明
本技能为文档型指南,无需额外的依赖或环境配置。使用前可通过 ClawHub 安装:`clawhub install data-analysis`,并确保本地能访问随技能提供的参考文件。
技能文档
当用户需要对来自 SQL、电子表格、笔记本、仪表盘、导出文件或临时表 的数据进行分析、解释或可视化时,可使用本技能。
适用于以下场景:KPI 调试、实验结果读取、漏斗或分群分析、异常审查、管理层报告以及对指标或查询逻辑的质量检查。
当核心难点在于 分析判断(如指标定义、比较设计、解释或给出建议)时,优先使用本技能,而不是通用的编码或表格帮助。
用户可能的需求包括:分析数据、发现模式、理解指标、检验假设、分群分析、A/B 测试、流失分析或统计显著性检验。
核心原则
没有决策的分析只是算术。 必须始终明确:如果分析显示 X 与 Y,有哪些决策会因此改变?
方法论先行
在动手处理数据前,请先回答以下问题:
- 本次分析要支持哪个决策?
- 什么样的结果会让你改变原有想法?(真正的问题)
- 你实际拥有的数据与理想数据有什么差距?
- 哪个时间范围是相关的?
统计严谨性检查清单
- 样本量足够吗?(小 N 会导致宽置信区间)
- 比较组公平吗?(相同时间段、相似条件)
- 是否进行了多重比较?(20 次检验,可能出现 1 次“显著”)
- 效果大小是否有意义?(统计显著 ≠ 实际重要)
- 是否量化了不确定性?(如 “12‑18% 提升”,而非单纯 “15% 提升”)
架构说明
本技能不依赖本地文件夹、持久内存或任何状态设置。
请使用随技能提供的轻量参考文件:
metric-contracts.md—— KPI 定义与注意事项chart-selection.md—— 可视化选择与常见图表反模式decision-briefs.md—— 面向业务方的输出模板pitfalls.md与techniques.md—— 分析严谨性与方法选型
快速参考
只加载最小、最相关的参考文件,以保持上下文聚焦。
| 主题 | 文件 |
|---|---|
| 指标定义合同 | metric-contracts.md |
| 可视化选择与图表反模式 | chart-selection.md |
| 决策级输出格式 | decision-briefs.md |
| 早期错误捕获 | pitfalls.md |
| 按问题类型选择方法 | techniques.md |
核心规则
- 从决策而非数据集出发\n 确认决策所有者、可能改变决策的问题以及截止日期后再开始分析。若无决策会被影响,请重新定义需求再进行计算。
- 在计算前锁定指标合同\n 明确实体、粒度、分子、分母、时间窗口、时区、过滤条件、排除项以及真值来源。若有模糊,务必在结果前说明。
- 分离提取、转化与解释\n 将查询逻辑、清洗假设、分析结论保持可区分。不要把业务假设隐藏在 SQL、公式或笔记本代码中而不在报告里说明。
- 选择能回答问题的图表\n 根据分析问题选择图表类型:趋势、比较、分布、关联、构成、漏斗或保留率。不要为填充报告而添加无关图表。
- 以决策格式简述每个结果\n 每个输出必须包括答案、证据、置信度、局限以及推荐的下一步行动。若面向业务方,先转化为业务影响,再提供技术细节。
- 在给出行动建议前进行压力测试\n 按明显的混杂因素分段、对比合适的基线、量化不确定性,并检查对排除项或时间窗口的敏感性。缺乏稳健性检查的数字不具备决策价值。
- 当数据不足以支撑结论时进行升级\n 若样本量太小、数据源不可靠、指标定义漂移或混杂因素未解决,请降级或标记为“未知”。宁可说不确定,也不要提供虚假信心。
常见陷阱
- 更改分子、分母或排除项后仍沿用旧 KPI 名称 → 趋势对比失效。
- 在同一图表中混用日、周、月粒度 → 看似真实的波动其实是聚合噪声。
- 只展示百分比而不提供基数 → 领导层会对小分母产生过度反应。
- 用好看的图表掩盖错误的图表类型 → 表面光鲜却隐藏真实决策信号。
- 看到结果后再去寻找有趣的切分 → 叙事被随机性驱动。
- 自动化报告缺少指标所有者或局限说明 → 错误数字会迅速扩散。
- 将观察到的模式误当因果证明 → 基于相关性制定的行动计划会出错。
方法选型表
| 问题类型 | 方法 | 关键输出 |
|---|---|---|
| “X 与 Y 是否不同?” | 假设检验 | p 值、效应大小、置信区间 |
| “什么可以预测 Z?” | 回归/相关性 | 系数、R²、残差检查 |
| “用户随时间的行为如何?” | 分群分析 | 按分群的留存曲线 |
| “这些组是否有差异?” | 分段 | 画像 + 统计比较 |
| “有什么异常?” | 异常检测 | 标记点 + 背景上下文 |
techniques.md。输出标准
- 先给出洞察,而不是方法论。
- 量化不确定性——使用区间而非单点估计。
- 说明局限——明确本分析无法解答的内容。
- 给出后续建议——说明哪些工作可以加强结论。
需要升级的红旗
- 用户希望“证明”预设结论。
- 样本量过小,无法进行可靠推断。
- 数据质量问题导致分析失效。
- 存在无法控制的混杂因素。
外部端点
本技能 不进行任何外部网络请求。
| 端点 | 发送数据 | 用途 |
|---|---|---|
| None | None | N/A |
安全与隐私
- 离开本机的数据:默认情况下没有。
- 保留在本机的数据:默认情况下没有。
本技能 不:
- 访问未声明的外部端点。
- 将凭证或原始导出文件存入隐藏的本地内存文件。
- 创建或依赖本地文件夹进行持久化。
- 在未得到用户明确确认的情况下创建自动化或后台任务。
- 重写自身的指令源文件。
关联技能
如用户确认可使用 clawhub install 安装本技能,可搭配以下相关技能使用:
sql– 可靠的数据提取查询设计与评审。csv– 在分析前对表格数据进行清洗与标准化。dashboard– KPI 可视化层的实现模式。report– 分析后面向业务方的结构化交付物。business-intelligence– 超越一次性分析的 KPI 系统与运营节奏。
反馈
- 若觉得有帮助,请在
clawhub上为data-analysis加星。 - 想保持最新,请执行
clawhub sync。