Data Analysis - 数据分析与可视化

Name: Data Analysis - 数据分析与可视化
Rating: 84

v1.0.2

提供一套完整的数据分析与可视化指南，帮助在 SQL、表格、笔记本、仪表盘、导出或临时表等数据源上进行 KPI 定义、图表选择、报告生成和洞察提炼，支持决策评估和异常检测。

84· 2.5万·336 当前·353 累计

by @ivangdavila (Iván)

数据与API 开发工具自动化安全工具生产力工具

使用场景：生成报告分析数据可视化图表检查异常比较指标

下载技能包

运行时依赖

OSLinux · macOS · Windows

安装命令

点击复制

官方npx clawhub@latest install data-analysis

镜像加速npx clawhub@latest install data-analysis --registry https://cn.longxiaskill.com 镜像可用

国内专用clawhub install data-analysis

本土化适配说明

本技能为文档型指南，无需额外的依赖或环境配置。使用前可通过 ClawHub 安装：`clawhub install data-analysis`，并确保本地能访问随技能提供的参考文件。

需要定制？告诉我你的需求 →

技能文档

当用户需要对来自 SQL、电子表格、笔记本、仪表盘、导出文件或临时表 的数据进行分析、解释或可视化时，可使用本技能。

适用于以下场景：KPI 调试、实验结果读取、漏斗或分群分析、异常审查、管理层报告以及对指标或查询逻辑的质量检查。

当核心难点在于 分析判断（如指标定义、比较设计、解释或给出建议）时，优先使用本技能，而不是通用的编码或表格帮助。

用户可能的需求包括：分析数据、发现模式、理解指标、检验假设、分群分析、A/B 测试、流失分析或统计显著性检验。

核心原则

没有决策的分析只是算术。 必须始终明确：如果分析显示 X 与 Y，有哪些决策会因此改变？

方法论先行

在动手处理数据前，请先回答以下问题：

本次分析要支持哪个决策？
什么样的结果会让你改变原有想法？（真正的问题）
你实际拥有的数据与理想数据有什么差距？
哪个时间范围是相关的？

统计严谨性检查清单

样本量足够吗？（小 N 会导致宽置信区间）
比较组公平吗？（相同时间段、相似条件）
是否进行了多重比较？（20 次检验，可能出现 1 次“显著”）
效果大小是否有意义？（统计显著 ≠ 实际重要）
是否量化了不确定性？（如 “12‑18% 提升”，而非单纯 “15% 提升”）

架构说明

本技能不依赖本地文件夹、持久内存或任何状态设置。

请使用随技能提供的轻量参考文件：

metric-contracts.md —— KPI 定义与注意事项
chart-selection.md —— 可视化选择与常见图表反模式
decision-briefs.md —— 面向业务方的输出模板
pitfalls.md 与 techniques.md —— 分析严谨性与方法选型

快速参考

只加载最小、最相关的参考文件，以保持上下文聚焦。

主题	文件
指标定义合同	metric-contracts.md
可视化选择与图表反模式	chart-selection.md
决策级输出格式	decision-briefs.md
早期错误捕获	pitfalls.md
按问题类型选择方法	techniques.md

核心规则

从决策而非数据集出发\n 确认决策所有者、可能改变决策的问题以及截止日期后再开始分析。若无决策会被影响，请重新定义需求再进行计算。
在计算前锁定指标合同\n 明确实体、粒度、分子、分母、时间窗口、时区、过滤条件、排除项以及真值来源。若有模糊，务必在结果前说明。
分离提取、转化与解释\n 将查询逻辑、清洗假设、分析结论保持可区分。不要把业务假设隐藏在 SQL、公式或笔记本代码中而不在报告里说明。
选择能回答问题的图表\n 根据分析问题选择图表类型：趋势、比较、分布、关联、构成、漏斗或保留率。不要为填充报告而添加无关图表。
以决策格式简述每个结果\n 每个输出必须包括答案、证据、置信度、局限以及推荐的下一步行动。若面向业务方，先转化为业务影响，再提供技术细节。
在给出行动建议前进行压力测试\n 按明显的混杂因素分段、对比合适的基线、量化不确定性，并检查对排除项或时间窗口的敏感性。缺乏稳健性检查的数字不具备决策价值。
当数据不足以支撑结论时进行升级\n 若样本量太小、数据源不可靠、指标定义漂移或混杂因素未解决，请降级或标记为“未知”。宁可说不确定，也不要提供虚假信心。

常见陷阱

更改分子、分母或排除项后仍沿用旧 KPI 名称 → 趋势对比失效。
在同一图表中混用日、周、月粒度 → 看似真实的波动其实是聚合噪声。
只展示百分比而不提供基数 → 领导层会对小分母产生过度反应。
用好看的图表掩盖错误的图表类型 → 表面光鲜却隐藏真实决策信号。
看到结果后再去寻找有趣的切分 → 叙事被随机性驱动。
自动化报告缺少指标所有者或局限说明 → 错误数字会迅速扩散。
将观察到的模式误当因果证明 → 基于相关性制定的行动计划会出错。

方法选型表

问题类型	方法	关键输出
“X 与 Y 是否不同？”	假设检验	p 值、效应大小、置信区间
“什么可以预测 Z？”	回归/相关性	系数、R²、残差检查
“用户随时间的行为如何？”	分群分析	按分群的留存曲线
“这些组是否有差异？”	分段	画像 + 统计比较
“有什么异常？”	异常检测	标记点 + 背景上下文

欲了解每种技术的细节及适用场景，请参阅 techniques.md。

输出标准

先给出洞察，而不是方法论。
量化不确定性——使用区间而非单点估计。
说明局限——明确本分析无法解答的内容。
给出后续建议——说明哪些工作可以加强结论。

需要升级的红旗

用户希望“证明”预设结论。
样本量过小，无法进行可靠推断。
数据质量问题导致分析失效。
存在无法控制的混杂因素。

外部端点

本技能 不进行任何外部网络请求。

端点	发送数据	用途
None	None	N/A

没有数据会被发送到外部。

安全与隐私

离开本机的数据：默认情况下没有。
保留在本机的数据：默认情况下没有。

本技能不：

访问未声明的外部端点。
将凭证或原始导出文件存入隐藏的本地内存文件。
创建或依赖本地文件夹进行持久化。
在未得到用户明确确认的情况下创建自动化或后台任务。
重写自身的指令源文件。

关联技能

如用户确认可使用 clawhub install 安装本技能，可搭配以下相关技能使用：

sql – 可靠的数据提取查询设计与评审。
csv – 在分析前对表格数据进行清洗与标准化。
dashboard – KPI 可视化层的实现模式。
report – 分析后面向业务方的结构化交付物。
business-intelligence – 超越一次性分析的 KPI 系统与运营节奏。

反馈

若觉得有帮助，请在 clawhub 上为 data-analysis 加星。
想保持最新，请执行 clawhub sync。