📦 Data Pipelines — 数据管道设计

v1.0.0

端到端数据管道工作流指南,涵盖采集、编排、幂等、数据质量、SLA、可观测与血缘,适用于批流一体场景。

0· 106·0 当前·0 累计
下载技能包
最后更新
2026/3/27
0
安全扫描
VirusTotal
无害
查看报告
OpenClaw
安全
high confidence
This is a purely instructional, high-level data-pipeline design workflow — it does not request credentials, install software, or perform actions outside its stated purpose.
评估建议
This skill is high-level documentation for designing and operating data pipelines and appears internally consistent. Because it's instruction-only and requests no credentials, it carries low direct risk. Before you use it in an agent that can act autonomously, consider: (1) do not provision cloud/database credentials to the agent unless you want it to run pipeline actions; (2) if you combine this with other skills (etl connectors, cloud deployers), review those skills for credential requests and...
详细分析 ▾
用途与能力
名称/描述(deep data pipeline workflow)与SKILL.md内容一致:提供采集、编排、幂等、质量、SLA、血缘的分阶段指导,无无关需求(无环境变量、二进制或配置路径)。
指令范围
SKILL.md仅包含管道设计与运维指导(六阶段工作流、检查清单、提示)。未指示代理读取本地文件、访问凭据、调用外部端点或执行系统操作,仅提供建议。
安装机制
无安装规范与代码文件,纯指导内容,降低写入/执行风险;技能本身不会下载或安装任何内容。
凭证需求
技能未声明所需环境变量、凭据或配置路径,其指导为概念性,不索取密钥或无关凭据。
持久化与权限
技能由用户调用,非常驻启用;未请求提升持久化或修改其他技能。平台默认允许自主调用,但此处未结合其他高风险权限。
安全有层次,运行前请审查代码。

运行时依赖

无特殊依赖

版本

latestv1.0.02026/3/27

- Initial release of the "data-pipelines" skill. - Provides a comprehensive workflow covering ingestion, orchestration, idempotency, data quality, SLAs, observability, and lineage. - Includes six structured stages: requirements & SLAs, source contracts, transforms & idempotency, orchestration & dependencies, quality & monitoring, and lineage & operations. - Offers trigger conditions for when the workflow is relevant and a detailed checklist for final review. - Contains practical tips and guidance for both batch and streaming pipelines, with emphasis on reliability and clarity.

无害

安装命令

点击复制
官方npx clawhub@latest install data-pipelines
镜像加速npx clawhub@latest install data-pipelines --registry https://cn.longxiaskill.com

技能文档

# 数据管道 管道会在静默 schema drift、部分写入、职责不清时失败。设计时保证至少一次交付、幂等 sink、可观测 stage。 ## 何时使用该流程 触发条件: - 批处理或流式摄取(Kafka、Fivetran、Airflow、Dagster、Spark 等) - 迟到数据、回填或 schema 变更导致作业失败 - 新鲜度或行数 SLA 违约 初次提供: 使用六个阶段:(1)需求与 SLA,(2)源端契约,(3)转换与幂等,(4)编排与依赖,(5)质量与监控,(6)血缘与运维)。确认批处理 vs 流式以及云栈。 --- ## 阶段 1:需求与 SLA 目标: 新鲜度(延迟)、完整性预期、成本上限、失败容忍(隔离 vs 停线)。 退出条件: SLA 表:pipeline → 指标 → 阈值。 --- ## 阶段 2:源端契约 目标: schema 版本管理;CDC vs 快照拉取;API 限流。 ### 实践 - 原始落地区不可变;下游为 curated 层 --- ## 阶段 3:转换与幂等 目标: 确定性转换;upsert 键;支持回滚的分区策略。 ### 实践 - 为增量加载设置 watermark 进度 --- ## 阶段 4:编排与依赖 目标: 清晰的 DAG;重试策略;回填不重复计数;SLA 违约告警。 --- ## 阶段 5:质量与监控 目标: 数据质量检查(null 激增、行边界、参照完整性);延迟、耗时、错误率指标。 --- ## 阶段 6:血缘与运维 目标: 有价值的列级血缘;值班手册;每条 pipeline 明确归属。 --- ## 最终审查清单 - [ ] SLA 与失败策略明确 - [ ] 源端契约与 schema 演进路径 - [ ] 幂等写入与 checkpoint - [ ] 带重试与安全回填的编排 - [ ] 数据质量检查与告警 - [ ] 血缘与归属已文档化 ## 有效指导小贴士 - 大规模 shuffle 时,将计算与存储成本 awareness 分离。 - 与 etl-design 搭配用于批处理模式,与 message-queues 搭配用于流式交接。 ## 处理偏离 - 单脚本 pipeline:仍需记录输入、输出与调度。

数据来源ClawHub ↗ · 中文优化:龙虾技能库