运行时依赖
无特殊依赖
安装命令
点击复制官方npx clawhub@latest install data-validator-pro
镜像加速npx clawhub@latest install data-validator-pro --registry https://cn.longxiaskill.com镜像同步中
技能文档
数据质量验证工具包(Data Quality Validator Toolkit),用于验证和分析表格数据质量。功能包括: 模式验证 - 检查列类型、约束和规则 完整性分析 - 缺失值检测和报告 异常检测 - 统计异常值检测 概况 - 总结统计和分布分析 约束检查 - 范围检查、唯一性、正则表达式模式
快速开始:
脚本:from scripts.data_profiler import DataProfiler from scripts.schema_validator import SchemaValidator# 概况一个数据集 profiler = DataProfiler() report = profiler.profile(df) # pandas DataFrame print(report["missing"]) print(report["outliers"])
# 验证模式 schema = { "age": {"type": "int", "min": 0, "max": 150}, "email": {"type": "str", "regex": r"^\S+@\S+\.\S+$"}, "id": {"type": "int", "unique": True} } validator = SchemaValidator(schema) errors = validator.validate(df) for err in errors: print(err)
- scripts/data_profiler.py - 数据集概况和总结统计
- scripts/schema_validator.py - 基于模式的验证引擎
- scripts/anomaly_detector.py - 统计异常检测
参考:
- references/validation_rules.md - 常见验证模式