数据爬虫调试

v1.0.0

当用户需要爬取网页数据、调试爬取代码、清理爬取数据或迭代爬取策略时使用。当从...生成网页爬取代码时使用。

0· 21·0 当前·0 累计

by @wangm-a3

数据与API

使用场景：使用数据爬虫调试进行数据与API使用数据爬虫调试

下载技能包

运行时依赖

无特殊依赖

安装命令

点击复制

官方npx clawhub@latest install datacrawl-debug

镜像加速npx clawhub@latest install datacrawl-debug --registry https://cn.longxiaskill.com 镜像可用

本土化适配说明

数据爬虫调试安装说明：安装命令：["openclaw skills install datacrawl-debug"] 支持国内镜像加速，使用 --registry https://cn.longxiaskill.com 参数可加速下载

需要定制？告诉我你的需求 →

技能文档

DataCrawl Debug — 数据抓取全流程工具抓得到·修得好·洗得净·跑得稳核心定位数据抓取的"急诊室+健身房"——出了问题来急诊（DebugRunner），日常训练来健身（IterateOptimizer），全程配营养师（DataCleaner）。

5大核心模块

CrawlEngine — 抓取配置生成 + 结果解析

scripts/crawl-engine.py config --url URL --fields 字段1 字段2 --mode static|dynamic|API scripts/crawl-engine.py extract --html "HTML内容" --fields 字段1 字段2 站点类型自动识别（电商/B2B/社媒/内容/政府/开发者） 3种模式工具推荐 + CSS/XPath选择器建议 HTML结构化提取（文本/链接/图片/表格/列表）

CodeGenerator — 抓取代码自动生成

scripts/code-generator.py --name 项目名 --url URL --fields 字段1 字段2 --mode requests_bs4|playwright|API_client 3种模板自动选择：静态页面/动态渲染/API接口生成完整可运行代码 + 依赖安装 + 使用步骤

DebugRunner — 代码调试与修复

scripts/debug-runner.py --error "错误信息" 8类错误模式库：connection/http_error/timeout/selector_error/encoding/json_parse/selenium_playwright/rate_limit HTTP子类型精准诊断（403反爬/429限流/503服务不可用等各有方案）代码片段扫描（缺异常处理/超时/延迟/UA自动检测）

DataCleaner — 数据清洗格式化

scripts/data-cleaner.py clean --input 数据 --remove-html --remove-duplicates scripts/data-cleaner.py normalize --input 数据 --schema 类型定义 scripts/data-cleaner.py format --input 数据 --format json|csv|jsonl --fields 字段列表

IterateOptimizer — 自我迭代优化

scripts/iterate-optimizer.py analyze --input 运行历史.json scripts/iterate-optimizer.py improve --config 当前配置 --analysis 分析结果成功率趋势 / 错误聚类 / 字段覆盖率 / 优化建议自动调整延迟/超时/重试/模式切换

实战案例：小红书外贸博主抓取内置 scripts/xhs-foreign-trade-processor.py： 5维粉丝质量评分（互动率/收藏比/评论活跃/粉丝规模/外贸相关度） S/A/B/C/D 5级分层粉丝画像推断（工厂主/跨境卖家/SOHO/公司经营者/新手） Playwright执行配置生成批量数据处理（去重+外贸筛选+评分+画像）常见脚本问题诊断原脚本用requests直连API → 必403。正确方案：用Playwright打开小红书网页版手动登录后保存Cookie 通过搜索页面而非API提取数据用本技能的评分模型替代简单加权

使用流程配置: crawl-engine.py config → 了解目标站点+推荐方案生成代码: code-generator.py → 获得起始代码模板调试: 遇错 → debug-runner.py → 秒级诊断清洗: data-cleaner.py → 去重+标准化+格式化迭代: iterate-optimizer.py → 基于运行数据持续改进

运行时依赖

安装命令

本土化适配说明

技能文档

相关技能推荐