运行时依赖
无特殊依赖
安装命令
点击复制官方npx clawhub@latest install datacrawl-debug
镜像加速npx clawhub@latest install datacrawl-debug --registry https://cn.longxiaskill.com✓ 镜像可用
技能文档
DataCrawl Debug — 数据抓取全流程工具 抓得到·修得好·洗得净·跑得稳 核心定位 数据抓取的"急诊室+健身房"——出了问题来急诊(DebugRunner),日常训练来健身(IterateOptimizer),全程配营养师(DataCleaner)。
5大核心模块
- CrawlEngine — 抓取配置生成 + 结果解析
- CodeGenerator — 抓取代码自动生成
- DebugRunner — 代码调试与修复
- DataCleaner — 数据清洗格式化
- IterateOptimizer — 自我迭代优化
实战案例:小红书外贸博主抓取 内置 scripts/xhs-foreign-trade-processor.py: 5维粉丝质量评分(互动率/收藏比/评论活跃/粉丝规模/外贸相关度) S/A/B/C/D 5级分层 粉丝画像推断(工厂主/跨境卖家/SOHO/公司经营者/新手) Playwright执行配置生成 批量数据处理(去重+外贸筛选+评分+画像) 常见脚本问题诊断 原脚本用requests直连API → 必403。正确方案: 用Playwright打开小红书网页版 手动登录后保存Cookie 通过搜索页面而非API提取数据 用本技能的评分模型替代简单加权
使用流程 配置: crawl-engine.py config → 了解目标站点+推荐方案 生成代码: code-generator.py → 获得起始代码模板 调试: 遇错 → debug-runner.py → 秒级诊断 清洗: data-cleaner.py → 去重+标准化+格式化 迭代: iterate-optimizer.py → 基于运行数据持续改进