运行时依赖
无特殊依赖
安装命令
点击复制官方npx clawhub@latest install xcrawl-crawl
镜像加速npx clawhub@latest install xcrawl-crawl --registry https://cn.longxiaskill.com✓ 镜像可用
技能文档
概述
用于XCrawl爬取任务,支持大规模网站爬取、爬虫规则设计、异步状态轮询以及向下游服务交付爬取输出。使用指南
- 配置爬虫规则:根据目标网站结构定制规则。
- 启动爬取任务:执行大规模网站爬取。
- 监控任务状态:通过异步状态轮询跟踪进度。
- 接收爬取输出:在下游服务中处理爬取数据。
命令示例:
# 示例命令,根据实际情况替换
xcrawl-crawl start --config your_config.json
故障排除
- 任务失败:检查网络连接和目标网站响应。
- 数据不完整:验证爬虫规则和网站结构一致性。