📦 Crawler — 网页爬虫与数据采集参考

v3.0.0

本技能提供网页爬虫和数据采集的参考文档,涵盖 robots.txt 协议、Scrapy 框架、反爬虫检测、无头浏览器以及法律考虑。仅输出参考文档,无需 API 密钥或凭证。

0· 643·0 当前·0 累计
by @bytesagain3·MIT-0
下载技能包
License
MIT-0
最后更新
2026/3/23
0
安全扫描
VirusTotal
无害
查看报告
OpenClaw
安全
high confidence
该技能为网页爬虫和数据采集的文档/参考;其文件、运行指令以及缺乏所需凭证与其目的相符,不请求或安装意外访问。
安全有层次,运行前请审查代码。

License

MIT-0

可自由使用、修改和再分发,无需署名。

运行时依赖

无特殊依赖

版本

latestv3.0.02026/3/23
无害

安装命令

点击复制
官方npx clawhub@latest install crawler
🇨🇳 镜像加速npx clawhub@latest install crawler --registry https://cn.longxiaskill.com

技能文档

网页爬虫和数据采集参考 — robots.txt 协议、Scrapy 框架、反爬虫检测、无头浏览器以及法律考虑。无需 API 密钥或凭证 — 输出仅参考文档。

命令

命令描述
intro爬虫 vs 采集、robots.txt、站点地图
standardsHTTP 缓存、结构化数据、元标签
troubleshooting反爬虫检测、JS 渲染、编码
performance并发、去重、增量、分布式
security法律格局、道德指南、代理
migration从 BeautifulSoup 迁移到 Scrapy、从 requests 迁移到 Playwright
cheatsheetScrapy 命令、CSS/XPath、curl、用户代理
faq合法性、JS 页面、阻塞、存储

输出格式

所有命令输出通过 heredoc 的纯文本参考文档。无外部 API 调用,无需凭证,无网络访问。


Powered by BytesAgain | bytesagain.com | hello@bytesagain.com

数据来源:ClawHub ↗ · 中文优化:龙虾技能库