📦 Crawler — 网页爬虫与数据采集参考

v3.0.0

本技能提供网页爬虫和数据采集的参考文档，涵盖 robots.txt 协议、Scrapy 框架、反爬虫检测、无头浏览器以及法律考虑。仅输出参考文档，无需 API 密钥或凭证。

0· 643·0 当前·0 累计

License

MIT-0

最后更新

2026/3/23

安全扫描

VirusTotal

无害

OpenClaw

安全

high confidence

该技能为网页爬虫和数据采集的文档/参考；其文件、运行指令以及缺乏所需凭证与其目的相符，不请求或安装意外访问。

安全有层次，运行前请审查代码。

MIT-0

可自由使用、修改和再分发，无需署名。

无特殊依赖

latestv3.0.02026/3/23

● 无害

安装命令

点击复制

官方npx clawhub@latest install crawler

🇨🇳 镜像加速npx clawhub@latest install crawler --registry https://cn.longxiaskill.com

网页爬虫和数据采集参考 — robots.txt 协议、Scrapy 框架、反爬虫检测、无头浏览器以及法律考虑。无需 API 密钥或凭证 — 输出仅参考文档。

命令	描述
`intro`	爬虫 vs 采集、robots.txt、站点地图
`standards`	HTTP 缓存、结构化数据、元标签
`troubleshooting`	反爬虫检测、JS 渲染、编码
`performance`	并发、去重、增量、分布式
`security`	法律格局、道德指南、代理
`migration`	从 BeautifulSoup 迁移到 Scrapy、从 requests 迁移到 Playwright
`cheatsheet`	Scrapy 命令、CSS/XPath、curl、用户代理
`faq`	合法性、JS 页面、阻塞、存储

所有命令输出通过 heredoc 的纯文本参考文档。无外部 API 调用，无需凭证，无网络访问。

Powered by BytesAgain | bytesagain.com | hello@bytesagain.com

数据来源：ClawHub ↗ · 中文优化：龙虾技能库