Crawler — 网页爬虫与数据采集参考

v3.0.0

本技能提供网页爬虫和数据采集的参考文档，涵盖 robots.txt 协议、Scrapy 框架、反爬虫检测、无头浏览器以及法律考虑。仅输出参考文档，无需 API 密钥或凭证。

0· 643·0 当前·0 累计

by @bytesagain3·MIT-0

数据与API

使用场景：使用Crawler — 网页爬虫与数据采集参考进行数据与API使用Crawler — 网页爬虫与数据采集参考

下载技能包

License

MIT-0

最后更新

2026/3/23

安全扫描

VirusTotal

无害

查看报告

OpenClaw

安全

high confidence

该技能为网页爬虫和数据采集的文档/参考；其文件、运行指令以及缺乏所需凭证与其目的相符，不请求或安装意外访问。

评估建议

该技能似乎仅为文档，不请求凭证或安装外部软件。安装前：(1) 自行审查 `script.sh` 以确认行为；(2) 注意内容包括代理和验证码解决服务的指令，这些可能违反网站条款或法律——仅用于合法、道德目的；(3) 如果允许代理执行 shell 脚本，确保代理运行时沙盒化，因为任何可以运行 shell 命令的技能都可能被修改以运行任意代码。如果需要更严格的保证，请请求仅包含 `SKILL.md`（无可执行文件）的版本或逐行审计完整脚本内容。...

详细分析 ▾

✓ 用途与能力

名称/描述（网页爬虫和数据采集参考）与提供的 SKILL.md 及仅输出参考文本的脚本相符。无不相关的必需二进制文件、环境变量或配置路径。

ℹ 指令范围

SKILL.md 明确指出输出为通过 heredoc 的纯文本参考，无需外部 API 调用或凭证。捆绑的 `script.sh` 仅打印文档。注意：文档讨论了可以启用争议采集行为的技术（代理、验证码解决服务、反爬虫工作流），但该技能本身仅记录这些主题，不执行它们。

✓ 安装机制

未提供安装规格（仅指令）。唯一的代码文件是一个本地 shell 脚本，打印文档；安装期间无下载或提取内容。

✓ 凭证需求

该技能未声明所需环境变量或凭证，运行指令也不尝试读取秘密。文档中对代理提供商和服务的引用仅为信息性，不创建凭证要求。

✓ 持久化与权限

未请求高级持久性（始终：false）。该技能不修改其他技能或系统配置，也不请求永久存在或特殊权限。

安全有层次，运行前请审查代码。

License

MIT-0

可自由使用、修改和再分发，无需署名。

查看条款 ↗

运行时依赖

无特殊依赖

版本

latestv3.0.02026/3/23

● 无害

安装命令

点击复制

官方npx clawhub@latest install crawler

镜像加速npx clawhub@latest install crawler --registry https://cn.longxiaskill.com 镜像可用

本土化适配说明

Crawler — 网页爬虫与数据采集参考安装说明：安装命令：npx clawhub@latest install crawler 支持国内镜像加速，使用 --registry https://cn.longxiaskill.com 参数可加速下载

需要定制？告诉我你的需求 →

技能文档

网页爬虫和数据采集参考 — robots.txt 协议、Scrapy 框架、反爬虫检测、无头浏览器以及法律考虑。无需 API 密钥或凭证 — 输出仅参考文档。

命令

命令	描述
`intro`	爬虫 vs 采集、robots.txt、站点地图
`standards`	HTTP 缓存、结构化数据、元标签
`troubleshooting`	反爬虫检测、JS 渲染、编码
`performance`	并发、去重、增量、分布式
`security`	法律格局、道德指南、代理
`migration`	从 BeautifulSoup 迁移到 Scrapy、从 requests 迁移到 Playwright
`cheatsheet`	Scrapy 命令、CSS/XPath、curl、用户代理
`faq`	合法性、JS 页面、阻塞、存储

输出格式

所有命令输出通过 heredoc 的纯文本参考文档。无外部 API 调用，无需凭证，无网络访问。

Powered by BytesAgain | bytesagain.com | hello@bytesagain.com

License

运行时依赖

版本

安装命令

本土化适配说明

技能文档

命令

输出格式

相关技能推荐