📦 Crawler — 网页爬虫与数据采集参考

v3.0.0

本技能提供网页爬虫和数据采集的参考文档,涵盖 robots.txt 协议、Scrapy 框架、反爬虫检测、无头浏览器以及法律考虑。仅输出参考文档,无需 API 密钥或凭证。

0· 643·0 当前·0 累计
by @bytesagain3·MIT-0
下载技能包
License
MIT-0
最后更新
2026/3/23
0
安全扫描
VirusTotal
无害
查看报告
OpenClaw
安全
high confidence
该技能为网页爬虫和数据采集的文档/参考;其文件、运行指令以及缺乏所需凭证与其目的相符,不请求或安装意外访问。
评估建议
该技能似乎仅为文档,不请求凭证或安装外部软件。安装前:(1) 自行审查 `script.sh` 以确认行为;(2) 注意内容包括代理和验证码解决服务的指令,这些可能违反网站条款或法律——仅用于合法、道德目的;(3) 如果允许代理执行 shell 脚本,确保代理运行时沙盒化,因为任何可以运行 shell 命令的技能都可能被修改以运行任意代码。如果需要更严格的保证,请请求仅包含 `SKILL.md`(无可执行文件)的版本或逐行审计完整脚本内容。...
详细分析 ▾
用途与能力
名称/描述(网页爬虫和数据采集参考)与提供的 SKILL.md 及仅输出参考文本的脚本相符。无不相关的必需二进制文件、环境变量或配置路径。
指令范围
SKILL.md 明确指出输出为通过 heredoc 的纯文本参考,无需外部 API 调用或凭证。捆绑的 `script.sh` 仅打印文档。注意:文档讨论了可以启用争议采集行为的技术(代理、验证码解决服务、反爬虫工作流),但该技能本身仅记录这些主题,不执行它们。
安装机制
未提供安装规格(仅指令)。唯一的代码文件是一个本地 shell 脚本,打印文档;安装期间无下载或提取内容。
凭证需求
该技能未声明所需环境变量或凭证,运行指令也不尝试读取秘密。文档中对代理提供商和服务的引用仅为信息性,不创建凭证要求。
持久化与权限
未请求高级持久性(始终:false)。该技能不修改其他技能或系统配置,也不请求永久存在或特殊权限。
安全有层次,运行前请审查代码。

License

MIT-0

可自由使用、修改和再分发,无需署名。

运行时依赖

无特殊依赖

版本

latestv3.0.02026/3/23
无害

安装命令

点击复制
官方npx clawhub@latest install crawler
镜像加速npx clawhub@latest install crawler --registry https://cn.longxiaskill.com

技能文档

网页爬虫和数据采集参考 — robots.txt 协议、Scrapy 框架、反爬虫检测、无头浏览器以及法律考虑。无需 API 密钥或凭证 — 输出仅参考文档。

命令

命令描述
intro爬虫 vs 采集、robots.txt、站点地图
standardsHTTP 缓存、结构化数据、元标签
troubleshooting反爬虫检测、JS 渲染、编码
performance并发、去重、增量、分布式
security法律格局、道德指南、代理
migration从 BeautifulSoup 迁移到 Scrapy、从 requests 迁移到 Playwright
cheatsheetScrapy 命令、CSS/XPath、curl、用户代理
faq合法性、JS 页面、阻塞、存储

输出格式

所有命令输出通过 heredoc 的纯文本参考文档。无外部 API 调用,无需凭证,无网络访问。


Powered by BytesAgain | bytesagain.com | hello@bytesagain.com

数据来源ClawHub ↗ · 中文优化:龙虾技能库