📦 Web Fetcher — 网页内容抓取器

v1.2.0

抓取网页内容并提取可读内容供AI使用。适用于阅读、摘要或爬取特定URL或少量URL。优先使用低摩擦的URL到Markdown服务。

0· 275·0 当前·0 累计
by @aurthes (Aurthes)·MIT-0
下载技能包
License
MIT-0
最后更新
2026/4/12
0
安全扫描
VirusTotal
无害
查看报告
OpenClaw
可疑
medium confidence
该技能如宣称般工作(抓取和提取网页),但依赖第三方URL到Markdown代理服务(r.jina.ai、markdown.new、defuddle.md)来无明显警告地抓取内容,存在隐私/数据泄露风险,应在安装前考虑。
评估建议
该技能将向第三方URL到Markdown服务转发请求的页面URL作为其主要检索方法。安装或使用前:(1) 避免抓取包含私密、机密或敏感信息的页面;(2) 在抓取私人页面前告知用户并获得同意;(3) 如果隐私重要,考虑使用基于浏览器/本地的无头抓取或自托管读取器;(4) 注意捆绑脚本中的简单分类器可能误分类页面;(5) 如果需要更强的数据去向保证,请求技能所有者添加明确警告和禁用第三方代理或使用自托管替代品的选项。若需更严格的评估,请提供部署环境和是否预计抓取认证/私人页面,这将改变风险评估。...
详细分析 ▾
用途与能力
名称、描述、SKILL.md 和捆绑脚本全部一致:该技能抓取和提取可读网页内容,并实现了明确的回退链。使用外部URL到Markdown服务与“低摩擦”设计一致,但这是一种设计选择,具有隐私影响(见 instruction_scope)。
指令范围
运行时指令和捆绑脚本明确将目标URL发送到第三方转换服务(r.jina.ai、markdown.new、defuddle.md),并返回抓取内容。这意味着完整的目标页面(包括任何存在的敏感数据)可能通过这些外部服务代理。SKILL.md不需要或记录用户同意,也不警告可能的存储/保留或保密性影响。除此之外,指令保持在声明的目的范围内,不要求读取无关文件或环境变量。
安装机制
仅指令的技能,附带一个小的Python脚本。没有安装规范,没有从外部URL下载,并且除了包含的文件外,什么也没有写入磁盘。这是低安装风险。
凭证需求
该技能不请求环境变量、凭证或配置路径。它不需要任何无关的秘密或权限。
持久化与权限
always 为 false 且该技能是用户可调用。它不请求永久存在或系统范围的更改。该技能可以由代理自主调用(默认行为),但这正常,不是红色标志。
安全有层次,运行前请审查代码。

License

MIT-0

可自由使用、修改和再分发,无需署名。

运行时依赖

无特殊依赖

版本

latestv1.2.02026/3/11

添加基于脚本的回退抓取器并改进Cloudflare/挑战处理指南

无害

安装命令

点击复制
官方npx clawhub@latest install aurthes-web-fetcher
镜像加速npx clawhub@latest install aurthes-web-fetcher --registry https://cn.longxiaskill.com

技能文档

抓取可读网页内容,优先考虑可靠性回退链。

核心规则

不要承诺直接访问每个网站。一些网站使用Cloudflare、登录墙、bot检测或法律限制。在这种情况下,切换到下一个回退,而不是坚持认为第一个方法应该工作。 ... (注意:由于原始内容较长,仅翻译了开头部分,实际输出应包含完整翻译的SKILL.md内容

数据来源ClawHub ↗ · 中文优化:龙虾技能库