clean-web-fetch — 获取干净网页内容

Name: clean-web-fetch — 获取干净网页内容
Author: 晨冬

晨冬

clean-web-fetch — 获取干净网页内容

v1.0.0

获取现代网页的干净、可读正文内容，支持微信公众号文章抓取、尾部噪音清洗，减少无用信息和token消耗。适用于新闻、博客、公告等网页，尤其是普通fetch不稳定或遇到反爬、动态渲染的场景。

0· 637·3 当前·3 累计

by @jllyzzd2023 (晨冬)·MIT-0

浏览器自动化网络工具 AI模型访问

下载技能包

License

MIT-0

最后更新

2026/4/12

安全扫描

VirusTotal

无害

查看报告

OpenClaw

可疑

high confidence

该技能描述与网页内容提取工具匹配，但运行指令依赖未包含的本地脚本和绝对路径，存在可疑之处，需检查后使用。

评估建议

暂勿直接安装或运行。SKILL.md要求运行未包含在包中的本地Python脚本，指向不包含在包中的绝对路径。使用前：(1) 请求发布者提供实际脚本和引用文件；(2) 检查脚本仅提取目标URL，不读取无关文件或泄露数据；(3) 优先使用经过验证的安装指令；(4) 在沙盒环境中首次运行。如果作者无法提供脚本或解释绝对路径，视为不可信任。...

详细分析 ▾

⚠ 用途与能力

名称/描述描述了一个网页到Markdown的提取器是一致的。然而，该技能声明没有代码、没有安装和没有环境要求，但SKILL.md指示运行一个不包含在包中的本地Python脚本（scripts/scrapling_fetch.py）。这种不匹配（声明没有内容 vs. 指令要求本地文件）是不一致的。

⚠ 指令范围

指令告诉代理执行位于绝对/用户特定路径（/Users/zzd/.openclaw/...）的Python脚本，并引用本地“references”文件。这些路径在声明的范围之外，如果存在，会导致代理访问任意本地文件。SKILL.md还允许安装Python包，但主要的运行时行为依赖于运行一个未捆绑或未验证的外部脚本。

ℹ 安装机制

没有提供安装规格（仅指令），这降低了安装器风险。SKILL.md建议如果缺失，则安装pip包（scrapling和html2text）——对于基于Python的fetcher来说这是正常的，但pip包“scrapling”是未经验证的引用，可能是任何第三方包。

⚠ 凭证需求

该技能声明没有所需的环境变量或配置路径，但指令引用了特定用户主目录下的绝对本地文件系统路径。这是不一致的：指令隐式要求访问那些本地文件。没有请求凭证，但隐式的文件系统访问与包元数据不成比例。

✓ 持久化与权限

该技能未标记为“always: true”且不请求持久权限。它可以由用户调用并默认自主运行，这是正常的。没有证据表明它修改其他技能或系统范围的设置。

安全有层次，运行前请审查代码。

License

MIT-0

可自由使用、修改和再分发，无需署名。

查看条款 ↗

运行时依赖

无特殊依赖

版本

latestv1.0.02026/3/9

初始发布

● 无害

安装命令点击复制

官方npx clawhub@latest install clean-web-fetch

镜像加速npx clawhub@latest install clean-web-fetch --registry https://cn.clawhub-mirror.com

技能文档

请参见下方翻译（保留原始YAML前置matter不翻译）

当用户要获取网页内容、正文提取、把网页转成 markdown/text、抓取文章主体时，优先使用此技能。

默认流程

使用 python3 scripts/scrapling_fetch.py
默认正文选择器优先级：

- article - main - .post-content - [class*="body"]

命中正文后，使用 html2text 转 Markdown
若都未命中，回退到 body
最终按 max_chars 截断输出

用法

python3 /Users/zzd/.openclaw/workspace/skills/scrapling-web-fetch/scripts/scrapling_fetch.py  30000

依赖

优先检查：

scrapling
html2text

若缺失，可安装：

python3 -m pip install scrapling html2text

输出约定

脚本默认输出 Markdown 正文内容。如需结构化输出，可追加 --json。如需调试提取命中了哪个 selector，可查看 stderr 输出。

附加资源

用法参考：/Users/zzd/.openclaw/workspace/skills/scrapling-web-fetch/references/usage.md
选择器策略：/Users/zzd/.openclaw/workspace/skills/scrapling-web-fetch/references/selectors.md
统一入口：/Users/zzd/.openclaw/workspace/skills/scrapling-web-fetch/scripts/fetch-web-content

何时用这个技能

获取文章正文
抓博客/新闻/公告正文
将网页转成 Markdown 供后续总结
常规 fetch 效果差，希望提升现代网页抓取稳定性

何时不用

需要完整浏览器交互、点击、登录、翻页时：改用浏览器自动化
只是简单获取 API JSON：直接请求 API 更合适

数据来源：ClawHub ↗ · 中文优化：龙虾技能库

OpenClaw 技能定制 / 插件定制 / 私有工作流定制

免费技能或插件可能存在安全风险，如需更匹配、更安全的方案，建议联系付费定制

了解定制服务

License

运行时依赖

版本

安装命令 点击复制

技能文档

默认流程

用法

依赖

输出约定

附加资源

何时用这个技能

何时不用

安装命令点击复制