🦞 coze-web-fetch — 网页内容抓取与提取
v0.1.0使用 coze-coding-dev-sdk,从 URL 中抓取和提取内容。支持网页、PDF、Office 文档、文本文件、电子书、XML 和图像。返回结构化输出,包含文本、图像和链接,支持文本、Markdown 和 JSON 格式输出。
0· 287·4 当前·5 累计
安全扫描
OpenClaw
可疑
medium confidence该技能的代码大部分符合其声明的目的(从 URL 中抓取和提取内容),但存在不匹配和缺失的声明(特别是关于外部 SDK、依赖项安装指令和凭据处理),使得其实际运行要求和数据流不明确。
安全有层次,运行前请审查代码。
运行时依赖
无特殊依赖
版本
latestv0.1.02026/3/15
初始发布。- 使用 coze-coding-dev-sdk 从 URL 中抓取和提取内容。- 支持网页、PDF、Office 文档、文本文件、电子书、XML 和图像。- 返回包含文本、图像和链接的结构化输出。- 支持文本、Markdown 和 JSON 格式输出。- 允许在单一命令中抓取多个 URL。- 提供仅文本提取选项。
● 无害
安装命令
点击复制官方npx clawhub@latest install coze-web-fetch
🇨🇳 镜像加速npx clawhub@latest install coze-web-fetch --registry https://cn.longxiaskill.com
技能文档
从任意 URL 使用 coze-coding-dev-sdk 抓取和提取结构化内容。返回文本、图像和链接,支持多种输出格式。
快速开始
基本抓取
npx ts-node {baseDir}/scripts/fetch.ts -u "https://example.com/article"
多 URL 抓取
npx ts-node {baseDir}/scripts/fetch.ts \
-u "https://example.com/page1" \
-u "https://example.com/page2"
Markdown 输出
npx ts-node {baseDir}/scripts/fetch.ts \
-u "https://docs.python.org/3/tutorial/" \
--format markdown
JSON 输出
npx ts-node {baseDir}/scripts/fetch.ts \
-u "https://example.com/document.pdf" \
--format json
仅文本输出
npx ts-node {baseDir}/scripts/fetch.ts \
-u "https://example.com/article" \
--text-only
脚本选项
| 选项 | 描述 |
|---|---|
-u, --url | 要抓取的 URL(必需,支持重复) |
--format | json、text、markdown(默认:text) |
--text-only | 仅提取文本内容 |
--help | 显示帮助消息 |
| 格式 | 扩展名 |
|---|---|
| Office 文档 | .doc, .docx, .ppt, .pptx, .xls, .xlsx, .csv |
| 文本文件 | .txt, .text |
| 电子书 | .epub, .mobi |
| XML | .xml |
| 图像 | .jpg, .png, .gif, .webp 等 |
| 网页 | .html, .htm 或任意 URL |
文本(默认)
``===========================================================
FETCHED CONTENT
===========================================================
Title: 示例文章
URL: https://example.com/article
------------------------------------------------------------
CONTENT
------------------------------------------------------------
[TEXT] 这是主要文章内容...
[IMAGE] https://example.com/image.jpg
[LINK] 相关文章 -> https://example.com/related
### Markdown
markdown
# 示例文章
URL: https://example.com/article
内容
这是主要文章内容...
!图像
`
JSON
原始 API 响应,包含完整的内容结构。
内容类型
抓取器提取三种类型的内容:
类型 描述 text 从页面提取的文本内容 image 带有显示信息的图像 URL link 内容中找到的超链接
## 注意事项
- 使用
--text-only` 选项获取更干净的输出,当仅需文本时。
数据来源:ClawHub ↗ · 中文优化:龙虾技能库