🦞 coze-web-fetch — 网页内容抓取与提取

v0.1.0

使用 coze-coding-dev-sdk,从 URL 中抓取和提取内容。支持网页、PDF、Office 文档、文本文件、电子书、XML 和图像。返回结构化输出,包含文本、图像和链接,支持文本、Markdown 和 JSON 格式输出。

0· 287·4 当前·5 累计
by @hanxueyuan·MIT-0
下载技能包
License
MIT-0
最后更新
2026/4/12
0
安全扫描
VirusTotal
无害
查看报告
OpenClaw
可疑
medium confidence
该技能的代码大部分符合其声明的目的(从 URL 中抓取和提取内容),但存在不匹配和缺失的声明(特别是关于外部 SDK、依赖项安装指令和凭据处理),使得其实际运行要求和数据流不明确。
安全有层次,运行前请审查代码。

License

MIT-0

可自由使用、修改和再分发,无需署名。

运行时依赖

无特殊依赖

版本

latestv0.1.02026/3/15

初始发布。- 使用 coze-coding-dev-sdk 从 URL 中抓取和提取内容。- 支持网页、PDF、Office 文档、文本文件、电子书、XML 和图像。- 返回包含文本、图像和链接的结构化输出。- 支持文本、Markdown 和 JSON 格式输出。- 允许在单一命令中抓取多个 URL。- 提供仅文本提取选项。

无害

安装命令

点击复制
官方npx clawhub@latest install coze-web-fetch
🇨🇳 镜像加速npx clawhub@latest install coze-web-fetch --registry https://cn.longxiaskill.com

技能文档

从任意 URL 使用 coze-coding-dev-sdk 抓取和提取结构化内容。返回文本、图像和链接,支持多种输出格式。

快速开始

基本抓取

npx ts-node {baseDir}/scripts/fetch.ts -u "https://example.com/article"

多 URL 抓取

npx ts-node {baseDir}/scripts/fetch.ts \
  -u "https://example.com/page1" \
  -u "https://example.com/page2"

Markdown 输出

npx ts-node {baseDir}/scripts/fetch.ts \
  -u "https://docs.python.org/3/tutorial/" \
  --format markdown

JSON 输出

npx ts-node {baseDir}/scripts/fetch.ts \
  -u "https://example.com/document.pdf" \
  --format json

仅文本输出

npx ts-node {baseDir}/scripts/fetch.ts \
  -u "https://example.com/article" \
  --text-only

脚本选项

选项描述
-u, --url 要抓取的 URL(必需,支持重复)
--format jsontextmarkdown(默认:text)
--text-only仅提取文本内容
--help显示帮助消息
## 支持的文档格式
格式扩展名
PDF.pdf
Office 文档.doc, .docx, .ppt, .pptx, .xls, .xlsx, .csv
文本文件.txt, .text
电子书.epub, .mobi
XML.xml
图像.jpg, .png, .gif, .webp 等
网页.html, .htm 或任意 URL
## 输出格式

文本(默认)

``=========================================================== FETCHED CONTENT =========================================================== Title: 示例文章 URL: https://example.com/article ------------------------------------------------------------ CONTENT ------------------------------------------------------------ [TEXT] 这是主要文章内容... [IMAGE] https://example.com/image.jpg [LINK] 相关文章 -> https://example.com/related
### Markdown
markdown # 示例文章 URL: https://example.com/article

内容

这是主要文章内容... !图像
`

JSON

原始 API 响应,包含完整的内容结构。

内容类型

抓取器提取三种类型的内容:
类型描述
text从页面提取的文本内容
image带有显示信息的图像 URL
link内容中找到的超链接
## 注意事项
  • 使用 --text-only` 选项获取更干净的输出,当仅需文本时。
  • PDF 和 Office 文档将被自动解析。
  • 图像被重新签名以实现安全访问。
  • 可以在单一命令中抓取多个 URL。
数据来源:ClawHub ↗ · 中文优化:龙虾技能库