🦞 coze-web-fetch — 网页内容抓取与提取

v0.1.0

使用 coze-coding-dev-sdk，从 URL 中抓取和提取内容。支持网页、PDF、Office 文档、文本文件、电子书、XML 和图像。返回结构化输出，包含文本、图像和链接，支持文本、Markdown 和 JSON 格式输出。

0· 287·4 当前·5 累计

by @hanxueyuan·MIT-0

下载技能包

License

MIT-0

最后更新

2026/4/12

安全扫描

VirusTotal

无害

查看报告

OpenClaw

可疑

medium confidence

该技能的代码大部分符合其声明的目的（从 URL 中抓取和提取内容），但存在不匹配和缺失的声明（特别是关于外部 SDK、依赖项安装指令和凭据处理），使得其实际运行要求和数据流不明确。

安全有层次，运行前请审查代码。

License

MIT-0

可自由使用、修改和再分发，无需署名。

查看条款 ↗

运行时依赖

无特殊依赖

版本

latestv0.1.02026/3/15

初始发布。- 使用 coze-coding-dev-sdk 从 URL 中抓取和提取内容。- 支持网页、PDF、Office 文档、文本文件、电子书、XML 和图像。- 返回包含文本、图像和链接的结构化输出。- 支持文本、Markdown 和 JSON 格式输出。- 允许在单一命令中抓取多个 URL。- 提供仅文本提取选项。

● 无害

安装命令

点击复制

官方npx clawhub@latest install coze-web-fetch

🇨🇳 镜像加速npx clawhub@latest install coze-web-fetch --registry https://cn.longxiaskill.com

技能文档

从任意 URL 使用 coze-coding-dev-sdk 抓取和提取结构化内容。返回文本、图像和链接，支持多种输出格式。

快速开始

基本抓取

npx ts-node {baseDir}/scripts/fetch.ts -u "https://example.com/article"

多 URL 抓取

npx ts-node {baseDir}/scripts/fetch.ts \
  -u "https://example.com/page1" \
  -u "https://example.com/page2"

Markdown 输出

npx ts-node {baseDir}/scripts/fetch.ts \
  -u "https://docs.python.org/3/tutorial/" \
  --format markdown

JSON 输出

npx ts-node {baseDir}/scripts/fetch.ts \
  -u "https://example.com/document.pdf" \
  --format json

仅文本输出

npx ts-node {baseDir}/scripts/fetch.ts \
  -u "https://example.com/article" \
  --text-only

脚本选项

选项	描述
`-u, --url`	要抓取的 URL（必需，支持重复）
`--format`	`json`、`text`、`markdown`（默认：text）
`--text-only`	仅提取文本内容
`--help`	显示帮助消息

## 支持的文档格式

格式	扩展名
PDF	.pdf
Office 文档	.doc, .docx, .ppt, .pptx, .xls, .xlsx, .csv
文本文件	.txt, .text
电子书	.epub, .mobi
XML	.xml
图像	.jpg, .png, .gif, .webp 等
网页	.html, .htm 或任意 URL

## 输出格式

文本（默认）

===========================================================
FETCHED CONTENT
===========================================================
Title: 示例文章
URL: https://example.com/article
------------------------------------------------------------
CONTENT
------------------------------------------------------------
[TEXT] 这是主要文章内容...
[IMAGE] https://example.com/image.jpg
[LINK] 相关文章 -> https://example.com/related
### Markdown
markdown
# 示例文章
URL: https://example.com/article

内容
这是主要文章内容...
!图像
相关文章


JSON
原始 API 响应，包含完整的内容结构。
内容类型
抓取器提取三种类型的内容：
类型 描述
text 从页面提取的文本内容
image 带有显示信息的图像 URL
link 内容中找到的超链接## 注意事项

使用 --text-only` 选项获取更干净的输出，当仅需文本时。
PDF 和 Office 文档将被自动解析。
图像被重新签名以实现安全访问。
可以在单一命令中抓取多个 URL。

数据来源：ClawHub ↗ · 中文优化：龙虾技能库

类型	描述
text	从页面提取的文本内容
image	带有显示信息的图像 URL
link	内容中找到的超链接