Data Scraper — 网页数据采集与结构化文本提取

Name: Data Scraper — 网页数据采集与结构化文本提取
Rating: 1 (1 reviews)
Author: mupengi-bot

mupengi-bot

Data Scraper — 网页数据采集与结构化文本提取

v1.0.0

Data Scraper 能够从网页中收集数据并提取结构化文本。尽管其文档宣称支持多种高级功能，如选择器模式、表格提取、批量抓取、监控和通知，但实际实现仅为一个基本的 curl抓取和文本剥离脚本。请谨慎使用，特别是对网站的合法性和数据安全性的考虑。

1· 1,200·0 当前·0 累计

by @mupengi-bot·MIT-0

数据分析浏览器自动化文件处理安全

下载技能包

License

MIT-0

最后更新

2026/2/18

安全扫描

VirusTotal

可疑

查看报告

OpenClaw

可疑

high confidence

清单和文档承诺提供全功能的抓取工具，但包含的运行时脚本仅执行单次 curl抓取和文本剥离，写入小事件文件 — 宣称的功能与实际实现不符。

评估建议

此技能的文档承诺提供全功能的抓取工具，但仅有一个最小的 curl + HTML剥离脚本，不实现选择器、表格解析、批量抓取、监控、robots.txt 处理、通知集成或超出小事件文件的 JSON/CSV 输出。使用前：(1) 将其视为轻量级抓取器；(2) 在安全沙盒中检查和测试 run.sh；(3) 如果需要高级功能，请请求作者或寻找其他技能；(4) 避免在禁止抓取的网站运行；(5) 添加或验证必要工具（lynx、jq）以避免数据泄露。...

详细分析 ▾

⚠ 用途与能力

SKILL.md 和 GUIDE.md 描述了许多功能，但实际实现仅为基本抓取，无高级功能。

⚠ 指令范围

文档指令与实际实现不符，可能导致代理执行失败或不一致的操作。

✓ 安装机制

安装机制简单，低风险，无外部依赖。

✓ 凭证需求

技能不需要凭证或环境变量，安全性较好。

✓ 持久化与权限

技能权限控制合理，不修改系统配置。

安装前注意事项

将其视为轻量级抓取器，而非宣称的全功能抓取器；
在安全沙盒中检查和测试 run.sh 以确认行为；
如果需要选择器/表格/监控功能，请请求作者或寻找其他技能；
避免在禁止抓取的网站运行 — 脚本不强制执行礼貌或法律规则；
考虑添加或验证必要工具（lynx、jq）和安全输出处理以避免意外数据泄露。

安全有层次，运行前请审查代码。

License

MIT-0

可自由使用、修改和再分发，无需署名。

查看条款 ↗

运行时依赖

无特殊依赖

版本

latestv1.0.02026/2/18

● 可疑

安装命令点击复制

官方npx clawhub@latest install data-scraper

镜像加速npx clawhub@latest install data-scraper --registry https://cn.clawhub-mirror.com

技能文档

# data-scraper 网页数据抓取器 — 使用 curl + 解析从网页中提取结构化数据。轻量级，无需浏览器。支持 HTML 到文本、表格提取、价格监控和批量抓取。 ## 何时使用 - 从网页中提取文本内容（文章、博客、文档） - 抓取产品价格、评论或列表 - 监控页面变化（价格下降、新内容） - 批量从多个 URL 收集数据 - 将 HTML 表格转换为结构化格式（JSON/CSV） ## 快速开始 ``bash # 从 URL 提取可读文本 data-scraper fetch "https://example.com/article" # 提取特定元素 data-scraper extract "https://example.com" --selector "h2, .price" # 监控变化 data-scraper watch "https://example.com/product" --interval 3600 ` ## 提取模式 ### 文本模式（默认）从页面获取并提取可读内容，剥离 HTML 标签、脚本和样式。类似阅读模式。 `bash data-scraper fetch URL # 输出：清洁的 Markdown 文本 ` ### 选择器模式对特定 CSS 选择器进行精确提取。 `bash data-scraper extract URL --selector ".product-title, .price, .rating" # 输出：匹配元素作为结构化数据 ` ### 表格模式将 HTML 表格提取为结构化格式。 `bash data-scraper table URL --index 0 # 输出：带有标题到值映射的 JSON 数组行对象 ` ### 链接模式从页面提取所有链接，支持可选过滤。 `bash data-scraper links URL --filter "*.pdf" # 输出：过滤后的绝对 URL 列表 ` ## 批量抓取 `bash # 批量抓取多个 URL data-scraper batch urls.txt --output results/ # 带有限速 data-scraper batch urls.txt --delay 2000 --output results/ ` urls.txt 格式： ` https://site1.com/page https://site2.com/page https://site3.com/page ` ## 变化监控 `bash # 监控变化，检测差异时报警 data-scraper watch URL --selector ".price" --interval 3600 # 与之前的快照比较 data-scraper diff URL ` 存储带有时间戳的快照在 data-scraper/snapshots/ 中。通过 notification-hub 报警当检测到变化。 ## 输出格式 | 格式 | 标志 | 用例 | |--------|------|----------| | 文本 | --format text | 阅读、摘要 | | JSON | --format json | 数据处理 | | CSV | --format csv | 电子表格 | | Markdown | --format md | 文档 | ## 头部与认证 `bash # 自定义头部 data-scraper fetch URL --header "Authorization: Bearer TOKEN" # 基于 Cookie 的认证 data-scraper fetch URL --cookie "session=abc123" # User-Agent 覆盖 data-scraper fetch URL --ua "Mozilla/5.0..." ` ## 限速与伦理 - 默认：每秒每域名 1 个请求 - 当设置 --polite 标志时尊重 robots.txt - 可配置的请求间隔 - 遇到 429（太多请求）时停止并回退 ## 错误处理 | 错误 | 行为 | |-------|----------| | 404 | 日志并跳过 | | 403/401 | 警告认证要求 | | 429 | 指数回退（最多 3 次重试） | | 超时 | 重试一次，使用更长的超时 | | SSL 错误 | 警告，使用 --insecure` 继续 | ## 集成 - web-claude：当 web_fetch 不足够时作为后备使用 - competitor-watch：将抓取数据输入竞争对手分析 - seo-audit：抓取竞争对手页面进行 SEO 比较 - performance-tracker：从公共个人资料收集社会媒体指标

Web Data Scraper — Extract structured data from web pages using curl + parsing. Lightweight, no browser required. Supports HTML-to-text, table extraction, price monitoring, and batch scraping.

When to Use

Extract text content from web pages (articles, blogs, docs)
Scrape product prices, reviews, or listings
Monitor pages for changes (price drops, new content)
Batch-collect data from multiple URLs
Convert HTML tables to structured formats (JSON/CSV)

Quick Start

# Extract readable text from URL data-scraper fetch "https://example.com/article" # Extract specific elements data-scraper extract "https://example.com" --selector "h2, .price"

# Monitor for changes data-scraper watch "https://example.com/product" --interval 3600

Extraction Modes

Text Mode (default)

Fetches page and extracts readable content, stripping HTML tags, scripts, and styles. Similar to reader mode.

data-scraper fetch URL
# Output: clean markdown text

Selector Mode

Target specific CSS selectors for precise extraction.

data-scraper extract URL --selector ".product-title, .price, .rating"
# Output: matched elements as structured data

Table Mode

Extract HTML tables into structured formats.

data-scraper table URL --index 0
# Output: JSON array of row objects (header → value mapping)

Link Mode

Extract all links from a page with optional filtering.

data-scraper links URL --filter "*.pdf"
# Output: filtered list of absolute URLs

Batch Scraping

# Scrape multiple URLs data-scraper batch urls.txt --output results/

# With rate limiting data-scraper batch urls.txt --delay 2000 --output results/

urls.txt format:

https://site1.com/page
https://site2.com/page
https://site3.com/page

Change Monitoring

# Watch for changes, alert on diff data-scraper watch URL --selector ".price" --interval 3600

# Compare with previous snapshot data-scraper diff URL

Stores snapshots in data-scraper/snapshots/ with timestamps. Alerts via notification-hub when changes detected.

Output Formats

Format	Flag	Use Case
Text	`--format text`	Reading, summarization
JSON	`--format json`	Data processing
CSV	`--format csv`	Spreadsheets
Markdown	`--format md`	Documentation

Headers & Auth

# Custom headers data-scraper fetch URL --header "Authorization: Bearer TOKEN" # Cookie-based auth data-scraper fetch URL --cookie "session=abc123"

# User-Agent override data-scraper fetch URL --ua "Mozilla/5.0..."

Rate Limiting & Ethics

Default: 1 request per second per domain
Respects robots.txt when --polite flag is set
Configurable delay between requests
Stops on 429 (Too Many Requests) and backs off

Error Handling

Error	Behavior
404	Log and skip
403/401	Warn about auth requirement
429	Exponential backoff (max 3 retries)
Timeout	Retry once with longer timeout
SSL error	Warn, option to proceed with `--insecure`

Integration

web-claude: Use as fallback when web_fetch isn't enough
competitor-watch: Feed scraped data into competitor analysis
seo-audit: Scrape competitor pages for SEO comparison
performance-tracker: Collect social metrics from public profiles

数据来源：ClawHub ↗ · 中文优化：龙虾技能库

OpenClaw 技能定制 / 插件定制 / 私有工作流定制

免费技能或插件可能存在安全风险，如需更匹配、更安全的方案，建议联系付费定制

了解定制服务

License

运行时依赖

版本

安装命令 点击复制

技能文档

When to Use

Quick Start

Extraction Modes

Text Mode (default)

Selector Mode

Table Mode

Link Mode

Batch Scraping

Change Monitoring

Output Formats

Headers & Auth

Rate Limiting & Ethics

Error Handling

Integration

安装命令点击复制