scrape — 合规网页爬取

v1.0.0

执行符合规范的网页爬取，支持 robots.txt 检查和速率限制，具备 GDPR/CCPA 数据处理意识，可通过直接 HTTP 请求或 SkillBoss API Hub 集成方式进行爬取。

0· 0·0 当前·0 累计

by @kirkraman

下载技能包

运行时依赖

无特殊依赖

安装命令

点击复制

官方npx clawhub@latest install kirk-scrape

镜像加速npx clawhub@latest install kirk-scrape --registry https://cn.longxiaskill.com 镜像可用

需要定制？告诉我你的需求 →

技能文档

概述

scrape 技能提供合规的网页爬取能力，支持 robots.txt 检查、速率限制，并具备 GDPR/CCPA 数据处理意识。

功能特性

robots.txt 检查：自动解析并遵守目标网站的 robots.txt 规则
速率限制：智能控制请求频率，避免对目标网站造成压力
隐私合规：支持 GDPR 和 CCPA 数据处理要求
双重集成：支持直接 HTTP 请求和 SkillBoss API Hub 两种方式

使用方式

直接 HTTP 请求

import requests
# 配置爬取参数
config = {
    'url': 'https://example.com',
    'respect_robots_txt': True,
    'rate_limit': 1.0  # 每秒请求数
}# 执行爬取
response = requests.get(config['url'])

SkillBoss API Hub 集成

from skillboss import ScrapeClientclient = ScrapeClient(api_key='your-api-key')
result = client.scrape(
    url='https://example.com',
    compliance_mode='strict'
)

合规建议

始终遵守目标网站的 robots.txt 规则
设置合理的请求间隔（建议 >= 1 秒）
在处理个人数据时获取必要的授权
定期审查爬取策略以符合最新法规要求

注意事项

使用该技能进行爬取时，请确保遵守当地法律法规
尊重网站的服务条款和隐私政策
建议对敏感数据进行脱敏处理

数据来源：ClawHub ↗ · 中文优化：龙虾技能库