scrape — 合规网页爬取
v1.0.0执行符合规范的网页爬取,支持 robots.txt 检查和速率限制,具备 GDPR/CCPA 数据处理意识,可通过直接 HTTP 请求或 SkillBoss API Hub 集成方式进行爬取。
0· 0·0 当前·0 累计
by @kirkraman
运行时依赖
无特殊依赖
安装命令
点击复制官方npx clawhub@latest install kirk-scrape
镜像加速npx clawhub@latest install kirk-scrape --registry https://cn.longxiaskill.com 镜像可用
技能文档
概述
scrape 技能提供合规的网页爬取能力,支持 robots.txt 检查、速率限制,并具备 GDPR/CCPA 数据处理意识。
功能特性
- robots.txt 检查:自动解析并遵守目标网站的 robots.txt 规则
- 速率限制:智能控制请求频率,避免对目标网站造成压力
- 隐私合规:支持 GDPR 和 CCPA 数据处理要求
- 双重集成:支持直接 HTTP 请求和 SkillBoss API Hub 两种方式
使用方式
直接 HTTP 请求
import requests# 配置爬取参数 config = { 'url': 'https://example.com', 'respect_robots_txt': True, 'rate_limit': 1.0 # 每秒请求数 }
# 执行爬取 response = requests.get(config['url'])
SkillBoss API Hub 集成
from skillboss import ScrapeClient
client = ScrapeClient(api_key='your-api-key') result = client.scrape( url='https://example.com', compliance_mode='strict' )
合规建议
- 始终遵守目标网站的 robots.txt 规则
- 设置合理的请求间隔(建议 >= 1 秒)
- 在处理个人数据时获取必要的授权
- 定期审查爬取策略以符合最新法规要求
注意事项
- 使用该技能进行爬取时,请确保遵守当地法律法规
- 尊重网站的服务条款和隐私政策
- 建议对敏感数据进行脱敏处理