Facebook Scraper — Facebook 页面和群组爬虫

Name: Facebook Scraper — Facebook 页面和群组爬虫
Rating: 6

v0.1.2

通过浏览器模拟和地理位置、类别发现公共 Facebook 页面和群组，支持 JSON/CSV 导出。注意：使用前请确认合规性和安全风险。

6· 953·2 当前·2 累计

by @arulmozhiv (ArulmozhiV)·MIT-0

浏览器自动化数据分析安全

下载技能包

License

MIT-0

最后更新

2026/4/12

安全扫描

VirusTotal

可疑

查看报告

OpenClaw

可疑

medium confidence

该技能需要 Python、Chromium、Facebook 账户凭据、Google API 密钥和代理凭据，但注册元数据未声明这些依赖项或秘密，存在安全风险，使用前需澄清。

评估建议

此技能可能侵犯隐私，仅在隔离环境（VM/容器）运行，避免提供真实个人或高权限凭据。同时，注意 Facebook 条款和当地法律风险。使用前请向发布者询问：（1）源代码或可复制的安装脚本；（2）环境变量列表和凭据存储方式；（3）可靠的安装规范；（4）安全的身份验证处理方式。...

详细分析 ▾

⚠ 用途与能力

SKILL.md 声明运行时要求（在其前置物中）python3 和 chromium，并描述 Playwright 风格的浏览器爬取、指纹识别和下载缩略图。

⚠ 指令范围

运行时指令指导代理发现和爬取 Facebook 页面/群组，下载缩略图，在 data/queue 和 data/output 中持久化队列/输出文件，并处理 Facebook 登录流和验证码。

⚠ 安装机制

注册表中没有安装规范（仅指令）。

⚠ 凭证需求

尽管技能的操作逻辑上需要 Facebook 账户凭据（用于登录流）、可选 Google API 密钥/搜索引擎 ID 和可能的代理凭据，但注册表未声明任何必需的环境变量或主凭据。

✓ 持久化与权限

该技能不请求 always:true，默认为用户可调用。

安全有层次，运行前请审查代码。

License

MIT-0

可自由使用、修改和再分发，无需署名。

查看条款 ↗

运行时依赖

无特殊依赖

版本

latestv0.1.22026/2/24

facebook-scraper 0.1.2 - 更新 SKILL.md 文档，无功能或特性变化。

● 可疑

安装命令

点击复制

官方npx clawhub@latest install facebook-scraper

镜像加速npx clawhub@latest install facebook-scraper --registry https://cn.longxiaskill.com 镜像可用

需要定制？告诉我你的需求 →

技能文档

来自 ScrapeClaw — 一套生产就绪的代理式社交媒体抓取工具，支持 Instagram、YouTube、X/Twitter 和 Facebook，基于 Python 和 Playwright 构建，无需 API 密钥。

基于浏览器的 Facebook 页面和群组发现及抓取工具。

概述

此技能提供两阶段 Facebook 抓取系统：

页面/群组发现
浏览器抓取

功能

🔍 - 按位置和类别发现 Facebook 页面和群组
🌐 - 完整浏览器模拟，精确抓取
🛡️ - 浏览器指纹、人类行为模拟和隐形脚本
📊 - 页面/群组信息、统计、图片和互动数据
💾 - JSON/CSV 导出，附带下载的缩略图
🔄 - 恢复中断的抓取会话
⚡ - 自动跳过私密群组、低赞页面和空档案
📂 - 通过 --type 标志支持页面、群组和公开档案

获取 Google API 凭证（可选）

前往 Google Cloud Console
创建新项目或选择现有项目
启用"Custom Search API"
创建 API 凭证 → API 密钥
前往 Programmable Search Engine
创建搜索引擎，以 facebook.com 为搜索站点
复制搜索引擎 ID

使用方法

代理工具接口

对于 OpenClaw 代理集成，此技能提供 JSON 输出：

# 发现 Facebook 页面（返回 JSON） discover --location "Miami" --category "restaurant" --type page --output json # 发现 Facebook 群组（返回 JSON） discover --location "New York" --category "fitness" --type group --output json # 抓取单个页面（返回 JSON） scrape --page-name examplebusiness --output json

# 抓取单个群组（返回 JSON） scrape --page-name examplegroup --type group --output json

输出数据

页面/群组数据结构

{
  "page_name": "example_business",
  "display_name": "Example Business",
  "entity_type": "page",
  "category": "Restaurant",
  "subcategory": "Italian Restaurant",
  "about": "Family-owned Italian restaurant since 1985",
  "followers": 45000,
  ...
}

安装

# 克隆仓库 git clone https://github.com/influenza-0/facebook-scraper.git cd facebook-scraper

# 安装依赖 pip install -r requirements.txt

配置

环境变量

# 可选：Google API 凭证（用于高级发现） export GOOGLE_API_KEY="your_api_key" export GOOGLE_CSE_ID="your_cse_id"

# 可选：代理 export HTTP_PROXY="http://proxy:port" export HTTPS_PROXY="http://proxy:port"

运行发现

# 按位置发现页面 python -m src.main discover --location "Los Angeles" --category "restaurant" --type page

# 按类别发现群组 python -m src.main discover --location "San Francisco" --category "technology" --type group

运行抓取

# 抓取页面 python -m src.main scrape --page-name examplebusiness --type page

# 抓取群组 python -m src.main scrape --page-name examplegroup --type group

输出格式

JSON 输出

python -m src.main scrape --page-name examplebusiness --output json

生成 data/output/examplebusiness.json

CSV 输出

python -m src.main scrape --page-name examplebusiness --output csv

生成 data/output/examplebusiness.csv

高级选项

缩略图下载

python -m src.main scrape --page-name examplebusiness --download-thumbnails

恢复中断的会话

python -m src.main scrape --page-name examplebusiness --resume

过滤选项

# 跳过低赞页面 python -m src.main discover --location "Miami" --category "restaurant" --min-likes 1000

# 跳过私密群组 python -m src.main discover --location "New York" --category "fitness" --skip-private

注意事项

此工具仅用于抓取公开可访问的内容
请遵守 Facebook 的服务条款
大规模抓取可能导致 IP 被封，建议使用代理
建议在非高峰时段运行

故障排除

浏览器启动失败

确保已安装 Chromium：

playwright install chromium

被检测到为机器人

使用 --stealth 模式
添加延迟：--delay 2
使用代理：--proxy http://proxy:port

无内容返回

检查页面/群组名称是否正确
确认页面/群组是公开的
尝试使用不同位置或类别

License

运行时依赖

版本

安装命令

技能文档

概述

功能

获取 Google API 凭证（可选）

使用方法

代理工具接口

输出数据

页面/群组数据结构

安装

配置

环境变量

运行发现

运行抓取

输出格式

JSON 输出

CSV 输出

高级选项

缩略图下载

恢复中断的会话

过滤选项

注意事项

故障排除

浏览器启动失败

被检测到为机器人

无内容返回

相关技能推荐