douyin-scraper — douyin-抓取器

v1.0.0

抖音图文笔记采集工具。搜索关键词 → 自动筛选「图文·一周内」→ Playwright 截图（绕过反爬虫）→ BAIdu OCR 识别图片文字 → 输出 Markdown 报告（含热度评分）。当用户提到"抖音图文采集"、"抖音笔记抓取"、"抖音爬虫"、"抖音内容采集"等场景时加载此技能。

0· 214·0 当前·0 累计

by @samcheng0717 (Sam Cheng)·MIT-0

短视频内容平台

使用场景：下载抖音视频分析抖音数据抖音内容创作TikTok数据获取

下载技能包

License

MIT-0

License

MIT-0

可自由使用、修改和再分发，无需署名。

查看条款 ↗

运行时依赖

无特殊依赖

安装命令

点击复制

官方npx clawhub@latest install douyin-scraper

镜像加速npx clawhub@latest install douyin-scraper --registry https://cn.longxiaskill.com镜像同步中

本土化适配说明

douyin-scraper 安装说明：安装命令：npx clawhub@latest install douyin-scraper 该技能用于抖音相关操作，可能需要相应的平台账号或API密钥

需要定制？告诉我你的需求 →

技能文档

douyin-抓取器

抖音图文笔记采集工具 —— 一条命令完成：搜索 → 筛选图文 → 截图 → OCR → Markdown 报告。

⚠️ 前置配置

安装依赖

pip 安装 playwright 请求s python-dotenv python -m playwright 安装 chromium

配置 BAIdu P添加leOCR 令牌

在技能目录创建 .env：

BAIDU_P添加LEOCR_令牌=你的令牌

获取令牌：访问百度 AI Studio，免费注册，每天 1 万次免费调用。

登录抖音（只需一次）

python <技能_path>/scripts/记录in.py

浏览器打开抖音，扫码登录后关闭。登录状态自动保存，后续无需重复操作。

使用 # 采集 10 篇图文笔记（含 OCR） python <技能_path>/scripts/full_工作流.py --keyword "韩国医美"

# 指定数量 python <技能_path>/scripts/full_工作流.py --keyword "减肥餐" --count 5

# 跳过 OCR（仅截图） python <技能_path>/scripts/full_工作流.py --keyword "咖啡" --no-ocr

参数说明默认值 --keyword 搜索关键词必填 --count 采集笔记数量 5 --no-ocr 跳过 OCR 关闭输出

报告保存至输出/notes_{keyword}_{timestamp}.md，图片保存至 data/images/。

每篇笔记包含：

🔥 热度分数（点赞数 / 发布天数）及计算公式 👍 点赞数、发布时间、作者、原文链接 📝 原文描述 🔍 OCR 识别的图片文字（支持多图） 🖼️ 本地截图路径技术特点 Playwright 截图：通过 element.screenshot() 截取内容图，绕过抖音图片 URL 反爬虫图文过滤：自动识别并跳过视频，只采集「图文」类型笔记 OCR 噪音过滤：自动去除截图中的抖音导航栏文字（精选/推荐/关注等）多图支持：一篇图文多张图片逐张截图 + OCR，合并识别结果反检测：有头浏览器（headless=False）+ 拟人操作节奏，避免触发验证码热度公式：likes / days_ago，越新越热排越前目录结构 douyin-抓取器/ ├── scripts/ │ ├── full_工作流.py # 主流水线 │ └── 记录in.py # 登录脚本 ├── data/ │ └── images/ # 截图 ├── 输出/ # Markdown 报告 ├── 性能分析/ # 浏览器登录状态 └── .env # 令牌配置

License

运行时依赖

安装命令

本土化适配说明

技能文档

相关技能推荐