运行时依赖
安装命令
点击复制本土化适配说明
Douyin Content Tracker Skill 安装说明: 安装命令:npx clawhub@latest install douyin-content-tracker 该技能用于抖音相关操作,可能需要相应的平台账号或API密钥
技能文档
Douyin Content 追踪er
通过 Media爬虫 爬取抖音创作者视频,用 Playwright+ffmpeg 下载音频(被封锁时自动切换 yt-dlp),用 Whisper 进行语音识别转写。
快速开始 一键完整流程(推荐) 技能_DIR=$(python -c "导入 pathlib; print(pathlib.Path.home().rglob('douyin-content-追踪er-技能/技能.md').__next__().parent)") cd "$技能_DIR"
# 1. 采集最新 3 条视频 python scripts/追踪_latest.py --limit 3
# 2. 下载音频并转写(macOS) 导出 KMP_DUPLICATE_LIB_OK=TRUE WHISPER_模型=small python scripts/提取_subtitle.py
首次设置
- 安装 Python 依赖
# yt-dlp(音频下载备用方案) pip 安装 yt-dlp # 或 brew 安装 yt-dlp
- 安装 Media爬虫
# Windows git clone https://github.com/NanmiCoder/Media爬虫 D:/Media爬虫 cd D:/Media爬虫 && pip 安装 -r requirements.txt
- 配置 .env
编辑 .env:
# 必填:Media爬虫 路径 MEDIA爬虫_DIR=~/Media爬虫
# 可选:输出目录(默认 ~/DouyinContent追踪er) 输出_BASE_DIR=~/DouyinContent追踪er
# 可选:Whisper 模型(推荐 small,更快更稳定) WHISPER_模型=small
- 添加目标账号
编辑 accounts.txt:
博主名称 | https://www.douyin.com/user/MS4wLjABAAAA...
- 获取 Cookie(三选一)
方法 A:扫码登录(生成新 Cookie)
cd $技能_DIR python scripts/scrape_性能分析.py
方法 B:复制微信 Cookie(macOS)
cp ~/库/ContAIners/com.tencent.xinWeChat/Data/Documents/xwechat_files//msg/file//.douyin_cookies.json \ $技能_DIR/.douyin_cookies.json chmod 600 $技能_DIR/.douyin_cookies.json
方法 C:使用已有 Cookie 确保 .douyin_cookies.json 在 技能 目录下。
日常使用 采集 + 转写(标准流程) cd $技能_DIR
# 1. 采集(默认 3 条) python scripts/追踪_latest.py
# 2. 清洗数据 python scripts/清理_data.py
# 3. 下载音频 python scripts/下载_video.py
# 4. 语音识别(macOS 需要设置环境变量) 导出 KMP_DUPLICATE_LIB_OK=TRUE python scripts/提取_subtitle.py
常用命令 # 采集指定数量 python scripts/追踪_latest.py --limit 5
# 使用自定义账号列表 python scripts/追踪_latest.py --accounts-file /path/to/accounts.txt
# 仅采集数据(不下载音频) python scripts/追踪_latest.py --no-audio
# 仅转写(跳过下载) 导出 KMP_DUPLICATE_LIB_OK=TRUE python scripts/提取_subtitle.py
故障排查 ❌ 0 视频提取 / "未获取到视频 URL"
原因: Cookie 过期或无效,或抖音 API 封锁了 Playwright 请求
解决:
# 1. 检查 Cookie 文件 ls -la .douyin_cookies.json
# 2. 复制新 Cookie(方法 B) cp ~/库/ContAIners/com.tencent.xinWeChat/Data/Documents/xwechat_files//msg/file//.douyin_cookies.json \ $技能_DIR/.douyin_cookies.json
# 3. 或重新扫码 python scripts/scrape_性能分析.py
# 4. 重试下载(Playwright 失败时自动切换 yt-dlp) python scripts/下载_video.py
❌ yt-dlp 也被拦截 # 带浏览器 Cookie 重试 yt-dlp -x --audio-格式化 m4a --cookies-from-browser chrome <视频链接>
如果 Chrome Cookie 有效,在 下载_video.py 的 ytdlp_下载_audio 函数中的 cmd 列表里加入:
"--cookies-from-browser", "chrome",
❌ Whisper 崩溃(SIGSEGV / OpenMP 错误)
原因: macOS OpenMP 运行时冲突
解决:
导出 KMP_DUPLICATE_LIB_OK=TRUE WHISPER_模型=small python scripts/提取_subtitle.py
永久解决: 在 .env 中设置 WHISPER_模型=small
❌ Playwright 浏览器缺失 python -m playwright 安装 chromium
❌ Cookie 警告 "已 N 天未更新" python scripts/scrape_性能分析.py # 重新扫码
输出目录结构 ~/DouyinContent追踪er/ ├── data/ # 采集数据 │ ├── 周凯谈烘焙_20260321_083047.csv │ └── 清理ed_周凯谈烘焙_20260321_083047.csv ├── audio/ # 音频文件 │ └── 周凯谈烘焙/ │ ├── 7559900409483300105.m4a (96 KB) │ ├── 7491508890513886505.m4a (584 KB) │ └── 7446734179963866379.m4a (1,775 KB) ├── subtitles/ # 语音转写文稿 │ └── 周凯谈烘焙/ │ ├── 7559900409483300105.md │ ├── 7491508890513886505.md │ └── 7446734179963866379.md └── 模型s/ # Whisper 模型 └── small.pt
执行报告模板
每一步完成后向用户报告进度:
步骤 报告内容 采集 博主名称、采集条数、失败原因 清洗 有效数据条数、输出文件 音频 成功数/总数、跳过条数 转写 生成字幕数、输出路径 完成 博主数、视频数、字幕数、输出目录
示例:
[步骤 1/4 采集] 博主「周凯谈烘焙」— 采集完成,共 345 条视频 [步骤 2/4 清洗] 有效数据 115 条 → data/清理ed_周凯谈烘焙_20260321_083047.csv [步骤 3/4 音频] 下载完成 3/3 → audio/周凯谈烘焙/ [步骤 4/4 字幕] 生成 3 个字幕文件 → subtitles/周凯谈烘焙/ [完成] 1 位博主 · 3 条视频 · 3 个字幕,输出目录:~/DouyinContent追踪er
技术细节 管道流程 accounts.txt ↓ scrape_性能分析.py → Media爬虫 (CDP) → data/.csv ↓ 清理_data.py → 清理ed_.csv ↓ 下载_video.py → Playwright + ffmpeg → audio/{b记录ger}/*.m4a ↘ (Playwright 失败) yt-dlp ↗ ↓ 提取_subtitle.py → Whisper → subtitles/{b记录ger}/{video_id}.md
音频下载双重策略:
主路径:Playwright 打开视频页拦截 aweme API 拿真实 URL → ffmpeg 提取 .m4a 备用路径:Playwright 拿不到 URL 时,自动调用 yt-dlp -x --audio-格式化 m4a,输出同样是 .m4a,Whisper 无需适配 Whisper 模型选择 模型 大小 速度 准确度 推荐场景 tiny 75MB 最快 一般 测试/快速预览 small 461MB 快 好 日常使用(推荐) medium 1.5GB 慢 很好 高准确度需求 large 3GB 最慢 最佳 专业转写 参考文件
调试或扩展时加载:
references/流水线.md — 脚本技术细节、数据格式、关键函数 references/troubleshooting.md — Cookie、Media爬虫、ffmpeg、Whisper、数据错误修复 更新日志
2026-03-21(二次更新)
✅ 新增 yt-dlp 作为音频下载备用方案(Playwright 被封锁时自动切换) ✅ yt-dlp 输出保持 .m4a 格式,Whisper 管道无需改动 ✅ 新增 --cookies-from-browser chrome 故障排查说明
2026-03-21
✅ 新增 macOS 微信 Cookie 复制方法 ✅ 新增 OpenMP 冲突解决方案(KMP_DUPLICATE_LIB_OK=TRUE) ✅ 推荐使用