📦 HN Podcast Transcriber — HN 播客转录员
v1.0.0自动获取、转录和存档Hacker News播客剧集(Hacker News Morning Brief)。当用户想要设置播客转录时使用...
运行时依赖
安装命令
点击复制技能文档
HN 播客转录器 从 Hacker News Morning Brief 播客 RSS 源获取新的集数,使用 Whisper 进行转录,并以可搜索的 markdown 格式存档。 前置条件 whisper CLI 已安装(pip install openai-whisper) ffmpeg 在 PATH 中(whisper 所需;从 https://ffmpeg.org 下载) python3 标准库(fetch 脚本无需额外依赖) 用于音频文件的磁盘空间(每集约 5-10 MB) 快速开始 运行主脚本以获取和转录所有新的集数: bash scripts/fetch_and_transcribe.sh --archive ~/hn-podcast-archive 第一次运行处理所有集数。后续运行仅处理新的集数(通过 state.json 跟踪)。 选项 标志 默认值 描述 --feed URL HN Morning Brief RSS 播客 RSS 源 URL --archive DIR ./hn-podcast-archive 归档根目录 --model MODEL turbo Whisper 模型(tiny/base/small/medium/large/turbo) --limit N 0(所有)每次运行处理的最大新集数 自定义源 指向任何播客 RSS 源: bash scripts/fetch_and_transcribe.sh --feed "https://example.com/podcast/feed.xml" --archive ./my-podcast-archive 调度 设置 OpenClaw cron 作业以进行每日检查: 创建一个隔离的 cron 作业来运行脚本 或在 HEARTBEAT.md 中添加一个心跳检查 归档结构 请参阅 references/archive-layout.md 以获取目录布局和 state.json 模式。 工作流程摘要 下载 RSS 源 → 解析 条目 跳过已处理的集数(state.json 查找) 下载音频(mp3/m4a)到集数目录 运行 whisper 以生成 .txt 转录 生成带有标题 + 日期头部的 cleaned transcript.md 更新 state.json 以包含已处理的集数 ID 注意 Whisper 模型缓存到 ~/.cache/whisper 后第一次下载 使用 --model tiny 以获得速度,使用 --model large 以获得最佳准确性 平均集数(约 6 分钟)使用 turbo 模型在 CPU 上需要约 1-2 分钟 对于 GPU 加速,请安装具有 CUDA 支持的 ffmpeg API、CLI、GitHub 等技术术语保持不变。技能名称和品牌名称保持为英文。