运行时依赖
安装命令
点击复制技能文档
OpenClaw 媒体转写与龙虾研判 本 skill 指导将音视频或 .tty 转为可用文本,生成原文与纪要,并以固定结构交给 OpenClaw(龙虾)做类型与内容判断。
适用范围与触发 输入:mp3、wav、m4a、aac、flac、ogg、mp4、mkv、webm、mov 等常见音视频,或扩展名为 .tty 的文件。 输出:规范化文本(原文)、纪要、元数据与待龙虾判断字段。
总流程(决策树) 识别输入类型 扩展名为 .tty → 走 .tty 分支。 其余音视频 → 走音视频分支。
取得原文 原文:逐字/逐句转写(openai-whisper 默认 --model base)或从 .tty 提取的可读文本,尽量保留说话人切换线索(若模型支持说话人分离则标注说话人 A/B)。
转写质量判断(仅 Whisper 本地转写时必做) 跑完 base 转写后,按转写质量判断与模型升级建议自检;问题多则提示用户改用 small / medium 重跑,通过前不写定稿纪要;问题少再进入下一步。 .tty 文本路径不做 Whisper 质检,直接进入纪要。
生成纪要 结构化摘要(见纪要模板),严格基于已通过质检(或无需质检)的原文,不杜撰未出现的信息。
交给龙虾判断 使用 OpenClaw 交付块输出;由龙虾结合项目策略做类型判定与后续动作(归档、跟进、敏感内容标记等)。
可选:保存文件(下载文件夹) Whisper 路径:质量判断为「可接受」并完成纪要、交付块之后;.tty 等路径:完成原文、纪要、交付块之后。询问用户是否保存,以及保存格式(Markdown 或 Word);若同意,按保存文件(下载文件夹)写入。
音视频 → MP3 → 转写
- 转为 MP3(统一中间格式)
- 语音转文字(ASR)
openai-whisper: 依赖与首次运行体积预期 pip install openai-whisper 会安装 PyTorch 等依赖,磁盘占用常见为数百 MB 量级,CUDA 版可达约 1GB+(随平台与是否 GPU 版变化);Whisper 包本身相对较小。 首次执行转写时还会按 --model 单独下载权重: 本 skill 默认 base(体积常见为约百 MB 量级,以官方缓存为准);tiny 约 72MB 级;turbo 约 1.5GB 量级,下载与加载都更重,弱配置上易 OOM 或极慢。
Windows:Whisper CLI 与中文控制台(GBK 崩溃) 在中文区域设置的 Windows 上,直接运行 whisper --help 或转写时,Python 可能用 GBK 写 stdout,触发 UnicodeEncodeError: 'gbk' codec ...。 在同一 PowerShell 会话内先设置再调用 Whisper: $env:PYTHONIOENCODING = "utf-8" whisper --help 转写示例(会话内已设好 PYTHONIOENCODING);默认模型为 base: whisper "OUTPUT.mp3" --model base --language Chinese
Whisper 模型选择(默认 base,再按质量升降级) 默认: openai-whisper CLI 使用 --model base 做首次转写,再进入转写质量判断与模型升级建议。 tiny: 约 72MB 级,仅当磁盘/内存极紧、或用户明确要求「先快速试跑」时使用;默认流程不以 tiny 为首选。 turbo: 权重大(约 1.5GB),下载与全量加载占用高,易 OOM;仅当机器资源充足且对准确率/速度有更高诉求时再考虑。
WhisperX(说话人分离) 当用户需要分说话人 的原文(如会议多角色),可选用 WhisperX(Python 库,非 openai-whisper 自带 CLI)。 安装 pip install whisperx 仍依赖 PyTorch 等,整体磁盘与首次下载体积与 Whisper 路线同量级,且对齐 / diarization 会再拉取额外权重。
中文对齐(ZH) 使用 whisperx.load_align_model(language_code="zh", ...) 时,会自动下载中文 forced alignment 所用模型(首次需联网与足够磁盘);无需手动另选「ZH 对齐包」路径,但要在 notes_for_openclaw 中注明是否已首次拉取成功。
Diarization(说话人分离)与 HuggingFace 默认: 许多 diarization 管线依赖 HuggingFace 已登录(如 huggingface-cli login 或环境变量 HF_TOKEN),否则无法拉取门控模型。 不想登录 HF 时: 部分场景可尝试将 use_auth_token=False 传给 API(或通过环境变量/封装参数,以当前 WhisperX 版本文档为准)。注意:部分模型在无 token 时不可用或行为异常,若采用此方式,须在交付备注中写明「未使用 HF 门控模型 / 可能降级」。
使用 pyannote/speaker-diarization-3.1(或同类 pyannote 门控模型): 必须先在 HuggingFace 网站对该模型访问条款点击同意,再在本地配置 token 后下载权重;否则拉取会失败。
启用 WhisperX 且带 diarization 时,原文中应显式标注说话人分段(如 SPEAKER_00 / 说话人 A 等与用户对齐的命名);后续仍执行转写质量判断与模型升级建议(针对合并可读文本与分段合理性),再走纪要、交付块与可选落盘。
转写质量判断与模型升级建议 在 openai-whisper 默认 base 模型产出原文后,agent 必须对照下列质量指标做一次快速审查(结合音频时长与领域常识,不必过度纠结单次口误)。若已按建议改用 small / medium 重跑,则对最后一次转写结果重复本审查。
指标 说明(出现则计为问题) 错译 / 同音错字成片 专有名词、数字、单位、人名地名等明显不合理或与音频常识不符 乱码与异常符号 不可读片段、大量无意义符号、编码异常痕迹 无意义重复 同一短语/句子异常堆叠,疑似解码或切片错误 句意断裂 大量不成句碎片、缺主谓宾导致无法理解叙述脉络 语言/段落错配 明显中英混排错误、段落顺序颠倒、长时间静音被填成幻觉句(若可判断)
分支: 问题偏多(多项明显、或严重影响可读性): 不要直接进入纪要定稿与落盘询问;向用户说明命中了哪些指标,并明确建议用更大模型重跑转写,优先顺序 small → medium(资源允许再考虑 large / turbo)。重跑后再次做本表自检。 问题偏少(偶发错字、整体可读): 视为通过,进入纪要、OpenClaw 交付块,以及保存文件(下载文件夹)的询问流程。 .tty 纯