📦 火一五 ASR 转写与纪要

v1.0.0

将音频/视频转换为MP3，转录语音为逐字文本和会议记录，解析.tty终端录制为文本，然后格式化结构化输出...

0· 8·0 当前·0 累计

by @zhaobod1 (Job Zhao)

开发工具代码生成数据与API 数据库视频处理

下载技能包

运行时依赖

无特殊依赖

安装命令

点击复制

官方npx clawhub@latest install huo15-openclaw-asr

镜像加速npx clawhub@latest install huo15-openclaw-asr --registry https://cn.longxiaskill.com镜像同步中

需要定制？告诉我你的需求 →

技能文档

OpenClaw 媒体转写与龙虾研判本 skill 指导将音视频或 .tty 转为可用文本，生成原文与纪要，并以固定结构交给 OpenClaw（龙虾）做类型与内容判断。

适用范围与触发输入：mp3、wav、m4a、aac、flac、ogg、mp4、mkv、webm、mov 等常见音视频，或扩展名为 .tty 的文件。输出：规范化文本（原文）、纪要、元数据与待龙虾判断字段。

总流程（决策树）识别输入类型扩展名为 .tty → 走 .tty 分支。其余音视频 → 走音视频分支。

取得原文原文：逐字/逐句转写（openai-whisper 默认 --model base）或从 .tty 提取的可读文本，尽量保留说话人切换线索（若模型支持说话人分离则标注说话人 A/B）。

转写质量判断（仅 Whisper 本地转写时必做）跑完 base 转写后，按转写质量判断与模型升级建议自检；问题多则提示用户改用 small / medium 重跑，通过前不写定稿纪要；问题少再进入下一步。 .tty 文本路径不做 Whisper 质检，直接进入纪要。

生成纪要结构化摘要（见纪要模板），严格基于已通过质检（或无需质检）的原文，不杜撰未出现的信息。

交给龙虾判断使用 OpenClaw 交付块输出；由龙虾结合项目策略做类型判定与后续动作（归档、跟进、敏感内容标记等）。

可选：保存文件（下载文件夹） Whisper 路径：质量判断为「可接受」并完成纪要、交付块之后；.tty 等路径：完成原文、纪要、交付块之后。询问用户是否保存，以及保存格式（Markdown 或 Word）；若同意，按保存文件（下载文件夹）写入。

音视频 → MP3 → 转写

转为 MP3（统一中间格式）

优先使用 ffmpeg（需已安装并在 PATH 中）。 ffmpeg -y -i "INPUT" -vn -acodec libmp3lame -q:a 2 "OUTPUT.mp3" INPUT：任意 ffmpeg 可读音视频路径。 -vn：去掉视频轨，只保留音频。若 libmp3lame 不可用，可改用：-acodec aac -b:a 192k "OUTPUT.m4a"，并在后续转写步骤中改用该中间文件（仍按本 skill 的「原文 + 纪要 + 龙虾块」交付）。

语音转文字（ASR）

按环境选择其一（默认优先本地，避免泄露）：方式说明 Whisper 系 CLI 如 whisper、faster-whisper 等，对 OUTPUT.mp3 跑转写，保存为 txt/srt/vtt。 WhisperX 在 Whisper 类转写之上做词级对齐与可选说话人分离（diarization）；见 WhisperX（说话人分离）。云端 ASR 若用户明确要求或本地不可用，使用用户指定的 API；须注意隐私与合规。

openai-whisper：依赖与首次运行体积预期 pip install openai-whisper 会安装 PyTorch 等依赖，磁盘占用常见为数百 MB 量级，CUDA 版可达约 1GB+（随平台与是否 GPU 版变化）；Whisper 包本身相对较小。首次执行转写时还会按 --model 单独下载权重：本 skill 默认 base（体积常见为约百 MB 量级，以官方缓存为准）；tiny 约 72MB 级；turbo 约 1.5GB 量级，下载与加载都更重，弱配置上易 OOM 或极慢。

Windows：Whisper CLI 与中文控制台（GBK 崩溃）在中文区域设置的 Windows 上，直接运行 whisper --help 或转写时，Python 可能用 GBK 写 stdout，触发 UnicodeEncodeError: 'gbk' codec ...。在同一 PowerShell 会话内先设置再调用 Whisper： $env:PYTHONIOENCODING = "utf-8" whisper --help 转写示例（会话内已设好 PYTHONIOENCODING）；默认模型为 base： whisper "OUTPUT.mp3" --model base --language Chinese

Whisper 模型选择（默认 base，再按质量升降级）默认： openai-whisper CLI 使用 --model base 做首次转写，再进入转写质量判断与模型升级建议。 tiny：约 72MB 级，仅当磁盘/内存极紧、或用户明确要求「先快速试跑」时使用；默认流程不以 tiny 为首选。 turbo：权重大（约 1.5GB），下载与全量加载占用高，易 OOM；仅当机器资源充足且对准确率/速度有更高诉求时再考虑。

WhisperX（说话人分离）当用户需要分说话人的原文（如会议多角色），可选用 WhisperX（Python 库，非 openai-whisper 自带 CLI）。安装 pip install whisperx 仍依赖 PyTorch 等，整体磁盘与首次下载体积与 Whisper 路线同量级，且对齐 / diarization 会再拉取额外权重。

中文对齐（ZH）使用 whisperx.load_align_model(language_code="zh", ...) 时，会自动下载中文 forced alignment 所用模型（首次需联网与足够磁盘）；无需手动另选「ZH 对齐包」路径，但要在 notes_for_openclaw 中注明是否已首次拉取成功。

Diarization（说话人分离）与 HuggingFace 默认：许多 diarization 管线依赖 HuggingFace 已登录（如 huggingface-cli login 或环境变量 HF_TOKEN），否则无法拉取门控模型。不想登录 HF 时：部分场景可尝试将 use_auth_token=False 传给 API（或通过环境变量/封装参数，以当前 WhisperX 版本文档为准）。注意：部分模型在无 token 时不可用或行为异常，若采用此方式，须在交付备注中写明「未使用 HF 门控模型 / 可能降级」。

使用 pyannote/speaker-diarization-3.1（或同类 pyannote 门控模型）：必须先在 HuggingFace 网站对该模型访问条款点击同意，再在本地配置 token 后下载权重；否则拉取会失败。

启用 WhisperX 且带 diarization 时，原文中应显式标注说话人分段（如 SPEAKER_00 / 说话人 A 等与用户对齐的命名）；后续仍执行转写质量判断与模型升级建议（针对合并可读文本与分段合理性），再走纪要、交付块与可选落盘。

转写质量判断与模型升级建议在 openai-whisper 默认 base 模型产出原文后，agent 必须对照下列质量指标做一次快速审查（结合音频时长与领域常识，不必过度纠结单次口误）。若已按建议改用 small / medium 重跑，则对最后一次转写结果重复本审查。

指标说明（出现则计为问题）错译 / 同音错字成片专有名词、数字、单位、人名地名等明显不合理或与音频常识不符乱码与异常符号不可读片段、大量无意义符号、编码异常痕迹无意义重复同一短语/句子异常堆叠，疑似解码或切片错误句意断裂大量不成句碎片、缺主谓宾导致无法理解叙述脉络语言/段落错配明显中英混排错误、段落顺序颠倒、长时间静音被填成幻觉句（若可判断）

分支：问题偏多（多项明显、或严重影响可读性）：不要直接进入纪要定稿与落盘询问；向用户说明命中了哪些指标，并明确建议用更大模型重跑转写，优先顺序 small → medium（资源允许再考虑 large / turbo）。重跑后再次做本表自检。问题偏少（偶发错字、整体可读）：视为通过，进入纪要、OpenClaw 交付块，以及保存文件（下载文件夹）的询问流程。 .tty 纯

数据来源：ClawHub ↗ · 中文优化：龙虾技能库