whisper-transcribe-summarize — 低声语音转录-总结

v1.0.0

当用户希望在本地运行Whisper、下载Whisper模型到机器、离线转录本地音频或视频文件或避免外部...时，请使用此技能。

0· 0·0 当前·0 累计

by @zhangjinjin-gitgit

开发工具代码生成文件处理视频处理

下载技能包

运行时依赖

无特殊依赖

安装命令

点击复制

官方npx clawhub@latest install whisper-transcribe-summarize

镜像加速npx clawhub@latest install whisper-transcribe-summarize --registry https://cn.longxiaskill.com镜像同步中

需要定制？告诉我你的需求 →

技能文档

本地Whisper转录使用此技能进行完全本地的Whisper转录。

此技能的用途当用户想要以下任一功能时，使用此技能：

下载Whisper模型到本地本地离线运行语音转文字不使用外部API进行ASR 将mp3 / wav / m4a / mp4 / mov转换为文字先下载模型，然后重复使用本地模型捆绑脚本 scripts/download_whisper_model.py scripts/local_whisper_transcribe.py

要求在使用脚本之前，请确保机器具有以下条件：

python3 ffmpeg Python包openai-whisper 如果Whisper未安装，请使用以下命令安装： python3 -m pip install -U openai-whisper

模型下载工作流如果用户想要预下载模型，请运行： python3 scripts/download_whisper_model.py medium

常见模型名称： tiny base small medium large 默认推荐：更快/更轻：base或small 更好的中文质量：medium

脚本将模型下载到标准的本地Whisper缓存目录中。

转录工作流基本用法： python3 scripts/local_whisper_transcribe.py "/path/to/media.mp4" 使用显式模型： python3 scripts/local_whisper_transcribe.py "/path/to/audio.mp3" --model medium 使用输出路径： python3 scripts/local_whisper_transcribe.py "/path/to/audio.mp3" --output "/path/to/result.txt"

媒体处理转录脚本接受音频和视频输入。支持的常见输入包括： .mp3 .wav .m4a .mp4 .mov .mkv .webm Whisper通过ffmpeg读取本地媒体。

输出默认情况下，脚本写入： <源文件名>_whisper.txt 如果提供--output，则写入请求的txt路径。

当用户要求本地转录时验证输入文件是否存在。如果Whisper未安装，请先安装openai-whisper。如果请求的模型尚未缓存，请使用scripts/download_whisper_model.py预下载。在文件上运行scripts/local_whisper_transcribe.py。对转录txt进行基础清理（见下面的“转录txt基础清理”）。报告使用的模型和输出txt路径。默认生成整理稿和总结稿（除非用户明确要求只转录原文）。

转录txt基础清理脚本输出的原始转录往往是繁体、无标点、有重复的粗糙文本。在保存最终转录txt之前，需要对其进行以下基础清理：繁转简：所有繁体中文转为简体中文。加标点分段：补全缺失的标点符号（句号、逗号、问号等），按语义自然分段。去口语赘余：去除明显的口语填充词（"嗯"、"啊"、"就是说"、"然后"等无意义重复）。去ASR重复/幻觉：删除语音识别产生的重复片段（如同一句话连续出现多次）。修正明显错别字：修正语音识别的常见错字（如"维铭"→"文明"、"月签"→"跃迁"）。保留原意：只做清理，不改写、不重组、不删减有意义的内容。清理后的txt仍然是忠实于原始语序的转录文本。清理后的转录txt直接覆盖保存到<源文件名>_whisper.txt。

整理稿工作流转录完成后，默认生成两个文件：整理稿（.txt）和总结稿（.md）。整理稿（.txt）——将口语转录重写为书面文章整理稿不是逐句清理，而是将口语转录完全重写为一篇流畅的书面文章。默认文件名：<源文件名>_整理稿.txt 重写要求去口语化：彻底去除所有口语痕迹——"咱们"、"好的"、"好"、"你们"、"我来说一下"、"那就是"、语气词、重复、卡顿、ASR噪声等全部移除。第三人称视角：原文中的"我"统一改为"导演/作者/分析者"或直接省略，读起来像一篇第三方撰写的专业文章，而非演讲实录。逻辑重组：不必保留原始叙述顺序。将分散在不同位置但主题相关的内容合并到同一段落，按逻辑而非时间线组织。散文体段落：输出为连贯的散文段落（每段3-8句），不用列表/bullet points。段落之间用自然的逻辑过渡衔接。避免"三个功能：第一…第二…第三…"这种清单式写法，改为融入散文句式。添加概括性标题：整篇文章开头给一个概括全文主题的标题（不是文件名）。保留全部分析内容：所有专业术语、技法名称、分析洞见必须完整保留，不能丢失信息。只是换一种更精炼、更书面的方式表达。繁转简：所有繁体中文转为简体中文。修正ASR错误：修正明显的语音识别错字（如"维铭"→"文明"、"月签"→"跃迁"、"族语"→"主语"）。篇幅：整理稿的篇幅通常是原始转录的60%-80%，因为去除了冗余但保留了全部信息。忠于原文：不编造、不添加原文未涉及的信息或观点。

语言风格要求（重要）整理稿的语言质感决定了最终品质。以下是在多轮迭代中总结出的关键标准：语言精简克制：不堆砌修饰词，不过度强调。少用"极为"、"根本"、"本质上"、"非常"等加重词。能一句说清的不用两句。结构标记清晰：使用"第一幕"、"第二幕"等幕次标记，以及"随着"、"之后"、"接下来"、"紧接着"、"至此"等渐进连接词，让读者感受到内容推进的节奏。主题升华：不只描述发生了什么，还要归纳它在全篇中意味着什么。关键段落需要有一句总结性的提炼，将具体分析上升到主题层面。避免过于直白的口语化表达（如"打回石器时代"），改用更有评论质感的书面表达。结尾总结段：整篇文章最后需要一段跳出具体分析、对全篇做整体评价的收束段落。总结应回扣主题，并给出提炼性的结论。段落饱满：每个段落应完整发展一个想法后再换段，避免1-2句就分段。相邻的小观点应揉进同一段落形成连贯论述。最终效果：读起来像一篇独立撰写的专业分析文章，而非"清洗过的转录稿"或"分析报告"。

总结稿（.md + .html）——结构化摘要在整理稿基础上，生成一份结构化的总结。同时输出.html版本方便浏览器直接查看。默认文件名：<源文件名>_总结稿.md <源文件名>_总结稿.html（从.md自动转换）

总结稿格式要求顶部用引用块写一句话概括全文主题关键术语和核心结论用加粗高亮用---分割线划分大区块，增强视觉层次章节标题用###第X幕 | 标题格式原文摘录中的关键词也做加粗处理 # 标题

一句话概括：全文主题的精炼总结

---

核心摘要

要点一：简明结论
要点二：简明结论

---

结构拆解

第一幕 | 章节标题

关键点加粗高亮，其余正常
每条bullet简明扼要

---

关键观点

1. 观点标题

简洁解释，核心结论加粗。 ---

对应原文摘录

原文片段，关键词加粗

数据来源：ClawHub ↗ · 中文优化：龙虾技能库