whisper-transcribe-summarize — 低声语音转录-总结
v1.0.0当用户希望在本地运行Whisper、下载Whisper模型到机器、离线转录本地音频或视频文件或避免外部...时,请使用此技能。
运行时依赖
安装命令
点击复制技能文档
本地Whisper转录 使用此技能进行完全本地的Whisper转录。
此技能的用途 当用户想要以下任一功能时,使用此技能:
下载Whisper模型到本地 本地离线运行语音转文字 不使用外部API进行ASR 将mp3 / wav / m4a / mp4 / mov转换为文字 先下载模型,然后重复使用本地模型 捆绑脚本 scripts/download_whisper_model.py scripts/local_whisper_transcribe.py
要求 在使用脚本之前,请确保机器具有以下条件:
python3 ffmpeg Python包openai-whisper 如果Whisper未安装,请使用以下命令安装: python3 -m pip install -U openai-whisper
模型下载工作流 如果用户想要预下载模型,请运行: python3 scripts/download_whisper_model.py medium
常见模型名称: tiny base small medium large 默认推荐: 更快/更轻:base或small 更好的中文质量:medium
脚本将模型下载到标准的本地Whisper缓存目录中。
转录工作流 基本用法: python3 scripts/local_whisper_transcribe.py "/path/to/media.mp4" 使用显式模型: python3 scripts/local_whisper_transcribe.py "/path/to/audio.mp3" --model medium 使用输出路径: python3 scripts/local_whisper_transcribe.py "/path/to/audio.mp3" --output "/path/to/result.txt"
媒体处理 转录脚本接受音频和视频输入。 支持的常见输入包括: .mp3 .wav .m4a .mp4 .mov .mkv .webm Whisper通过ffmpeg读取本地媒体。
输出 默认情况下,脚本写入: <源文件名>_whisper.txt 如果提供--output,则写入请求的txt路径。
当用户要求本地转录时 验证输入文件是否存在。 如果Whisper未安装,请先安装openai-whisper。 如果请求的模型尚未缓存,请使用scripts/download_whisper_model.py预下载。 在文件上运行scripts/local_whisper_transcribe.py。 对转录txt进行基础清理(见下面的“转录txt基础清理”)。 报告使用的模型和输出txt路径。 默认生成整理稿和总结稿(除非用户明确要求只转录原文)。
转录txt基础清理 脚本输出的原始转录往往是繁体、无标点、有重复的粗糙文本。 在保存最终转录txt之前,需要对其进行以下基础清理: 繁转简:所有繁体中文转为简体中文。 加标点分段:补全缺失的标点符号(句号、逗号、问号等),按语义自然分段。 去口语赘余:去除明显的口语填充词("嗯"、"啊"、"就是说"、"然后"等无意义重复)。 去ASR重复/幻觉:删除语音识别产生的重复片段(如同一句话连续出现多次)。 修正明显错别字:修正语音识别的常见错字(如"维铭"→"文明"、"月签"→"跃迁")。 保留原意:只做清理,不改写、不重组、不删减有意义的内容。 清理后的txt仍然是忠实于原始语序的转录文本。 清理后的转录txt直接覆盖保存到<源文件名>_whisper.txt。
整理稿工作流 转录完成后,默认生成两个文件:整理稿(.txt)和总结稿(.md)。 整理稿(.txt)——将口语转录重写为书面文章 整理稿不是逐句清理,而是将口语转录完全重写为一篇流畅的书面文章。 默认文件名:<源文件名>_整理稿.txt 重写要求 去口语化:彻底去除所有口语痕迹——"咱们"、"好的"、"好"、"你们"、"我来说一下"、"那就是"、语气词、重复、卡顿、ASR噪声等全部移除。 第三人称视角:原文中的"我"统一改为"导演/作者/分析者"或直接省略,读起来像一篇第三方撰写的专业文章,而非演讲实录。 逻辑重组:不必保留原始叙述顺序。 将分散在不同位置但主题相关的内容合并到同一段落,按逻辑而非时间线组织。 散文体段落:输出为连贯的散文段落(每段3-8句),不用列表/bullet points。 段落之间用自然的逻辑过渡衔接。 避免"三个功能:第一…第二…第三…"这种清单式写法,改为融入散文句式。 添加概括性标题:整篇文章开头给一个概括全文主题的标题(不是文件名)。 保留全部分析内容:所有专业术语、技法名称、分析洞见必须完整保留,不能丢失信息。 只是换一种更精炼、更书面的方式表达。 繁转简:所有繁体中文转为简体中文。 修正ASR错误:修正明显的语音识别错字(如"维铭"→"文明"、"月签"→"跃迁"、"族语"→"主语")。 篇幅:整理稿的篇幅通常是原始转录的60%-80%,因为去除了冗余但保留了全部信息。 忠于原文:不编造、不添加原文未涉及的信息或观点。
语言风格要求(重要) 整理稿的语言质感决定了最终品质。 以下是在多轮迭代中总结出的关键标准: 语言精简克制:不堆砌修饰词,不过度强调。 少用"极为"、"根本"、"本质上"、"非常"等加重词。 能一句说清的不用两句。 结构标记清晰:使用"第一幕"、"第二幕"等幕次标记,以及"随着"、"之后"、"接下来"、"紧接着"、"至此"等渐进连接词,让读者感受到内容推进的节奏。 主题升华:不只描述发生了什么,还要归纳它在全篇中意味着什么。 关键段落需要有一句总结性的提炼,将具体分析上升到主题层面。 避免过于直白的口语化表达(如"打回石器时代"),改用更有评论质感的书面表达。 结尾总结段:整篇文章最后需要一段跳出具体分析、对全篇做整体评价的收束段落。 总结应回扣主题,并给出提炼性的结论。 段落饱满:每个段落应完整发展一个想法后再换段,避免1-2句就分段。 相邻的小观点应揉进同一段落形成连贯论述。 最终效果:读起来像一篇独立撰写的专业分析文章,而非"清洗过的转录稿"或"分析报告"。
总结稿(.md + .html)——结构化摘要 在整理稿基础上,生成一份结构化的总结。 同时输出.html版本方便浏览器直接查看。 默认文件名:<源文件名>_总结稿.md <源文件名>_总结稿.html(从.md自动转换)
总结稿格式要求 顶部用引用块写一句话概括全文主题 关键术语和核心结论用加粗高亮 用---分割线划分大区块,增强视觉层次 章节标题用###第X幕 | 标题格式 原文摘录中的关键词也做加粗处理 # 标题
一句话概括:全文主题的精炼总结---
核心摘要
- 要点一:简明结论
- 要点二:简明结论
结构拆解
第一幕 | 章节标题
- 关键点加粗高亮,其余正常
- 每条bullet简明扼要
关键观点
1. 观点标题
简洁解释,核心结论加粗。 ---对应原文摘录
原文片段,关键词加粗