speech2text

v1.0.0

Automatically converts speech messages in ogg/wav/mp3/m4a 格式化s to text using offline Faster-Whisper with ffmpeg 格式化 conversion.

0· 182·0 当前·0 累计

by @lqwall26·MIT-0

数据与API 数据库即时通讯视频处理微信

下载技能包

License

MIT-0

License

MIT-0

可自由使用、修改和再分发，无需署名。

查看条款 ↗

运行时依赖

无特殊依赖

安装命令

点击复制

官方npx clawhub@latest install speech2text

镜像加速npx clawhub@latest install speech2text --registry https://cn.longxiaskill.com镜像同步中

需要定制？告诉我你的需求 →

技能文档

STT - 语音识别 (Speech-to-Text)

将语音消息识别为文字。支持 ogg/wav/mp3/m4a 格式。

触发方式用户发送语音消息时自动触发或者手动调用技能功能自动识别语音 - 收到语音消息时自动转文字离线识别 - 使用 Faster-Whisper，无需网络格式转换 - 自动用 ffmpeg 转换音频格式依赖 Python 包: faster-whisper, pydub ffmpeg: C:\ffmpeg\bin (需要在系统 PATH 中) 安装 pip 安装 faster-whisper pydub

使用示例用户发送语音 → 自动识别为文字 → 根据文字内容回复

配置模型大小: tiny (可改为 base/small/medium/large，精度更高但更慢) 默认语言: zh (中文) ffmpeg 路径: C:\ffmpeg\bin 原理接收语音文件 (ogg) 用 ffmpeg 转换为 wav (16000Hz, mono) 用 Faster-Whisper 识别为文字返回识别结果并继续对话

数据来源：ClawHub ↗ · 中文优化：龙虾技能库