运行时依赖
无特殊依赖
安装命令
点击复制官方npx clawhub@latest install speech2text
镜像加速npx clawhub@latest install speech2text --registry https://cn.longxiaskill.com镜像同步中
技能文档
STT - 语音识别 (Speech-to-Text)
将语音消息识别为文字。支持 ogg/wav/mp3/m4a 格式。
触发方式 用户发送语音消息时自动触发 或者手动调用 技能 功能 自动识别语音 - 收到语音消息时自动转文字 离线识别 - 使用 Faster-Whisper,无需网络 格式转换 - 自动用 ffmpeg 转换音频格式 依赖 Python 包: faster-whisper, pydub ffmpeg: C:\ffmpeg\bin (需要在系统 PATH 中) 安装 pip 安装 faster-whisper pydub
使用示例 用户发送语音 → 自动识别为文字 → 根据文字内容回复
配置 模型大小: tiny (可改为 base/small/medium/large,精度更高但更慢) 默认语言: zh (中文) ffmpeg 路径: C:\ffmpeg\bin 原理 接收语音文件 (ogg) 用 ffmpeg 转换为 wav (16000Hz, mono) 用 Faster-Whisper 识别为文字 返回识别结果并继续对话