Tts Voice Generator — Tts Voice 生成器
v1.3.0文本转语音生成工具,支持浏览声音列表、选择声音、上传自定义音频(带文本内容)并命名保存、生成语音和查询任务状态等功能。
运行时依赖
安装命令
点击复制技能文档
TTS 语音生成器 完整工作流程 ┌─────────────┐ ┌──────────────────────┐ ┌─────────────┐ ┌─────────────┐ │ 1. 浏览声音 │ -> │ 2. 选择或上传声音 │ -> │ 3. 生成语音 │ -> │ 4. 获取结果 │ └─────────────┘ └──────────────────────┘ └─────────────┘ └─────────────┘
步骤说明:
浏览声音:查看可用声音列表 选择声音: 如果有合适的声音 → 说"用第 X 个声音"或"用 [声音名称]" 如果没有合适的 → 上传自己的音频(需提供音频文件、声音名称、音频文本内容) 生成语音:提供文本内容,使用选中的声音生成 获取结果:等待任务完成,返回音频 URL 示例命令
- 浏览可用声音
输出示例:
📋 可用声音列表:
1. 派蒙 - 平静 (定制声音) 试听文本:既然罗莎莉亚说足迹上有元素力... 2. 龙某洋 (定制声音) 试听文本:三十、功名尘与土八千里路云和月。 ...
💡 使用方式: • 选择声音:说'用第 X 个声音'或'用 [声音名称]' • 上传自定义声音:说'上传我的声音'并提供音频文件、名称和音频内容
共 10 个声音
- 选择已有声音生成
或
用派蒙生成:春眠不觉晓,处处闻啼鸟
- 上传自定义声音
格式:
上传我的声音:[文件路径],名字叫"[声音名称]",音频内容是"[音频文本]"
示例 1 - 本地文件路径:
上传我的声音:C:/audio/my_voice.wav,名字叫"温柔女声",音频内容是"春眠不觉晓,处处闻啼鸟"
示例 2 - 相对路径:
上传这个音频文件作为参考声音:./sample.wav,命名为"我的声音",文本内容是"白日依山尽,黄河入海流"
说明:
参数 说明 要求 音频文件 WAV 或 MP3 格式 建议 10-60 秒,一句话或一句诗词的录音 声音名称 给声音起的名字 如"温柔女声"、"成熟男声"等 音频内容 音频中朗读的文本 用于音色训练参考,必须与音频内容一致
- 使用刚上传的声音生成
- 查询任务状态
触发方式
当用户请求以下内容时触发:
类型 示例 生成语音 "生成语音" / "TTS" / "文本转语音" 浏览声音 "列出声音" / "获取声音列表" / "有哪些声音" 上传声音 "上传音频" / "添加声音" / "自定义声音" / "上传我的声音" 查询状态 "查询任务状态" / "检查 TTS 进度" 选择声音生成 "用第 X 个声音生成:[文本]" / "用 [声音名称] 生成:[文本]" 直接转换 提供文本内容要求转换成语音 配置要求 首次使用
需要在 ~/.OpenClaw/config.json 中配置 API Key(与下载工具 技能 共用):
{ "datamass_API_key": "您的 API Key" }
获取 API Key 访问 https://www.datamass.cn 注册并登录 创建 API Key 复制生成的 API Key 到配置文件中 功能特点 ✅ 先浏览声音列表,再决定是否上传自定义声音 ✅ 支持按序号选择声音("用第 2 个声音") ✅ 支持按名称选择声音("用温柔女声") ✅ 上传自定义音频时一步保存:音频文件 + 声音名称 + 音频文本 ✅ 异步任务处理,无需等待 ✅ 自动状态轮询 ✅ 音频文件保存到 OSS,24 小时有效 ✅ 自定义声音永久保存到数据库,可重复使用 核心功能 方法 说明 启动_tts_工作流() 启动引导式交互流程 show_voice_列出() 显示可用声音列表(格式化输出) 列出_voices() 获取可用声音列表(原始数据) select_voice(索引) 根据序号选择声音 生成_speech() 提交 TTS 任务(支持 voice_索引/voice_name/media_path) 检查_task_状态() 查询任务状态 上传_audio() 上传音频文件(支持 style_name 和 audio_text 参数) 添加_custom_voice() 添加定制声音(保存到数据库) 上传_and_添加() 一键上传并添加为定制声音(上传时同时保存音频文本) 注意事项 计费说明 TTS 服务按生成音频时长计费 最低余额门槛:5 积分 100 字以内:2 积分,超出部分每 100 字加 1 积分 需要充值积分后使用 上传要求 音频格式:WAV 或 MP3 音频时长:建议 10-60 秒 音频内容:一句话或一句诗词的清晰录音 声音名称:自定义,用于后续调用 音频文本:必须与音频中朗读的内容一致,用于音色训练参考 使用提示 自定义声音上传后永久保存到数据库,可重复使用 建议上传前先浏览可用声音列表,避免重复上传 生成语音时可指定声音序号或名称 任务提交后自动轮询状态,无需手动查询