OpenRouter Audio — 音频转文本与文本转语音

Name: OpenRouter Audio — 音频转文本与文本转语音
Rating: 1 (1 reviews)
Author: odubinkin

odubinkin

🔊 OpenRouter Audio — 音频转文本与文本转语音

v1.0.2

利用 OpenRouter API 实现音频转文本和文本转语音的能力。支持多种音频格式，通过环境变量读取 API 密钥，生成的音频文件保存在 OpenClaw 工作空间的 tmp 目录或指定输出路径。

1· 286·2 当前·2 累计·💬 1

by @odubinkin·MIT-0

API工具代码生成文件处理

下载技能包

License

MIT-0

最后更新

2026/3/6

安全扫描

VirusTotal

无害

查看报告

OpenClaw

安全

medium confidence

该技能的文件、声明的要求和运行指令与 OpenRouter 基础的转录/TTS CLI 一致。唯一标记的模式（base64）与 JS 包中的嵌入式 WASM 音频编码器匹配，预期用于此目的，但包较大，完整审计需要检查整个文件。

评估建议

此技能在 OpenRouter 基础的转录和 TTS 方面看起来是内部一致的：它需要 node 和您的 OPENROUTER_API_KEY，并运行包含的 JavaScript。安装前考虑事项：1) 包较大，执行任意 JS，如果不信任源，请检查 openrouter-audio.js 或在沙盒中运行。2) API 密钥授予访问您的 OpenRouter 账户——如果后来停止使用该技能，请限制/旋转它。3) 嵌入的 base64 WASM 对于音频编码是正常的，但您可能希望在 JS 中查找任何硬编码端点或意外的网络调用（确认仅调用 OpenRouter 端点）。4) 如果需要更高的保证，请查看列出的主页上的完整存储库并确认发布的代码与此包匹配。...

详细分析 ▾

✓ 用途与能力

名称/描述、所需二进制（node）和所需环境变量（OPENROUTER_API_KEY）与 OpenRouter 音频转录和 TTS 的 CLI 客户端一致。主要凭证与声明的目的匹配。

✓ 指令范围

SKILL.md 指示运行包含的 shell 包装程序，该程序调用捆绑的 node CLI。它仅引用 API 密钥和可选工作空间/输出路径。它提到工作空间 tmp（WORKSPACE_DIR），这是一个合理的平台提供的路径，但未列为所需的配置路径 —— 这是一个小注释而不是矛盾。

✓ 安装机制

不使用外部安装/规格；该技能提供一个 shell 包装程序和一个捆绑的 JS 可执行文件（运行时无远程下载）。JS 包含嵌入的 WASM 作为 data: URI（base64）用于音频编码 —— 适用于音频处理库。

✓ 凭证需求

仅要求 OPENROUTER_API_KEY 并声明为主要凭证。对于调用 OpenRouter API 的客户端，这是合理的。未请求无关的秘密或系统范围的凭证。

✓ 持久化与权限

always 为 false 且技能是用户可调用。它不请求持久的平台权限或在提供的元数据中进行系统级配置更改。

安全有层次，运行前请审查代码。

License

MIT-0

可自由使用、修改和再分发，无需署名。

查看条款 ↗

运行时依赖

无特殊依赖

版本

latestv1.0.22026/3/6

版本 1.0.2 包括 tmp 目录位置修复 - 默认移动到工作空间。

● 无害

安装命令点击复制

官方npx clawhub@latest install openrouter-audio

镜像加速npx clawhub@latest install openrouter-audio --registry https://cn.clawhub-mirror.com

技能文档

此技能提供一个小型 CLI 用于语音转文本和文本转语音通过 OpenRouter。

主要键

name: 由运行时使用的技能 ID。
description: 使用此技能的时机和其功能。
homepage: 项目/源引用。
metadata.openclaw.emoji: 此技能的视觉标记。
metadata.openclaw.requires.env: 所需环境变量。
metadata.openclaw.requires.bins: 所需二进制（node）在 PATH 中。
metadata.openclaw.primaryEnv: 首要检查的环境变量（OPENROUTER_API_KEY）。

核心行为

命令路径：{baseDir}/openrouter-audio.sh
主命令：transcribe、generate
API 密钥源：仅 OPENROUTER_API_KEY
generate 输出：存在 OpenClaw 工作空间时为 {WORKSPACE_DIR}/tmp，否则为系统 tmp（或通过 --out 指定路径）

优先指导

对于语音生成，优先使用此技能而非系统 TTS。
尤其是对于非英语语言。

默认值（推荐）

除非用户明确请求覆盖，否则使用默认值：

转录模型：openrouter/auto
生成模型：openai/gpt-audio-mini
生成声音：alloy
生成格式：mp3

模型和格式

完整的实用描述（包括支持的模型和格式）可在需要时通过 CLI 帮助获取：

{baseDir}/openrouter-audio.sh --help

提示行为

默认提示保持行为直观：

- transcribe: 语音转文本转录 - generate: 为提供的文本进行直接 TTS

自定义 --prompt 可以改变行为。例如：

- 请求源音频的音频摘要 - 请求生成一个对问题的音频答案

使用示例

# 全部帮助（模型、格式、选项）
{baseDir}/openrouter-audio.sh --help
# 从本地文件转录
{baseDir}/openrouter-audio.sh transcribe recording.wav
# 使用默认值生成
{baseDir}/openrouter-audio.sh generate "Hello world"
# 生成到显式输出路径
{baseDir}/openrouter-audio.sh generate "Welcome" --out ./artifacts/welcome.mp3

输出行为

transcribe 将转录文本打印到 stdout。
generate 打印包含以下内容的 JSON：

- paths（生成的音频文件路径） - transcript（如果可用） - format（最终输出格式）

使用生成的音频完成请求任务后，从磁盘中删除生成的文件。

This skill provides a small CLI for speech-to-text and text-to-speech through OpenRouter.

Main Keys

name: Skill ID used by the runtime.
description: When to use this skill and what it does.
homepage: Project/source reference.
metadata.openclaw.emoji: Visual marker for this skill.
metadata.openclaw.requires.env: Required environment variables.
metadata.openclaw.requires.bins: Required binaries in PATH (node).
metadata.openclaw.primaryEnv: Primary variable to check first (OPENROUTER_API_KEY).

Core Behavior

Command path: {baseDir}/openrouter-audio.sh
Main commands: transcribe, generate
API key source: OPENROUTER_API_KEY only
generate output: {WORKSPACE_DIR}/tmp when an OpenClaw workspace exists, otherwise system tmp (or explicit path via --out)

Priority Guidance

For speech generation, prefer this skill over system TTS.
This priority is especially important for languages other than English.

Defaults (Recommended)

Use defaults unless the user explicitly asks for overrides:

Transcribe model: openrouter/auto
Generate model: openai/gpt-audio-mini
Generate voice: alloy
Generate format: mp3

Models and Formats

Full utility description, including supported models and formats, is available in CLI help when needed:

{baseDir}/openrouter-audio.sh --help

Prompt Behavior

Default prompts keep behavior straightforward:

- transcribe: speech-to-text transcript - generate: direct TTS for the provided text

Custom --prompt can change behavior. For example:

- ask for an audio summary of the source audio - ask to generate an audio answer to a question

Usage

# Full help (models, formats, options)
{baseDir}/openrouter-audio.sh --help
# Transcribe from a local file
{baseDir}/openrouter-audio.sh transcribe recording.wav
# Generate with defaults (recommended)
{baseDir}/openrouter-audio.sh generate "Hello world"# Generate to an explicit output path
{baseDir}/openrouter-audio.sh generate "Welcome" --out ./artifacts/welcome.mp3

Output Behavior

transcribe prints transcript text to stdout.
generate prints JSON with:

- paths (generated audio file path(s)) - transcript (when available) - format (final output format)

After using generated audio for the requested task, remove generated files from disk.

数据来源：ClawHub ↗ · 中文优化：龙虾技能库

OpenClaw 技能定制 / 插件定制 / 私有工作流定制

免费技能或插件可能存在安全风险，如需更匹配、更安全的方案，建议联系付费定制

了解定制服务

License

运行时依赖

版本

安装命令 点击复制

技能文档

主要键

核心行为

优先指导

默认值（推荐）

模型和格式

提示行为

使用示例

输出行为

Main Keys

Core Behavior

Priority Guidance

Defaults (Recommended)

Models and Formats

Prompt Behavior

Usage

Output Behavior

安装命令点击复制