音频处理 AI模型列表 | 龙虾技能库

热门搜索 GPT Claude DeepSeek 通义千问文心一言 Gemini

标签: 音频处理

GPT-Realtime-1.5 — 实时语音交互OpenAI中等GPT-Realtime

GPT-Realtime-1.5是OpenAI实时语音模型，提供高质量AI推理能力。

文本音频图片音频处理实时交互多模态

parakeet-ctc-0.6b-asr — NVIDIA BuildNVIDIA免费parakeet开源

parakeet-ctc-0.6b-asr是NVIDIA Build平台提供的AI模型，高速推理。免费使用（有速率限制）。

音频免费音频处理开源

parakeet-ctc-1.1b-asr — NVIDIA BuildNVIDIA免费parakeet开源

parakeet-ctc-1.1b-asr是NVIDIA Build平台提供的AI模型，提供高质量AI推理能力。免费使用（有速率限制）。

音频免费音频处理开源

studiovoice — NVIDIA BuildNVIDIA免费studiovoice开源

studiovoice是NVIDIA Build平台提供的AI模型，提供高质量AI推理能力。免费使用（有速率限制）。

音频免费音频处理开源

canary-1b-asr — NVIDIA BuildNVIDIA免费canary开源

canary-1b-asr是NVIDIA Build平台提供的AI模型，多语言支持。免费使用（有速率限制）。

音频免费音频处理开源

magpie-tts-multilingual — NVIDIA BuildNVIDIA免费magpie开源

magpie-tts-multilingual是NVIDIA Build平台提供的AI模型，提供高质量AI推理能力。免费使用（有速率限制）。

音频免费音频处理开源

magpie-tts-flow — NVIDIA BuildNVIDIA免费magpie开源

magpie-tts-flow是NVIDIA Build平台提供的AI模型，提供高质量AI推理能力。免费使用（有速率限制）。

音频免费音频处理开源

parakeet-1.1b-rnnt-multilingual-asr — NVIDIA BuildNVIDIA免费parakeet开源

parakeet-1.1b-rnnt-multilingual-asr是NVIDIA Build平台提供的AI模型，提供高质量AI推理能力。免费使用（有速率限制）。

音频免费音频处理开源

magpie-tts-zeroshot — NVIDIA BuildNVIDIA免费magpie开源

magpie-tts-zeroshot是NVIDIA Build平台提供的AI模型，提供高质量AI推理能力。免费使用（有速率限制）。

音频免费音频处理开源

nemotron-asr-streaming — NVIDIA BuildNVIDIA免费nemotron开源

nemotron-asr-streaming是NVIDIA Build平台提供的AI模型，提供高质量AI推理能力。免费使用（有速率限制）。

音频免费音频处理开源

nemotron-voicechat — NVIDIA BuildNVIDIA免费nemotron开源

nemotron-voicechat是NVIDIA Build平台提供的AI模型，提供高质量AI推理能力。免费使用（有速率限制）。

音频免费对话音频处理

Qwen3.5-Omni-Flash — 全模态Flash模型通义千问Flash低成本Qwen3.5

通义千问全模态Flash模型，支持文本、图像、视频和音频输入输出，价格实惠，适合大规模多模态应用场景。

131.1K文本图片视频音频多模态音频处理国产

Qwen3.5-Omni-Plus — 全模态Plus模型通义千问Plus中等Qwen3.5

通义千问全模态Plus模型，支持文本、图像、视频和音频输入，可输出文本和音频，具备高级多模态理解和生成能力。

131.1K文本图片视频音频多模态音频处理国产

GLM-TTS — 语音合成模型智谱 AI免费GLM

智谱AI语音合成模型，支持文本转语音，流式输出，适合语音播报和交互场景。

文本音频处理国产实时交互

GLM-4-Voice — 语音对话模型智谱 AI免费GLM-4

智谱AI语音对话模型，支持端到端语音交互，适合语音助手和智能客服场景。

文本音频音频处理对话国产

GLM-Realtime — 实时音视频模型智谱 AI免费GLM

智谱AI实时音视频交互模型，支持低延迟实时对话，适合语音助手和实时交互场景。

文本音频音频处理实时交互国产

GLM-ASR-2512 — 语音识别模型智谱 AI免费GLM

智谱AI语音识别模型，支持自动语音转文字，适合会议记录、字幕生成等场景。

音频音频处理国产实时交互

GLM-TTS-Clone — 音色克隆模型智谱 AI免费GLM

智谱AI音色克隆模型，支持个性化音色克隆和语音合成，适合定制化语音场景。

文本音频音频处理国产企业级

OpenClaw 技能定制 / 插件定制 / 私有工作流定制

免费技能或插件可能存在安全风险，如需更匹配、更安全的方案，建议联系付费定制

了解定制服务