首页AI模型目录

AI 模型

浏览主流大模型,了解能力与定价。

热门搜索 GPTClaudeDeepSeek通义千问文心一言Gemini

标签: 音频处理

GPT-Realtime-1.5 — 实时语音交互OpenAI中等GPT-Realtime
GPT-Realtime-1.5是OpenAI实时语音模型,提供高质量AI推理能力。
文本 音频 图片音频处理实时交互多模态
parakeet-ctc-0.6b-asr — NVIDIA BuildNVIDIA免费parakeet开源
parakeet-ctc-0.6b-asr是NVIDIA Build平台提供的AI模型,高速推理。免费使用(有速率限制)。
音频免费音频处理开源
parakeet-ctc-1.1b-asr — NVIDIA BuildNVIDIA免费parakeet开源
parakeet-ctc-1.1b-asr是NVIDIA Build平台提供的AI模型,提供高质量AI推理能力。免费使用(有速率限制)。
音频免费音频处理开源
studiovoice — NVIDIA BuildNVIDIA免费studiovoice开源
studiovoice是NVIDIA Build平台提供的AI模型,提供高质量AI推理能力。免费使用(有速率限制)。
音频免费音频处理开源
canary-1b-asr — NVIDIA BuildNVIDIA免费canary开源
canary-1b-asr是NVIDIA Build平台提供的AI模型,多语言支持。免费使用(有速率限制)。
音频免费音频处理开源
magpie-tts-multilingual — NVIDIA BuildNVIDIA免费magpie开源
magpie-tts-multilingual是NVIDIA Build平台提供的AI模型,提供高质量AI推理能力。免费使用(有速率限制)。
音频免费音频处理开源
magpie-tts-flow — NVIDIA BuildNVIDIA免费magpie开源
magpie-tts-flow是NVIDIA Build平台提供的AI模型,提供高质量AI推理能力。免费使用(有速率限制)。
音频免费音频处理开源
parakeet-1.1b-rnnt-multilingual-asr — NVIDIA BuildNVIDIA免费parakeet开源
parakeet-1.1b-rnnt-multilingual-asr是NVIDIA Build平台提供的AI模型,提供高质量AI推理能力。免费使用(有速率限制)。
音频免费音频处理开源
magpie-tts-zeroshot — NVIDIA BuildNVIDIA免费magpie开源
magpie-tts-zeroshot是NVIDIA Build平台提供的AI模型,提供高质量AI推理能力。免费使用(有速率限制)。
音频免费音频处理开源
nemotron-asr-streaming — NVIDIA BuildNVIDIA免费nemotron开源
nemotron-asr-streaming是NVIDIA Build平台提供的AI模型,提供高质量AI推理能力。免费使用(有速率限制)。
音频免费音频处理开源
nemotron-voicechat — NVIDIA BuildNVIDIA免费nemotron开源
nemotron-voicechat是NVIDIA Build平台提供的AI模型,提供高质量AI推理能力。免费使用(有速率限制)。
音频免费对话音频处理
Qwen3.5-Omni-Flash — 全模态Flash模型通义千问Flash低成本Qwen3.5
通义千问全模态Flash模型,支持文本、图像、视频和音频输入输出,价格实惠,适合大规模多模态应用场景。
131.1K文本 图片 视频 音频多模态音频处理国产
Qwen3.5-Omni-Plus — 全模态Plus模型通义千问Plus中等Qwen3.5
通义千问全模态Plus模型,支持文本、图像、视频和音频输入,可输出文本和音频,具备高级多模态理解和生成能力。
131.1K文本 图片 视频 音频多模态音频处理国产
GLM-TTS — 语音合成模型智谱 AI免费GLM
智谱AI语音合成模型,支持文本转语音,流式输出,适合语音播报和交互场景。
文本音频处理国产实时交互
GLM-4-Voice — 语音对话模型智谱 AI免费GLM-4
智谱AI语音对话模型,支持端到端语音交互,适合语音助手和智能客服场景。
文本 音频音频处理对话国产
GLM-Realtime — 实时音视频模型智谱 AI免费GLM
智谱AI实时音视频交互模型,支持低延迟实时对话,适合语音助手和实时交互场景。
文本 音频音频处理实时交互国产
GLM-ASR-2512 — 语音识别模型智谱 AI免费GLM
智谱AI语音识别模型,支持自动语音转文字,适合会议记录、字幕生成等场景。
音频音频处理国产实时交互
GLM-TTS-Clone — 音色克隆模型智谱 AI免费GLM
智谱AI音色克隆模型,支持个性化音色克隆和语音合成,适合定制化语音场景。
文本 音频音频处理国产企业级
OpenClaw 技能定制 / 插件定制 / 私有工作流定制

免费技能或插件可能存在安全风险,如需更匹配、更安全的方案,建议联系付费定制

了解定制服务