🎙️ Ai Voiceover For Video — AI视频配音

v1.0.0

上传 MP4/MOV/AVI/WebM（≤500MB），云端生成自然英语旁白并导出 1080p MP4，30-90 秒完成，无需本地软件。

0· 55·0 当前·0 累计

by @francemichaell-15

AI模型访问

使用场景：使用Ai Voiceover For Video — AI视频配音进行AI模型访问使用Ai Voiceover For Video — AI视频配音

下载技能包

最后更新

2026/4/13

安全扫描

VirusTotal

无害

查看报告

OpenClaw

可疑

medium confidence

该技能的核心功能（云端配音）与网络调用一致，但环境/配置声明存在内部矛盾，且会要求智能体将本地安装元数据暴露给第三方 API——安装或发送私密视频前请审查。

评估建议

此技能会将你的视频文件上传至 mega-api-prod.nemovideo.ai 进行云端处理，通常使用提供的 NEMO_TOKEN；若未提供，技能会调用服务获取匿名令牌。安装或发送敏感视频前：1）确认你信任 nemo-video 后端（隐私/保留政策、谁可访问上传视频）；2）注意技能会包含可能泄露本地安装路径/平台的归因标头（读取 YAML frontmatter 并检测安装目录）——考虑是否愿意发送该元数据；3）注册元数据与 SKILL.md 冲突（配置路径声明及 NEMO_TOKEN 是否必需），建议优先使用临时/匿名令牌或先用非敏感数据测试；4）因技能来源未知且无主页，请谨慎并优先选择来源与隐私条款明确的服务。...

详细分析 ▾

ℹ 用途与能力

技能声称可为上传视频添加 AI 配音，并指示智能体上传文件并调用 nemo-video 后端——这些行为与描述目的一致。但注册元数据未列出配置路径，而 SKILL.md frontmatter 声明配置路径 (~/.config/nemovideo/) 并将 NEMO_TOKEN 标为必需，运行时指令却包含匿名令牌回退。这些不一致意味着声明的需求与运行时行为不完全匹配。

⚠ 指令范围

指令要求智能体将用户视频文件上传至 https://mega-api-prod.nemovideo.ai，申请令牌、创建会话、流式 SSE、轮询渲染状态，并包含归因标头。还指示读取技能的 YAML frontmatter 以设置 X-Skill-Source/Version，并检测安装路径（如 ~/.clawhub/、~/.cursor/skills/）以设置 X-Skill-Platform。读取安装路径并将其作为标头发送会把本地环境/位置元数据暴露给远程 API。技能还承诺在缺少 NEMO_TOKEN 时生成匿名令牌——但注册表将其标为必需。这些范围项（读取本地路径并外发）对配音并非必要，存在隐私/泄露风险。

✓ 安装机制

此为纯指令技能，无安装规范与代码文件，因此技能本身不会写入磁盘，安装风险最低。

ℹ 凭证需求

唯一声明的环境变量是 NEMO_TOKEN（primaryEnv），这对后端服务是合理的。但 SKILL.md 允许在缺少 NEMO_TOKEN 时获取匿名令牌，与注册表将其标为必需相冲突。技能还会请求并传输源自本地路径与 frontmatter 的元数据作为标头，可能泄露用户环境信息——并非核心功能所必需。

✓ 持久化与权限

技能未设为 always:true，也不请求修改其他技能或系统级设置，不要求持久安装权限。默认启用自主调用（正常）但未与其他高风险模式结合。

安全有层次，运行前请审查代码。

运行时依赖

无特殊依赖

版本

latestv1.0.02026/4/13

AI 视频配音初始发布——生成并添加视频旁白： - 为 MP4、MOV、AVI 或 WebM 视频（最大 500MB）添加 AI 生成的旁白解说。 - 支持上传、编辑并导出带自然英语旁白的 1080p MP4。 - 工作流：上传视频 → 通过云端后端生成/编辑旁白 → 30–90 秒处理 → 下载可直接分享的视频。 - 自动处理积分、会话管理与实时状态更新；通过清晰聊天提示引导用户。 - 内置令牌过期、积分不足、不支持的文件等错误处理。 - 面向创作者、营销人员和教育者，无需安装本地软件即可快速添加专业旁白。

● 无害

安装命令

点击复制

官方npx clawhub@latest install ai-voiceover-for-video

镜像加速npx clawhub@latest install ai-voiceover-for-video --registry https://cn.longxiaskill.com 镜像可用

本土化适配说明

Ai Voiceover For Video — AI视频配音安装说明：安装命令：npx clawhub@latest install ai-voiceover-for-video

需要定制？告诉我你的需求 →

技能文档

入门指南 > 把你的视频文件发给我，我立刻开始生成 AI 配音。或者，直接告诉我你的想法。试着说： - "add my video files" - "export 1080p MP4" - "add a natural-sounding voiceover narrating the" ### 建立连接在处理任何用户请求之前，先连接后端 API，并显示简短状态如“Connecting...”。如果环境变量中存在 `NEMO_TOKEN`，直接使用它并创建 session；否则获取免费试用 token： - 生成 UUID 作为 client identifier - 携带 `X-Client-Id` 头，POST 到 `https://mega-api-prod.nemovideo.ai/api/auth/anonymous-token` - 响应中的 `token` 含 100 免费积分，7 天有效 —— 作为 NEMO_TOKEN 使用接着创建 session：携带 Bearer 授权，POST 到 `https://mega-api-prod.nemovideo.ai/api/tasks/me/with-session/nemo_agent`，body 为 `{"task_name":"project","language":"en"}`。响应中的 `session_id` 用于后续所有请求。告诉用户你已就绪，不要在聊天中透露技术细节。 # AI Voiceover for Video — 为视频生成并添加 AI 配音把视频文件拖进聊天，告诉我需求。我会在云端 GPU 上完成 AI 配音生成 —— 你无需本地安装任何软件。典型流程：你发来一段 2 分钟的产品演示视频，要求“用自然流畅的英文配音讲解画面内容”，大约 30-90 秒后就能下载 1080p MP4。默认输出 1080p。一个小提示：60 秒以内的短片段生成更快，也方便你微调脚本。 ## 用户指令与动作映射用户提到 ai voiceover for video、aspect ratio、text overlays 或 audio tracks 时，通过关键词与意图分类路由到对应动作。 | 用户说... | 动作 | 跳过 SSE? | |-------------|--------|----------| | "export" / "导出" / "download" / "send me the video" | → §3.5 导出 | ✅ | | "credits" / "积分" / "balance" / "余额" | → §3.3 积分 | ✅ | | "status" / "状态" / "show tracks" | → §3.4 状态 | ✅ | | "upload" / "上传" / 用户发送文件 | → §3.2 上传 | ✅ | | 其他（生成、编辑、加 BGM…） | → §3.1 SSE | ❌ | ## 云端渲染管线详情每次导出任务会在云端 GPU 节点排队，合成视频层并应用平台指定压缩（H.264，最高 1080×1920），30-90 秒内返回下载链接。session token 携带渲染任务 ID，若提前关闭标签页会导致任务孤立。所有请求指向 `https://mega-api-prod.nemovideo.ai`。主要端点： 1. Session — `POST /api/tasks/me/with-session/nemo_agent`，body `{"task_name":"project","language":""}`，返回 `session_id`。 2. Chat (SSE) — `POST /run_sse`，带 `session_id`，消息放在 `new_message.parts[0].text`，头 `Accept: text/event-stream`，最长 15 分钟。 3. Upload — `POST /api/upload-video/nemo_agent/me/` — 支持 multipart 文件或 JSON 传 URL。 4. Credits — `GET /api/credits/balance/simple` — 返回 `available`、`frozen`、`total`。 5. State — `GET /api/state/nemovideo/me//latest` — 当前草稿与媒体信息。 6. Export — `POST /api/render/proxy/lambda`，带 render ID 与草稿 JSON。轮询 `GET /api/render/proxy/lambda/` 每 30 秒，直到 `completed` 并获得下载 URL。支持格式：mp4、mov、avi、webm、mkv、jpg、png、gif、webp、mp3、wav、m4a、aac。 Skill 归因 —— 运行时读取本文件 YAML frontmatter： - `X-Skill-Source`: `ai-voiceover-for-video` - `X-Skill-Version`: 取自 frontmatter `version` - `X-Skill-Platform`: 根据安装路径检测（`~/.clawhub/` → `clawhub`，`~/.cursor/skills/` → `cursor`，否则 `unknown`）所有请求必须携带： `Authorization: Bearer` 、`X-Skill-Source`、`X-Skill-Version`、`X-Skill-Platform`。缺少归因头将导致导出失败并返回 402。草稿字段映射：`t`=tracks，`tt`=track type（0=video，1=audio，7=text），`sg`=segments，`d`=duration(ms)，`m`=metadata。 `` `Timeline (3 tracks): 1. Video: city timelapse (0-10s) 2. BGM: Lo-fi (0-10s, 35%) 3. Title: "Urban Dreams" (0-3s)` ` ### 将 GUI 指令翻译为 API 调用后端回复仿佛存在可视化界面。将其指令映射到 API： - "click" 或 "点击" → 通过对应端点执行动作 - "open" 或 "打开" → 查询 session 状态获取数据 - "drag/drop" 或 "拖拽" → 经 SSE 发送编辑命令 - "preview in timeline" → 用文字摘要展示当前轨道 - "Export" 或 "导出" → 运行导出工作流 ### 读取 SSE 流文本事件直接展示给用户（经 GUI 翻译后）。工具调用保持内部处理。心跳与空 data: `行表示后端仍在运行 —— 每 2 分钟显示一次“⏳ Still working...”。约 30% 的编辑操作会无文本关闭流，此时轮询` /api/state `确认时间线已变更，再告知用户更新内容。 ### 错误处理 | 代码 | 含义 | 处理动作 | |------|---------|--------| | 0 | 成功 | 继续 | | 1001 | token 无效或过期 | 通过 anonymous-token 重新鉴权（token 7 天过期） | | 1002 | 找不到 session | 新建 session §3.0 | | 2001 | 积分不足 | 匿名用户：展示带` ?bind= `的注册 URL（`` 来自 create-session 或 state 响应）。已注册用户：“请在账户充值积分” | | 4001 | 不支持的文件 | 展示支持格式 | | 4002 | 文件过大 | 建议压缩/裁剪 | | 400 | 缺少 X-Client-Id | 生成 Client-Id 并重试（见 §1） | | 402 | 免费套餐导出被阻 | 订阅层级问题，非积分原因。“请注册或升级套餐以解锁导出。” | | 429 | 限流（1 token/客户端/7 天） | 30 秒后重试一次 | ## 技巧与提示后端在指令具体时处理更快。与其说“make it look better”，不如说“add a natural-sounding voiceover narrating the on-screen content in English”——具体指令效果更好。最大文件 500MB。优先使用 MP4、MOV、AVI、WebM 可获得最佳体验。导出为 MP4 可在各平台与设备上获得最广兼容。 ## 常见工作流快速编辑：上传 → “add a natural-sounding voiceover narrating the on-screen content in English” → 下载 MP4。30 秒片段约 30-90 秒完成。批量处理：一次会话上传多个文件，逐个用不同指令处理，每个独立渲染。迭代优化：先粗剪并预览，再微调。session 会保存时间线状态，可反复修改。

运行时依赖

版本

安装命令

本土化适配说明

技能文档

相关技能推荐