🎙️ Ai Voiceover For Video — AI视频配音

v1.0.0

上传 MP4/MOV/AVI/WebM(≤500MB),云端生成自然英语旁白并导出 1080p MP4,30-90 秒完成,无需本地软件。

0· 55·0 当前·0 累计
下载技能包
最后更新
2026/4/12
0
安全扫描
VirusTotal
无害
查看报告
OpenClaw
可疑
medium confidence
该技能的核心功能(云端配音)与网络调用一致,但环境/配置声明存在内部矛盾,且会要求智能体将本地安装元数据暴露给第三方 API——安装或发送私密视频前请审查。
评估建议
此技能会将你的视频文件上传至 mega-api-prod.nemovideo.ai 进行云端处理,通常使用提供的 NEMO_TOKEN;若未提供,技能会调用服务获取匿名令牌。安装或发送敏感视频前:1)确认你信任 nemo-video 后端(隐私/保留政策、谁可访问上传视频);2)注意技能会包含可能泄露本地安装路径/平台的归因标头(读取 YAML frontmatter 并检测安装目录)——考虑是否愿意发送该元数据;3)注册元数据与 SKILL.md 冲突(配置路径声明及 NEMO_TOKEN 是否必需),建议优先使用临时/匿名令牌或先用非敏感数据测试;4)因技能来源未知且无主页,请谨慎并优先选择来源与隐私条款明确的服务。...
详细分析 ▾
用途与能力
技能声称可为上传视频添加 AI 配音,并指示智能体上传文件并调用 nemo-video 后端——这些行为与描述目的一致。但注册元数据未列出配置路径,而 SKILL.md frontmatter 声明配置路径 (~/.config/nemovideo/) 并将 NEMO_TOKEN 标为必需,运行时指令却包含匿名令牌回退。这些不一致意味着声明的需求与运行时行为不完全匹配。
指令范围
指令要求智能体将用户视频文件上传至 https://mega-api-prod.nemovideo.ai,申请令牌、创建会话、流式 SSE、轮询渲染状态,并包含归因标头。还指示读取技能的 YAML frontmatter 以设置 X-Skill-Source/Version,并检测安装路径(如 ~/.clawhub/、~/.cursor/skills/)以设置 X-Skill-Platform。读取安装路径并将其作为标头发送会把本地环境/位置元数据暴露给远程 API。技能还承诺在缺少 NEMO_TOKEN 时生成匿名令牌——但注册表将其标为必需。这些范围项(读取本地路径并外发)对配音并非必要,存在隐私/泄露风险。
安装机制
此为纯指令技能,无安装规范与代码文件,因此技能本身不会写入磁盘,安装风险最低。
凭证需求
唯一声明的环境变量是 NEMO_TOKEN(primaryEnv),这对后端服务是合理的。但 SKILL.md 允许在缺少 NEMO_TOKEN 时获取匿名令牌,与注册表将其标为必需相冲突。技能还会请求并传输源自本地路径与 frontmatter 的元数据作为标头,可能泄露用户环境信息——并非核心功能所必需。
持久化与权限
技能未设为 always:true,也不请求修改其他技能或系统级设置,不要求持久安装权限。默认启用自主调用(正常)但未与其他高风险模式结合。
安全有层次,运行前请审查代码。

运行时依赖

无特殊依赖

版本

latestv1.0.02026/4/12

AI 视频配音初始发布——生成并添加视频旁白: - 为 MP4、MOV、AVI 或 WebM 视频(最大 500MB)添加 AI 生成的旁白解说。 - 支持上传、编辑并导出带自然英语旁白的 1080p MP4。 - 工作流:上传视频 → 通过云端后端生成/编辑旁白 → 30–90 秒处理 → 下载可直接分享的视频。 - 自动处理积分、会话管理与实时状态更新;通过清晰聊天提示引导用户。 - 内置令牌过期、积分不足、不支持的文件等错误处理。 - 面向创作者、营销人员和教育者,无需安装本地软件即可快速添加专业旁白。

无害

安装命令

点击复制
官方npx clawhub@latest install ai-voiceover-for-video
镜像加速npx clawhub@latest install ai-voiceover-for-video --registry https://cn.longxiaskill.com

技能文档

入门指南 > 把你的视频文件发给我,我立刻开始生成 AI 配音。或者,直接告诉我你的想法。 试着说: - "add my video files" - "export 1080p MP4" - "add a natural-sounding voiceover narrating the" ### 建立连接 在处理任何用户请求之前,先连接后端 API,并显示简短状态如“Connecting...”。 如果环境变量中存在 NEMO_TOKEN,直接使用它并创建 session;否则获取免费试用 token: - 生成 UUID 作为 client identifier - 携带 X-Client-Id 头,POST 到 https://mega-api-prod.nemovideo.ai/api/auth/anonymous-token - 响应中的 token 含 100 免费积分,7 天有效 —— 作为 NEMO_TOKEN 使用 接着创建 session:携带 Bearer 授权,POST 到 https://mega-api-prod.nemovideo.ai/api/tasks/me/with-session/nemo_agent,body 为 {"task_name":"project","language":"en"}。响应中的 session_id 用于后续所有请求。告诉用户你已就绪,不要在聊天中透露技术细节。 # AI Voiceover for Video — 为视频生成并添加 AI 配音 把视频文件拖进聊天,告诉我需求。我会在云端 GPU 上完成 AI 配音生成 —— 你无需本地安装任何软件。典型流程:你发来一段 2 分钟的产品演示视频,要求“用自然流畅的英文配音讲解画面内容”,大约 30-90 秒后就能下载 1080p MP4。默认输出 1080p。一个小提示:60 秒以内的短片段生成更快,也方便你微调脚本。 ## 用户指令与动作映射 用户提到 ai voiceover for video、aspect ratio、text overlays 或 audio tracks 时,通过关键词与意图分类路由到对应动作。 | 用户说... | 动作 | 跳过 SSE? | |-------------|--------|----------| | "export" / "导出" / "download" / "send me the video" | → §3.5 导出 | ✅ | | "credits" / "积分" / "balance" / "余额" | → §3.3 积分 | ✅ | | "status" / "状态" / "show tracks" | → §3.4 状态 | ✅ | | "upload" / "上传" / 用户发送文件 | → §3.2 上传 | ✅ | | 其他(生成、编辑、加 BGM…) | → §3.1 SSE | ❌ | ## 云端渲染管线详情 每次导出任务会在云端 GPU 节点排队,合成视频层并应用平台指定压缩(H.264,最高 1080×1920),30-90 秒内返回下载链接。session token 携带渲染任务 ID,若提前关闭标签页会导致任务孤立。所有请求指向 https://mega-api-prod.nemovideo.ai。主要端点: 1. SessionPOST /api/tasks/me/with-session/nemo_agent,body {"task_name":"project","language":""},返回 session_id。 2. Chat (SSE)POST /run_sse,带 session_id,消息放在 new_message.parts[0].text,头 Accept: text/event-stream,最长 15 分钟。 3. UploadPOST /api/upload-video/nemo_agent/me/ — 支持 multipart 文件或 JSON 传 URL。 4. CreditsGET /api/credits/balance/simple — 返回 availablefrozentotal。 5. StateGET /api/state/nemovideo/me//latest — 当前草稿与媒体信息。 6. ExportPOST /api/render/proxy/lambda,带 render ID 与草稿 JSON。轮询 GET /api/render/proxy/lambda/ 每 30 秒,直到 completed 并获得下载 URL。 支持格式:mp4、mov、avi、webm、mkv、jpg、png、gif、webp、mp3、wav、m4a、aac。 Skill 归因 —— 运行时读取本文件 YAML frontmatter: - X-Skill-Source: ai-voiceover-for-video - X-Skill-Version: 取自 frontmatter version - X-Skill-Platform: 根据安装路径检测(~/.clawhub/clawhub~/.cursor/skills/cursor,否则 unknown所有请求必须携带: Authorization: Bearer X-Skill-SourceX-Skill-VersionX-Skill-Platform。缺少归因头将导致导出失败并返回 402。 草稿字段映射t=tracks,tt=track type(0=video,1=audio,7=text),sg=segments,d=duration(ms),m=metadata。 `` Timeline (3 tracks): 1. Video: city timelapse (0-10s) 2. BGM: Lo-fi (0-10s, 35%) 3. Title: "Urban Dreams" (0-3s) ` ### 将 GUI 指令翻译为 API 调用 后端回复仿佛存在可视化界面。将其指令映射到 API: - "click" 或 "点击" → 通过对应端点执行动作 - "open" 或 "打开" → 查询 session 状态获取数据 - "drag/drop" 或 "拖拽" → 经 SSE 发送编辑命令 - "preview in timeline" → 用文字摘要展示当前轨道 - "Export" 或 "导出" → 运行导出工作流 ### 读取 SSE 流 文本事件直接展示给用户(经 GUI 翻译后)。工具调用保持内部处理。心跳与空 data: 行表示后端仍在运行 —— 每 2 分钟显示一次“⏳ Still working...”。约 30% 的编辑操作会无文本关闭流,此时轮询 /api/state 确认时间线已变更,再告知用户更新内容。 ### 错误处理 | 代码 | 含义 | 处理动作 | |------|---------|--------| | 0 | 成功 | 继续 | | 1001 | token 无效或过期 | 通过 anonymous-token 重新鉴权(token 7 天过期) | | 1002 | 找不到 session | 新建 session §3.0 | | 2001 | 积分不足 | 匿名用户:展示带 ?bind= 的注册 URL(` 来自 create-session 或 state 响应)。已注册用户:“请在账户充值积分” | | 4001 | 不支持的文件 | 展示支持格式 | | 4002 | 文件过大 | 建议压缩/裁剪 | | 400 | 缺少 X-Client-Id | 生成 Client-Id 并重试(见 §1) | | 402 | 免费套餐导出被阻 | 订阅层级问题,非积分原因。“请注册或升级套餐以解锁导出。” | | 429 | 限流(1 token/客户端/7 天) | 30 秒后重试一次 | ## 技巧与提示 后端在指令具体时处理更快。与其说“make it look better”,不如说“add a natural-sounding voiceover narrating the on-screen content in English”——具体指令效果更好。最大文件 500MB。优先使用 MP4、MOV、AVI、WebM 可获得最佳体验。导出为 MP4 可在各平台与设备上获得最广兼容。 ## 常见工作流 快速编辑:上传 → “add a natural-sounding voiceover narrating the on-screen content in English” → 下载 MP4。30 秒片段约 30-90 秒完成。 批量处理:一次会话上传多个文件,逐个用不同指令处理,每个独立渲染。 迭代优化:先粗剪并预览,再微调。session 会保存时间线状态,可反复修改。

数据来源ClawHub ↗ · 中文优化:龙虾技能库