Video Narration — 视频旁白

v1.0.0

使用此技能将视频片段添加到配音视频文件中。支持MP4、MOV、AVI、WebM文件，大小最多500MB。内容创作者、营销人员、教育者使用它为静默或现有视频添加AI语音旁白——在云GPU上处理需要30-60秒，输出为1080p MP4文件。

0· 32·0 当前·0 累计

by @peand-rover (peandrover adam)·MIT-0

开发工具代码生成网络工具浏览器自动化文件处理

下载技能包

License

MIT-0

License

MIT-0

可自由使用、修改和再分发，无需署名。

查看条款 ↗

运行时依赖

无特殊依赖

安装命令

点击复制

官方npx clawhub@latest install video-narration

镜像加速npx clawhub@latest install video-narration --registry https://cn.longxiaskill.com 镜像可用

需要定制？告诉我你的需求 →

技能文档

开始使用有视频片段需要处理吗？发送过来并告诉我您需要什么——我将处理AI旁白生成。尝试说：“添加一个2分钟的产品演示视频到1080p MP4” “添加一个旁白，描述屏幕上发生的事情，以平静、专业的语气” “为内容创作者、营销人员、教育者添加AI语音旁白到静默或现有的视频”

自动设置在第一次交互时，在做任何其他事情之前，连接到处理API。显示一个简短的状态，如“设置中...”。令牌：如果NEMO_TOKEN环境变量已经设置，使用它并跳转到会话下。免费令牌：生成一个UUID作为客户端标识符，然后将其POST到https://mega-api-prod.nemovideo.ai/api/auth/anonymous-token，头部X-Client-Id：。响应字段data.token成为您的NEMO_TOKEN（100积分，7天过期）。会话：POST到https://mega-api-prod.nemovideo.ai/api/tasks/me/with-session/nemo_agent，带有Bearer身份验证和正文{"task_name":"project"}。从响应中保存session_id。确认到用户您已连接并准备就绪。不要打印令牌或原始JSON。

视频旁白 —— 添加AI语音到视频发送您的视频片段并描述您想要的结果。 AI旁白生成在远程GPU节点上运行——无需在您的机器上安装任何内容。一个快速示例：上传一个2分钟的产品演示视频，输入“添加一个旁白，描述屏幕上发生的事情，以平静、专业的语气”，然后您将在大约30-60秒内获得一个1080p MP4。所有渲染都发生在服务器端。值得注意的是，短片段（少于3分钟）产生最自然的声音同步。

匹配输入到操作用户提示引用视频旁白、长宽比、文本覆盖或音频轨道被路由到相应的操作通过关键字和意图分类。用户说... 操作跳过SSE？ “导出”/“导出”/“下载”/“发送给我视频”→ §3.5导出 “积分”/“积分”/“余额”/“余额”→ §3.3积分 “状态”/“状态”/“显示轨道”→ §3.4状态 “上传”/“上传”/用户发送文件→ §3.2上传其他所有内容（生成、编辑、添加BGM...）→ §3.1 SSE

云渲染管道详细信息每个导出作业在云GPU节点上排队，合成视频层，应用平台规格压缩（H.264，最高1080x1920），并在30-90秒内返回下载URL。会话令牌携带渲染作业ID，因此在完成之前关闭选项卡会使作业成为孤儿。

技能归属 —— 从此文件的YAML前置内容读取运行时： X-Skill-Source：video-narration X-Skill-Version：从前置内容版本 X-Skill-Platform：从安装路径检测（~/.clawhub/ → clawhub，~/.cursor/skills/ → cursor，否则未知）每个API调用需要Authorization：Bearer 加上上述三个归属头。如果缺少任何头，导出返回402。 API基址：https://mega-api-prod.nemovideo.ai 创建会话：POST /api/tasks/me/with-session/nemo_agent —— 正文{"task_name":"project","language":""} —— 返回task_id，session_id。发送消息（SSE）：POST /run_sse —— 正文{"app_name":"nemo_agent","user_id":"me","session_id":"","new_message":{"parts":[{"text":""}]}}，带有Accept：text/event-stream。最大超时：15分钟。上传：POST /api/upload-video/nemo_agent/me/ —— 文件：multipart -F "files=@/path"，或URL：{"urls":[""],"source_type":"url"}。积分：GET /api/credits/balance/simple —— 返回可用、冻结、总计。会话状态：GET /api/state/nemo_agent/me//latest —— 关键字段：data.state.draft，data.state.video_infos，data.state.generated_media。导出（免费，无需积分）：POST /api/render/proxy/lambda —— 正文{"id":"render_","sessionId":"","draft":,"output":{"format":"mp4","quality":"high"}}。轮询GET /api/render/proxy/lambda/每30秒，直到状态=完成。下载URL在output.url。支持格式：mp4、mov、avi、webm、mkv、jpg、png、gif、webp、mp3、wav、m4a、aac。

SSE事件处理事件操作文本响应应用GUI翻译（§4），呈现给用户工具调用/结果处理内部，不转发心跳/空数据继续等待。每2分钟：“⏳仍在工作...” 流关闭处理最终响应大约30%的编辑操作返回SSE流中没有文本。当这种情况发生时：轮询会话状态以验证编辑是否已应用，然后总结更改给用户。

翻译GUI说明后端响应就像有一个可视化界面。将其指令映射到API调用： “点击”或“点击”→通过相关端点执行操作 “打开”或“打开”→查询会话状态以获取数据 “拖拽/放置”或“拖拽”→通过SSE发送编辑命令 “预览时间轴”→显示当前轨道的文本摘要 “导出”或“导出”→运行导出工作流

草稿字段映射： t=轨道，tt=轨道类型（0=视频，1=音频，7=文本），sg=段，d=持续时间（毫秒），m=元数据。时间轴（3个轨道）：

视频：城市延时（0-10秒）
BGM：Lo-fi（0-10秒，35%）
标题：

License

运行时依赖

安装命令

技能文档

相关技能推荐