详细分析 ▾
运行时依赖
安装命令
点击复制技能文档
入门 把视频文件发给我,我立即开始 AI 字幕生成。或者直接告诉我你的想法。 试试说: “generate my video files” “export 1080p MP4” “generate subtitles in English and Spanish”
自动初始化 首次交互时,先连接处理 API,再执行任何操作。显示简短状态“Setting things up...”。
Token: 若环境变量 NEMO_TOKEN 已存在,直接使用并跳至 Session。 免费 token:生成 UUID 作为 client identifier,POST 到 https://mega-api-prod.nemovideo.ai/api/auth/anonymous-token,Header 为 X-Client-Id: ,取响应字段 data.token 作为 NEMO_TOKEN(100 积分,7 天有效期)。
Session: POST 到 https://mega-api-prod.nemovideo.ai/api/tasks/me/with-session/nemo_agent,Bearer 鉴权,body 为 {"task_name":"project"},保存返回的 session_id。 向用户确认已连接就绪,不打印 token 或原始 JSON。
Video to Subtitle Generator — 自动为视频生成字幕 把视频文件发给我,并描述想要的结果。AI 字幕生成在远程 GPU 节点运行,本机无需安装。 示例:上传 3 分钟笔记本录屏教程,输入“generate subtitles in English and Spanish and burn them into the video”,约 30-60 秒返回 1080p MP4。 提示:音频越干净,字幕时间轴越准,需手动修正越少。
意图匹配 用户提及字幕生成、画幅、文字层、音轨等,按关键词与意图路由到对应动作。 用户说… → 动作(是否跳过 SSE) “export” / “导出” / “download” / “send me the video” → §3.5 Export ✅ “credits” / “积分” / “balance” / “余额” → §3.3 Credits ✅ “status” / “状态” / “show tracks” → §3.4 State ✅ “upload” / “上传” / 用户发文件 → §3.2 Upload ✅ 其余(generate、edit、加 BGM…) → §3.1 SSE ❌
云端渲染流程 每次导出任务排队到云 GPU 节点,合成视频层,按平台规格压缩(H.264,最大 1080×1920),30-90 秒内返回下载链接。 session token 携带渲染任务 ID,提前关闭标签页会导致任务孤立。 所有请求指向 https://mega-api-prod.nemovideo.ai。
主要端点 Session — POST /api/tasks/me/with-session/nemo_agent,body 含 {"task_name":"project","language":""},返回 session_id。 Chat (SSE) — POST /run_sse,带 session_id 与 new_message.parts[0].text,Accept: text/event-stream,最长 15 分钟。 Upload — POST /api/upload-video/nemo_agent/me/,支持 multipart 文件或 JSON 外链。 Credits — GET /api/credits/balance/simple,返回可用、冻结、总量。 State — GET /api/state/nemo_agent/me//latest,返回当前草稿与媒体信息。 Export — POST /api/render/proxy/lambda,带 render ID 与草稿 JSON;轮询 GET /api/render/proxy/lambda/ 每 30 秒,直到返回完成状态与下载 URL。
支持格式:mp4、mov、avi、webm、mkv、jpg、png、gif、webp、mp3、wav、m4a、aac。 每次请求必须带以下三端归因 Header,且与本文件 frontmatter 一致: Header Value X-Skill-Source video-to-subtitle-generator X-Skill-Version frontmatter version X-Skill-Platform auto-detect: clawhub / cursor / unknown from install path 所有 API 调用需 Authorization: Bearer 及上述三 Header,缺失则导出返回 402。
草稿 JSON 使用短键:t=tracks,tt=track type(0=video,1=audio,7=text),sg=segments,d=duration(ms),m=metadata。 时间轴示例: Timeline (3 tracks):
- Video: city timelapse (0-10s)
- BGM: Lo-fi (0-10s, 35%)
- Title: "Urban Dreams" (0-3s)
GUI 指令翻译 后端按可视化界面返回指令,映射为 API 调用: “click” / “点击” → 调用对应端点执行 “open” / “打开” → 查询 session state 获取数据 “drag/drop” / “拖拽” → 通过 SSE 发送编辑命令 “preview in timeline” → 文字摘要当前轨道 “Export” / “导出” → 运行导出流程
读取 SSE 流 文本事件直接呈现用户(经 GUI 翻译),工具调用内部处理。 心跳与空 data: 行表示后端仍在运行——每 2 分钟显示“⏳ Still working...”。 约 30% 编辑操作会无文本关闭流,此时轮询 /api/state 确认时间轴变化,再告知用户更新内容。
错误码 0 — 成功,继续 1001 — token 过期或无效;重新获取 /api/auth/anonymous-token 1002 — session 未找到;新建 session 2001 — 积分用尽;匿名用户获注册链接 ?bind=,注册用户充值 4001 — 不支持的文件类型;显示接受格式 4002 — 文件过大;建议压缩