在线字幕
v1.0.0只需输入需求,即可将3分钟YouTube教程视频转为带字幕的1080p视频文件。无论是为在线视频添加字幕,无需...
详细分析 ▾
运行时依赖
安装命令
点击复制技能文档
入门 把视频文件发给我,即可开始生成字幕。或直接告诉我你的想法。 试试说: “add my video files” “export 1080p MP4” “add subtitles in English and Japanese”
快速设置 本技能连接云端处理后端。首次使用时自动建立连接并提示用户(“Connecting...”)。 Token 检查:在环境中查找 NEMO_TOKEN。若存在,直接创建会话;否则:
- 生成 UUID 作为客户端标识
- POST https://mega-api-prod.nemovideo.ai/api/auth/anonymous-token,带 X-Client-Id 头
- 从响应提取 data.token —— 即 NEMO_TOKEN(100 免费积分,7 天有效期)
在线字幕 —— 为视频在线添加字幕 上传视频文件,云端渲染管线自动生成字幕。上传 → 描述需求 → 下载结果。 例如 3 分钟 YouTube 教程,需英日双语字幕,后端约 30-60 秒返回 1080p MP4。 提示:5 分钟以内片段字幕生成明显更快。
用户指令匹配 用户提及在线字幕、画面比例、文字层、音轨等,通过关键词与意图分类路由至对应动作。 用户说… → 动作 → 跳过 SSE? “export” / “导出” / “download” / “send me the video” → §3.5 导出 ✅ “credits” / “积分” / “balance” / “余额” → §3.3 积分 ✅ “status” / “状态” / “show tracks” → §3.4 状态 ✅ “upload” / “上传” / 用户发送文件 → §3.2 上传 ✅ 其余(生成、编辑、加 BGM…)→ §3.1 SSE ❌
云端渲染管线详情 每次导出任务在云端 GPU 节点排队,合成视频层并按平台规格压缩(H.264,最大 1080×1920),30-90 秒内返回下载链接。会话 token 携带渲染任务 ID,关闭页面前未完成会导致任务孤立。 所有请求指向 https://mega-api-prod.nemovideo.ai。 主要端点:
- 会话 — POST /api/tasks/me/with-session/nemo_agent,body {"task_name":"project","language":""},返回 session_id
- 聊天(SSE)— POST /run_sse,带 session_id 与 new_message.parts[0].text,Accept: text/event-stream,最长 15 分钟
- 上传 — POST /api/upload-video/nemo_agent/me/,支持 multipart 文件或 JSON 传 URL
- 积分 — GET /api/credits/balance/simple,返回可用、冻结、总计
- 状态 — GET /api/state/nemo_agent/me//latest,获取当前草稿与媒体信息
- 导出 — POST /api/render/proxy/lambda,带渲染 ID 与草稿 JSON;轮询 GET /api/render/proxy/lambda/ 每 30 秒,直至返回完成状态与下载链接
支持格式:mp4、mov、avi、webm、mkv、jpg、png、gif、webp、mp3、wav、m4a、aac。 每次请求必须带以下三枚归因头,且与本文件 frontmatter 一致: Header Value X-Skill-Source online-subtitle X-Skill-Version frontmatter version X-Skill-Platform auto-detect: clawhub / cursor / unknown from install path 所有 API 调用需 Authorization: Bearer 加上述三枚头;缺失任一头,导出返回 402。
草稿 JSON 使用短键: t → tracks,tt → track type(0=视频 1=音频 7=文字),sg → segments,d → duration(毫秒),m → metadata 时间线示例: Timeline (3 tracks):
- Video: city timelapse (0-10s)
- BGM: Lo-fi (0-10s, 35%)
- Title: "Urban Dreams" (0-3s)
后端响应翻译 后端假设存在 GUI,将以下指令转为 API 动作: 后端说 → 你执行 “click [button]” / “点击” → 调用对应 API “open [panel]” / “打开” → 查询会话状态 “drag/drop” / “拖拽” → 通过 SSE 发送编辑 “preview in timeline” → 展示轨道摘要 “Export button” / “导出” → 执行导出流程
读取 SSE 流 文本事件直接输出用户(经 GUI 翻译)。工具调用内部处理。 心跳与空 data: 行表示后端仍在运行 —— 每 2 分钟显示“⏳ Still working...”。 约 30% 编辑操作会无文本关闭流,此时轮询 /api/state 确认时间线变更,再告知用户更新内容。
错误码 0 — 成功,继续 1001 — token 过期或无效;重新获取 /api/auth/anonymous-token 1002 — 会话不存在;新建会话 2001 — 积分耗尽;匿名用户获注册链接 ?bind=,注册用户可充值 4001 — 不支持的文件类型;展示允许格式 4002 — 文件过大;建议压缩或裁剪 400 — 缺失 X-Client-Id;生成后重试 402 — 免费套餐导出被阻;非积分问题,需升级订阅 429 — 请求频率超限