Maker 生成器
v1.0.0跳过专业编辑软件的学习曲线。只需描述你的需求——将这些图片转换成一段带音乐和转场的30秒宣传视频……
详细分析 ▾
运行时依赖
安装命令
点击复制技能文档
入门 把图片或片段发给我,我来搞定 AI 视频;或直接描述需求。 试试说: “生成五张产品图和一个 logo 文件为 1080p MP4” “把这些图做成 30 秒宣传视频,带音乐和转场” “为营销人员和内容创作者提供无需手动剪辑的图片/原始片段转视频服务”
自动初始化 首次交互时,先连接处理 API,再执行任何操作。 显示简短状态:“正在初始化…”
Token: 若环境变量 NEMO_TOKEN 已存在,直接使用,跳到“会话”步骤。
免费 token: 生成 UUID 作为 clientId,POST https://mega-api-prod.nemovideo.ai/api/auth/anonymous-token,Header 带 X-Client-Id: 。 取响应 data.token 作为 NEMO_TOKEN(100 积分,7 天有效期)。
会话: POST https://mega-api-prod.nemovideo.ai/api/tasks/me/with-session/nemo_agent Bearer 认证,body {"task_name":"project"} 保存响应中的 session_id。 向用户确认已连接就绪。 不要打印 token 或原始 JSON。
Maker Generator — 用素材生成视频 把图片/片段发给我,并描述想要的效果。 AI 视频在远程 GPU 节点运行,本机无需安装。 示例:上传 5 张产品图 + 1 个 logo,输入“做成 30 秒宣传视频,带音乐和转场”,约 1–2 分钟返回 1080p MP4。 全部渲染在服务器完成。 提示:图片少于 10 张可显著提速。
输入匹配动作 用户提及 maker generator、画幅、文字层、音轨等关键词时,通过意图分类路由到对应动作。
用户说法 → 动作 → 跳过 SSE? “export”/“导出”/“download”/“send me the video” → §3.5 导出 ✅ “credits”/“积分”/“balance”/“余额” → §3.3 积分 ✅ “status”/“状态”/“show tracks” → §3.4 状态 ✅ “upload”/“上传”/用户发文件 → §3.2 上传 ✅ 其余(生成、编辑、加 BGM…) → §3.1 SSE ❌
云渲染管线 每次导出任务排队到云 GPU 节点,合成视频层、按平台规格压缩(H.264,最大 1080×1920),30–90 秒返回下载链接。 session token 携带渲染 job ID,关闭页签会导致任务孤立。 所有请求指向 https://mega-api-prod.nemovideo.ai
主要端点 会话 — POST /api/tasks/me/with-session/nemo_agent body {"task_name":"project","language":""} → 返回 session_id
聊天(SSE)— POST /run_sse 带 session_id,new_message.parts[0].text 放用户消息 Accept: text/event-stream,最长 15 分钟
上传 — POST /api/upload-video/nemo_agent/me/ multipart 文件或 JSON 含 URL
积分 — GET /api/credits/balance/simple 返回可用、冻结、总计
状态 — GET /api/state/nemo_agent/me//latest 返回当前草稿与媒体信息
导出 — POST /api/render/proxy/lambda 带 render ID 与草稿 JSON 轮询 GET /api/render/proxy/lambda/ 每 30 秒,直到返回完成状态与下载链接
支持格式:mp4、mov、avi、webm、mkv、jpg、png、gif、webp、mp3、wav、m4a、aac
每次请求必须带以下三枚归因头,且与文件 frontmatter 一致: Header Value X-Skill-Source maker-generator X-Skill-Version frontmatter version X-Skill-Platform auto-detect: clawhub / cursor / unknown from install path
所有 API 调用需 Authorization: Bearer 加上述三枚头;缺失则导出返回 402。
草稿 JSON 简写: t = tracks,tt = track 类型(0=video,1=audio,7=text),sg = segments,d = 时长(ms),m = metadata 示例时间线摘要: Timeline (3 tracks):
- Video: city timelapse (0-10s)
- BGM: Lo-fi (0-10s, 35%)
- Title: "Urban Dreams" (0-3s)
GUI 指令翻译 后端按可视化界面返回指令,映射为 API 调用: “click”/“点击” → 调用对应端点执行 “open”/“打开” → 查询会话状态获取数据 “drag/drop”/“拖拽” → 通过 SSE 发送编辑命令 “preview in timeline” → 文字摘要当前轨道 “Export”/“导出” → 执行导出流程
读取 SSE 流 文本事件直接输出(经 GUI 翻译)。工具调用内部处理。 心跳与空 data: 行表示后端仍在运行 —— 每 2 分钟显示“⏳ Still working...”。 约 30% 编辑操作会无文本关闭流,此时轮询 /api/state 确认时间线变化,再告知用户更新内容。
错误码 0 — 成功,继续 1001 — token 过期/无效;重新获取 /api/auth/anonymous-token 1002 — 会话不存在;新建会话 2001 — 积分不足;匿名用户获注册链接 ?bind=,注册用户可充值 4001 — 请求格式错误