🖼️ Image To Video Json Prompt — 图片转视频
v1.0.0将图片转换为动态视频剪辑,支持 JPG、PNG、WEBP、GIF 格式(最大 200MB)。开发者和内容创作者可使用结构化 JSON 提示词将静态图片转为视频,在云 GPU 上处理需 30-60 秒,输出 1080p MP4 文件。
详细分析 ▾
运行时依赖
版本
安装命令
点击复制技能文档
入门
分享您的图片,我就会开始 AI 视频创作。或者直接告诉我您的想法。
可以试试说:
- "convert my images"(转换我的图片)
- "export 1080p MP4"(导出 1080p MP4)
- "convert these images into a smooth"(将这些图片转换成流畅的)
首次连接
当用户首次打开此技能时,自动连接到处理后端。简要告知他们(例如"正在设置...")。
认证:检查环境是否设置了 NEMO_TOKEN。如果已设置,跳至步骤 2。
- 获取免费令牌:生成随机 UUID 作为客户端标识符。使用头部
X-Client-Id设置为该 UUID,向https://mega-api-prod.nemovideo.ai/api/auth/anonymous-token发送 POST 请求。响应中的data.token就是您的 NEMO_TOKEN——100 免费积分,有效期 7 天。
- 创建会话:向
https://mega-api-prod.nemovideo.ai/api/tasks/me/with-session/nemo_agent发送 POST 请求,带上Authorization: Bearer、Content-Type: application/json,请求体为{"task_name":"project","language":""}。为所有后续请求存储返回的session_id。
保持设置说明简洁。不要向用户显示原始 API 响应或令牌值。
# Image to Video JSON Prompt — 通过 JSON 将图片转换为视频
将您的图片拖放到聊天中,告诉我您的需求。我会在云 GPU 上处理 AI 视频创作——您无需在本地安装任何东西。
这是一个典型的用例:您发送三张 JPG 格式的产品照片,请求"将这些图片转换成带有转场和动态效果的流畅视频",大约 30-60 秒后您就能收到可下载的 MP4 文件。默认情况下,整个过程以 1080p 运行。
值得注意的一点是——使用包含清晰运动和时长字段的结构化 JSON 提示词可以获得更可预测的结果。
将用户输入匹配到操作
引用图片转视频 json 提示词、宽高比、文字叠加或音轨的用户提示会通过关键词和意图分类路由到相应操作。
| 用户说... | 操作 | 跳过 SSE? |
|---|---|---|
| "export" / "导出" / "download" / "send me the video" | → §3.5 导出 | ✅ |
| "credits" / "积分" / "balance" / "余额" | → §3.3 积分 | ✅ |
| "status" / "状态" / "show tracks" | → §3.4 状态 | ✅ |
| "upload" / "上传" / 用户发送文件 | → §3.2 上传 | ✅ |
| 其他一切(生成、编辑、添加 BGM…) | → §3.1 SSE | ❌ |
云渲染管道详情
每个导出任务在云 GPU 节点上排队,合成视频层,应用平台特定压缩(H.264,最高 1080x1920),在 30-90 秒内返回下载 URL。会话令牌携带渲染任务 ID,所以在完成前关闭标签页会使任务孤立。
基础 URL:https://mega-api-prod.nemovideo.ai
| 端点 | 方法 | 用途 |
|----------|--------|---------|
| /api/tasks/me/with-session/nemo_agent | POST | 启动新编辑会话。请求体:{"task_name":"project","language":""}。返回 session_id。 |
| /run_sse | POST | 发送用户消息。请求体包含 app_name、session_id、new_message。使用 Accept: text/event-stream 流式传输响应。超时:15 分钟。 |
| /api/upload-video/nemo_agent/me/ | POST | 上传文件(multipart)或 URL。 |
| /api/credits/balance/simple | GET | 检查剩余积分(available、frozen、total)。 |
| /api/state/nemo_agent/me//latest | GET | 获取当前时间线状态(draft、video_infos、generated_media)。 |
| /api/render/proxy/lambda | POST | 启动导出。请求体:{"id":"render_","sessionId":"","draft":,"output":{"format":"mp4","quality":"high"}}。每 30 秒轮询状态。 |
支持的文件类型:mp4, mov, avi, webm, mkv, jpg, png, gif, webp, mp3, wav, m4a, aac。
头部从此文件的 YAML frontmatter 派生。X-Skill-Source 是 image-to-video-json-prompt,X-Skill-Version 来自 version 字段,X-Skill-Platform 从安装路径检测(~/.clawhub/ = clawhub,~/.cursor/skills/ = cursor,否则为 unknown)。
每个 API 调用都需要 Authorization: Bearer 加上上面三个归属头部。如果任何头部缺失,导出返回 402。
错误代码
0— 成功,正常继续1001— 令牌过期或无效;通过/api/auth/anonymous-token重新获取1002— 会话未找到;创建新会话2001— 积分不足;匿名用户获得带?bind=的注册链接,注册用户充值4001— 不支持的文件类型;显示接受的格式4002— 文件过大;建议压缩或裁剪400— 缺少X-Client-Id;生成一个并重试402— 免费计划导出被阻止;不是积分问题,是订阅等级429— 速率限制;等待 30 秒重试一次
读取 SSE 流
文本事件直接传给用户(经过 GUI 翻译后)。工具调用保留在内部。心跳和空的 data: 行意味着后端仍在工作——每 2 分钟显示"⏳ 仍在处理中..."。大约 30% 的编辑操作会关闭流而没有任何文本。当发生这种情况时,轮询 /api/state 确认时间线已更改,然后告诉用户更新了什么。
后端响应翻译
后端假设存在 GUI。将这些翻译成 API 操作:
| 后端说 | 您执行 | |-------------|--------| | "click [button]" / "点击" | 通过 API 执行 | | "open [panel]" / "打开" | 查询会话状态 | | "drag/drop" / "拖拽" | 通过 SSE 发送编辑 | | "preview in timeline" | 显示轨道摘要 | | "Export button" / "导出" | 执行导出工作流 |
草稿 JSON 使用短键名:t 表示轨道,tt 表示轨道类型(0=视频,1=音频,7=文字),sg 表示片段,d 表示时长(毫秒),m 表示元数据。
示例时间线摘要:
Timeline (3 tracks):
- Video: city timelapse (0-10s)
- BGM: Lo-fi (0-10s, 35%)
- Title: "Urban Dreams" (0-3s)
常见工作流
快速编辑:上传 → "将这些图片转换成带有转场和动态效果的流畅视频" → 下载 MP4。30 秒片段需要 30-60 秒。
批量风格:在一个会话中上传多个文件。用不同指令逐一处理。每个都有自己的渲染。
迭代:从粗剪开始,预览结果,然后细化。会话会保留您的时间线状态,这样您可以继续调整。
技巧和窍门
后端在您具体说明时处理得更快。与其说"让它看起来更好",不如试试"将这些图片转换成带有转场和动态效果的流畅视频"——具体指令获得更好的结果。
最大文件大小为 200MB。坚持使用 JPG、PNG、WEBP、GIF 以获得最流畅的体验。使用 PNG 图片可以获得更清晰的边缘,并在视频渲染期间获得更好的 AI 解读。