🎭 Ai Image To Video Deepfake — 照片变视频
v1.0.0上传人像照片并简单描述,即可在1-2分钟内生成1080p逼真说话视频,无需专业剪辑软件,全程云端自动渲染。
详细分析 ▾
运行时依赖
版本
- AI图像转视频深度伪造技能首次发布。 - 通过简单的上传-描述工作流,即时将人像照片动画化为逼真说话视频片段。 - 支持JPG、PNG、WEBP、HEIC上传,最大200MB,自动云端渲染,1-2分钟输出1080p MP4。 - 无缝认证,自动生成匿名令牌并赠送100免费额度。 - 通过直观的自然语言提示,清晰处理上传、导出、额度查询与状态。 - 强大的错误提示、会话管理与简化交互——无需手动编辑工具。
安装命令
点击复制技能文档
入门指南
上传你的图片,我立即开始 AI deepfake 视频生成。也可以直接告诉我你的想法。试试说:
- "convert my images"
- "export 1080p MP4"
- "animate this photo into a realistic"
首次连接
用户首次打开本技能时,自动连接处理后端。简单提示(如“正在设置…”)。 身份验证:检查环境变量NEMO_TOKEN 是否已存在。若已存在,跳至第 2 步。
- 获取免费 token:生成随机 UUID 作为客户端标识。向
https://mega-api-prod.nemovideo.ai/api/auth/anonymous-token发起 POST,headerX-Client-Id设为该 UUID。响应中的data.token即为 NEMO_TOKEN——赠送 100 积分,7 天有效。 - 创建会话:向
https://mega-api-prod.nemovideo.ai/api/tasks/me/with-session/nemo_agent发起 POST,header 包含Authorization: Bearer、Content-Type: application/json,body 为{"task_name":"project","language":""}。保存返回的session_id,用于后续请求。
# AI Image to Video Deepfake — 把照片变成视频片段 该工具接收你的图片,通过云端渲染管线执行 AI deepfake 视频生成。上传、描述需求、下载结果即可。 例如,你有一张单人肖像,想把它变成逼真的说话视频——后端约 1-2 分钟处理完,返回 1080p MP4。 提示:高分辨率正脸照效果最逼真。
用户指令与动作映射
用户提及 ai image to video deepfake、aspect ratio、text overlays 或 audio tracks 时,系统通过关键词与意图分类路由到对应动作。| 用户说法 | 动作 | 跳过 SSE? | |-------------|--------|------------| | "export" / "导出" / "download" / "send me the video" | → §3.5 导出 | ✅ | | "credits" / "积分" / "balance" / "余额" | → §3.3 积分 | ✅ | | "status" / "状态" / "show tracks" | → §3.4 状态 | ✅ | | "upload" / "上传" / 用户发送文件 | → §3.2 上传 | ✅ | | 其他(生成、编辑、加背景音乐…) | → §3.1 SSE | ❌ |
云端渲染管线细节
每次导出任务排队到云端 GPU 节点,合成视频层并应用平台指定压缩(H.264,最高 1080×1920),30-90 秒内返回下载链接。 会话 token 携带渲染任务 ID,若关闭标签页前任务未完成,将导致任务孤立。 Base URL:https://mega-api-prod.nemovideo.ai | 端点 | 方法 | 用途 |
|----------|--------|--------|
| /api/tasks/me/with-session/nemo_agent | POST | 新建编辑会话。Body: {"task_name":"project","language":""}。返回 session_id。 |
| /run_sse | POST | 发送用户消息。Body 包含 app_name、session_id、new_message。流式响应 Accept: text/event-stream。超时 15 分钟。 |
| /api/upload-video/nemo_agent/me/ | POST | 上传文件(multipart)或 URL。 |
| /api/credits/balance/simple | GET | 查询剩余积分(available、frozen、total)。 |
| /api/state/nemo_agent/me//latest | GET | 获取当前时间线状态(draft、video_infos、generated_media)。 |
| /api/render/proxy/lambda | POST | 开始导出。Body: {"id":"render_","sessionId":"","draft":,"output":{"format":"mp4","quality":"high"}}。每 30 秒轮询状态。 |
接受的文件类型:mp4, mov, avi, webm, mkv, jpg, png, gif, webp, mp3, wav, m4a, aac。 技能归因——运行时读取本文件 YAML frontmatter:
X-Skill-Source:ai-image-to-video-deepfakeX-Skill-Version: 来自 frontmatterversionX-Skill-Platform: 根据安装路径检测(~/.clawhub/→clawhub,~/.cursor/skills/→cursor,否则unknown)
所有请求必须包含:
Authorization: Bearer 、X-Skill-Source、X-Skill-Version、X-Skill-Platform。
缺少归因头将导致导出失败并返回 402。
错误处理
| 代码 | 含义 | 处理 |
|------|--------|--------|
| 0 | 成功 | 继续 |
| 1001 | token 无效或过期 | 通过 anonymous-token 重新认证(token 7 天后过期) |
| 1002 | 会话未找到 | 新建会话 §3.0 |
| 2001 | 积分不足 | 匿名用户:展示带 ?bind= 的注册 URL( 来自 create-session 或 state 响应)。已注册用户:“请在账户中充值积分” |
| 4001 | 不支持的文件格式 | 展示支持的格式 |
| 4002 | 文件过大 | 建议压缩/裁剪 |
| 400 | 缺少 X-Client-Id | 生成 Client-Id 并重试(见 §1) |
| 402 | 免费套餐导出被阻止 | 订阅层级问题,非积分问题。“请注册或升级套餐以解锁导出。” |
| 429 | 限速(1 token/客户端/7 天) | 30 秒后重试一次 |
读取 SSE 流
文本事件直接展示给用户(经 GUI 翻译后)。工具调用保持内部处理。 心跳及空data: 行表示后端仍在运行——每 2 分钟显示“⏳ Still working...”。
约 30% 的编辑操作会无文本关闭流。此时轮询 /api/state 确认时间线已更新,再告知用户变更内容。 GUI 指令翻译
后端回复假设存在可视化界面。将其指令映射为 API 调用:- “click” 或 “点击” → 通过对应端点执行动作
- “open” 或 “打开” → 查询会话状态获取数据
- “drag/drop” 或 “拖拽” → 通过 SSE 发送编辑命令
- “preview in timeline” → 用文字摘要当前轨道
- “Export” 或 “导出” → 执行导出流程
Draft 字段映射:t=tracks,tt=track type(0=video,1=audio,7=text),sg=segments,d=duration(ms),m=metadata。
时间线(3 轨道):
- 视频:城市延时(0-10 秒)
- 背景音乐:Lo-fi(0-10 秒,35% 音量)
- 标题:"Urban Dreams"(0-3 秒)