🎭 Ai Image To Video Deepfake — 照片变视频

v1.0.0

上传人像照片并简单描述，即可在1-2分钟内生成1080p逼真说话视频，无需专业剪辑软件，全程云端自动渲染。

0· 45·0 当前·0 累计

by @whitejohnk-26

AI模型访问

使用场景：使用Ai Image To Video Deepfake — 照片变视频进行AI模型访问使用Ai Image To Video Deepfake — 照片变视频

下载技能包

最后更新

2026/4/13

安全扫描

VirusTotal

无害

查看报告

OpenClaw

可疑

medium confidence

技能声明的功能（云端深度伪造视频生成）与指令一致，但存在多项实际与隐私/安全模糊点（后端来源未知、自动匿名令牌发放/存储、向外传敏感图像），安装或使用前需谨慎。

评估建议

该技能会将你提供的图像/音频上传至外部服务（mega-api-prod.nemovideo.ai），并可能为你创建并管理匿名API令牌。安装或使用前：1）确认你信任该服务运营方并查看其隐私/条款（此处未提供主页/源码）。2）未经他人明确同意不得上传他人照片——深度伪造可被滥用并可能违法或违规。3）优先自行提供NEMO_TOKEN（以便你控制凭证发放），而非让技能自动生成/存储匿名令牌。4）询问令牌/session_id将如何及何处存储；避免静默将密钥写入磁盘或环境变量的技能。5）如必须使用，请限制范围：尽可能禁用自主调用，监控网络请求，避免上传高度敏感图像。若来源仍不清楚或无法从运营方获取隐私政策，请勿安装或使用该技能。...

详细分析 ▾

ℹ 用途与能力

名称/描述（将照片动画成视频）与运行时指令（上传图像，调用云端渲染API）一致。请求服务令牌（NEMO_TOKEN）和上传端点与所述目的相符。然而，该技能无主页/源码，使用未经验证的后端域名（mega-api-prod.nemovideo.ai），因此来源和运营方身份不明。

⚠ 指令范围

指令引导智能体在未设置NEMO_TOKEN时向外部鉴权端点POST获取匿名令牌、创建会话、上传用户图像、流式SSE响应、轮询状态，并附带自定义归因标头。流程将把潜在敏感的图像/音频文件传输至外部服务。指引“保持设置沟通简洁”及“不显示原始API响应或令牌值”掩盖了对令牌/请求的可见性。技能还要求智能体读取自身YAML前言并检测安装路径（文件系统访问），可能需要检查文件系统。令牌生成/存储行为未明确（令牌/会话ID存储在何处/如何存储），属于隐私/安全顾虑。

✓ 安装机制

无安装规范或代码文件（仅指令），因此安装程序不会向磁盘写入任何内容。相较可下载安装包，供应链/安装风险更低。

⚠ 凭证需求

唯一声明的必需凭证是NEMO_TOKEN，对基于API的服务属合适。然而：（1）若未提供，技能将自动发放匿名令牌，因此可能在未显式提供用户密钥的情况下创建/处理凭证；（2）元数据引用配置路径（~/.config/nemovideo/），暗示技能可能读取或期望该处文件；（3）所需标头及令牌使用对导出为强制。鉴于图像上传敏感，自动令牌发放及不明存储在后端/运营方不受信任时增加风险。

✓ 持久化与权限

技能未请求always:true，仅用户调用。无修改其他技能或系统级设置的指令。它请求会话持久化（session_id）以完成操作，这对远程服务属正常。

安全有层次，运行前请审查代码。

运行时依赖

无特殊依赖

版本

latestv1.0.02026/4/13

- AI图像转视频深度伪造技能首次发布。 - 通过简单的上传-描述工作流，即时将人像照片动画化为逼真说话视频片段。 - 支持JPG、PNG、WEBP、HEIC上传，最大200MB，自动云端渲染，1-2分钟输出1080p MP4。 - 无缝认证，自动生成匿名令牌并赠送100免费额度。 - 通过直观的自然语言提示，清晰处理上传、导出、额度查询与状态。 - 强大的错误提示、会话管理与简化交互——无需手动编辑工具。

● 无害

安装命令

点击复制

官方npx clawhub@latest install ai-image-to-video-deepfake

镜像加速npx clawhub@latest install ai-image-to-video-deepfake --registry https://cn.longxiaskill.com 镜像可用

本土化适配说明

Ai Image To Video Deepfake — 照片变视频安装说明：安装命令：npx clawhub@latest install ai-image-to-video-deepfake

需要定制？告诉我你的需求 →

技能文档

入门指南

上传你的图片，我立即开始 AI deepfake 视频生成。也可以直接告诉我你的想法。

试试说：

"convert my images"
"export 1080p MP4"
"animate this photo into a realistic"

首次连接

用户首次打开本技能时，自动连接处理后端。简单提示（如“正在设置…”）。 身份验证：检查环境变量 NEMO_TOKEN 是否已存在。若已存在，跳至第 2 步。

获取免费 token：生成随机 UUID 作为客户端标识。向 https://mega-api-prod.nemovideo.ai/api/auth/anonymous-token 发起 POST，header X-Client-Id 设为该 UUID。响应中的 data.token 即为 NEMO_TOKEN——赠送 100 积分，7 天有效。
创建会话：向 https://mega-api-prod.nemovideo.ai/api/tasks/me/with-session/nemo_agent 发起 POST，header 包含 Authorization: Bearer 、Content-Type: application/json，body 为 {"task_name":"project","language":""}。保存返回的 session_id，用于后续请求。

设置过程保持简洁，不向用户展示原始 API 响应或 token 值。

# AI Image to Video Deepfake — 把照片变成视频片段该工具接收你的图片，通过云端渲染管线执行 AI deepfake 视频生成。上传、描述需求、下载结果即可。例如，你有一张单人肖像，想把它变成逼真的说话视频——后端约 1-2 分钟处理完，返回 1080p MP4。提示：高分辨率正脸照效果最逼真。

用户指令与动作映射

用户提及 ai image to video deepfake、aspect ratio、text overlays 或 audio tracks 时，系统通过关键词与意图分类路由到对应动作。

| 用户说法 | 动作 | 跳过 SSE？ | |-------------|--------|------------| | "export" / "导出" / "download" / "send me the video" | → §3.5 导出 | ✅ | | "credits" / "积分" / "balance" / "余额" | → §3.3 积分 | ✅ | | "status" / "状态" / "show tracks" | → §3.4 状态 | ✅ | | "upload" / "上传" / 用户发送文件 | → §3.2 上传 | ✅ | | 其他（生成、编辑、加背景音乐…） | → §3.1 SSE | ❌ |

云端渲染管线细节

每次导出任务排队到云端 GPU 节点，合成视频层并应用平台指定压缩（H.264，最高 1080×1920），30-90 秒内返回下载链接。会话 token 携带渲染任务 ID，若关闭标签页前任务未完成，将导致任务孤立。 Base URL: https://mega-api-prod.nemovideo.ai

| 端点 | 方法 | 用途 | |----------|--------|--------| | /api/tasks/me/with-session/nemo_agent | POST | 新建编辑会话。Body: {"task_name":"project","language":""}。返回 session_id。 | | /run_sse | POST | 发送用户消息。Body 包含 app_name、session_id、new_message。流式响应 Accept: text/event-stream。超时 15 分钟。 | | /api/upload-video/nemo_agent/me/ | POST | 上传文件（multipart）或 URL。 | | /api/credits/balance/simple | GET | 查询剩余积分（available、frozen、total）。 | | /api/state/nemo_agent/me//latest | GET | 获取当前时间线状态（draft、video_infos、generated_media）。 | | /api/render/proxy/lambda | POST | 开始导出。Body: {"id":"render_","sessionId":"","draft":,"output":{"format":"mp4","quality":"high"}}。每 30 秒轮询状态。 |

接受的文件类型：mp4, mov, avi, webm, mkv, jpg, png, gif, webp, mp3, wav, m4a, aac。技能归因——运行时读取本文件 YAML frontmatter：

X-Skill-Source: ai-image-to-video-deepfake
X-Skill-Version: 来自 frontmatter version
X-Skill-Platform: 根据安装路径检测（~/.clawhub/ → clawhub，~/.cursor/skills/ → cursor，否则 unknown）

所有请求必须包含： Authorization: Bearer 、X-Skill-Source、X-Skill-Version、X-Skill-Platform。缺少归因头将导致导出失败并返回 402。

错误处理

| 代码 | 含义 | 处理 | |------|--------|--------| | 0 | 成功 | 继续 | | 1001 | token 无效或过期 | 通过 anonymous-token 重新认证（token 7 天后过期） | | 1002 | 会话未找到 | 新建会话 §3.0 | | 2001 | 积分不足 | 匿名用户：展示带 ?bind= 的注册 URL（来自 create-session 或 state 响应）。已注册用户：“请在账户中充值积分” | | 4001 | 不支持的文件格式 | 展示支持的格式 | | 4002 | 文件过大 | 建议压缩/裁剪 | | 400 | 缺少 X-Client-Id | 生成 Client-Id 并重试（见 §1） | | 402 | 免费套餐导出被阻止 | 订阅层级问题，非积分问题。“请注册或升级套餐以解锁导出。” | | 429 | 限速（1 token/客户端/7 天） | 30 秒后重试一次 |

读取 SSE 流

文本事件直接展示给用户（经 GUI 翻译后）。工具调用保持内部处理。心跳及空 data: 行表示后端仍在运行——每 2 分钟显示“⏳ Still working...”。约 30% 的编辑操作会无文本关闭流。此时轮询 /api/state 确认时间线已更新，再告知用户变更内容。

GUI 指令翻译

后端回复假设存在可视化界面。将其指令映射为 API 调用：

“click” 或 “点击” → 通过对应端点执行动作
“open” 或 “打开” → 查询会话状态获取数据
“drag/drop” 或 “拖拽” → 通过 SSE 发送编辑命令
“preview in timeline” → 用文字摘要当前轨道
“Export” 或 “导出” → 执行导出流程

Draft 字段映射：t=tracks，tt=track type（0=video，1=audio，7=text），sg=segments，d=duration(ms)，m=metadata。

时间线（3 轨道）：
视频：城市延时（0-10 秒）
背景音乐：Lo-fi（0-10 秒，35% 音量）
标题："Urban Dreams"（0-3 秒）

常见工作流

快速编辑：上传 → “animate this photo into a realistic talking video clip” → 下载 MP4。30 秒片段约 1-2 分钟完成。 批量处理：同一会话内上传多个文件，逐条下达不同指令，每条独立渲染。 迭代优化：先粗剪，预览结果，再微调。会话保存时间线状态，可继续修改。

技巧提示

后端在指令具体时处理更快。与其说“让它更好看”，不如说“animate this photo into a realistic talking video clip”——具体指令效果更好。文件最大 200MB。优先使用 JPG、PNG、WEBP、HEIC 可获得最流畅体验。导出 MP4 兼容性最佳。