🎭 Ai Image To Video Deepfake — 照片变视频

v1.0.0

上传人像照片并简单描述,即可在1-2分钟内生成1080p逼真说话视频,无需专业剪辑软件,全程云端自动渲染。

0· 45·0 当前·0 累计
下载技能包
最后更新
2026/4/13
0
安全扫描
VirusTotal
无害
查看报告
OpenClaw
可疑
medium confidence
技能声明的功能(云端深度伪造视频生成)与指令一致,但存在多项实际与隐私/安全模糊点(后端来源未知、自动匿名令牌发放/存储、向外传敏感图像),安装或使用前需谨慎。
评估建议
该技能会将你提供的图像/音频上传至外部服务(mega-api-prod.nemovideo.ai),并可能为你创建并管理匿名API令牌。安装或使用前:1)确认你信任该服务运营方并查看其隐私/条款(此处未提供主页/源码)。2)未经他人明确同意不得上传他人照片——深度伪造可被滥用并可能违法或违规。3)优先自行提供NEMO_TOKEN(以便你控制凭证发放),而非让技能自动生成/存储匿名令牌。4)询问令牌/session_id将如何及何处存储;避免静默将密钥写入磁盘或环境变量的技能。5)如必须使用,请限制范围:尽可能禁用自主调用,监控网络请求,避免上传高度敏感图像。若来源仍不清楚或无法从运营方获取隐私政策,请勿安装或使用该技能。...
详细分析 ▾
用途与能力
名称/描述(将照片动画成视频)与运行时指令(上传图像,调用云端渲染API)一致。请求服务令牌(NEMO_TOKEN)和上传端点与所述目的相符。然而,该技能无主页/源码,使用未经验证的后端域名(mega-api-prod.nemovideo.ai),因此来源和运营方身份不明。
指令范围
指令引导智能体在未设置NEMO_TOKEN时向外部鉴权端点POST获取匿名令牌、创建会话、上传用户图像、流式SSE响应、轮询状态,并附带自定义归因标头。流程将把潜在敏感的图像/音频文件传输至外部服务。指引“保持设置沟通简洁”及“不显示原始API响应或令牌值”掩盖了对令牌/请求的可见性。技能还要求智能体读取自身YAML前言并检测安装路径(文件系统访问),可能需要检查文件系统。令牌生成/存储行为未明确(令牌/会话ID存储在何处/如何存储),属于隐私/安全顾虑。
安装机制
无安装规范或代码文件(仅指令),因此安装程序不会向磁盘写入任何内容。相较可下载安装包,供应链/安装风险更低。
凭证需求
唯一声明的必需凭证是NEMO_TOKEN,对基于API的服务属合适。然而:(1)若未提供,技能将自动发放匿名令牌,因此可能在未显式提供用户密钥的情况下创建/处理凭证;(2)元数据引用配置路径(~/.config/nemovideo/),暗示技能可能读取或期望该处文件;(3)所需标头及令牌使用对导出为强制。鉴于图像上传敏感,自动令牌发放及不明存储在后端/运营方不受信任时增加风险。
持久化与权限
技能未请求always:true,仅用户调用。无修改其他技能或系统级设置的指令。它请求会话持久化(session_id)以完成操作,这对远程服务属正常。
安全有层次,运行前请审查代码。

运行时依赖

无特殊依赖

版本

latestv1.0.02026/4/13

- AI图像转视频深度伪造技能首次发布。 - 通过简单的上传-描述工作流,即时将人像照片动画化为逼真说话视频片段。 - 支持JPG、PNG、WEBP、HEIC上传,最大200MB,自动云端渲染,1-2分钟输出1080p MP4。 - 无缝认证,自动生成匿名令牌并赠送100免费额度。 - 通过直观的自然语言提示,清晰处理上传、导出、额度查询与状态。 - 强大的错误提示、会话管理与简化交互——无需手动编辑工具。

无害

安装命令

点击复制
官方npx clawhub@latest install ai-image-to-video-deepfake
镜像加速npx clawhub@latest install ai-image-to-video-deepfake --registry https://cn.longxiaskill.com

技能文档

入门指南

上传你的图片,我立即开始 AI deepfake 视频生成。也可以直接告诉我你的想法。
试试说:
  • "convert my images"
  • "export 1080p MP4"
  • "animate this photo into a realistic"

首次连接

用户首次打开本技能时,自动连接处理后端。简单提示(如“正在设置…”)。 身份验证:检查环境变量 NEMO_TOKEN 是否已存在。若已存在,跳至第 2 步。
  • 获取免费 token:生成随机 UUID 作为客户端标识。向 https://mega-api-prod.nemovideo.ai/api/auth/anonymous-token 发起 POST,header X-Client-Id 设为该 UUID。响应中的 data.token 即为 NEMO_TOKEN——赠送 100 积分,7 天有效。
  • 创建会话:向 https://mega-api-prod.nemovideo.ai/api/tasks/me/with-session/nemo_agent 发起 POST,header 包含 Authorization: Bearer Content-Type: application/json,body 为 {"task_name":"project","language":""}。保存返回的 session_id,用于后续请求。
设置过程保持简洁,不向用户展示原始 API 响应或 token 值。

# AI Image to Video Deepfake — 把照片变成视频片段 该工具接收你的图片,通过云端渲染管线执行 AI deepfake 视频生成。上传、描述需求、下载结果即可。 例如,你有一张单人肖像,想把它变成逼真的说话视频——后端约 1-2 分钟处理完,返回 1080p MP4。 提示:高分辨率正脸照效果最逼真。

用户指令与动作映射

用户提及 ai image to video deepfake、aspect ratio、text overlays 或 audio tracks 时,系统通过关键词与意图分类路由到对应动作。

| 用户说法 | 动作 | 跳过 SSE? | |-------------|--------|------------| | "export" / "导出" / "download" / "send me the video" | → §3.5 导出 | ✅ | | "credits" / "积分" / "balance" / "余额" | → §3.3 积分 | ✅ | | "status" / "状态" / "show tracks" | → §3.4 状态 | ✅ | | "upload" / "上传" / 用户发送文件 | → §3.2 上传 | ✅ | | 其他(生成、编辑、加背景音乐…) | → §3.1 SSE | ❌ |

云端渲染管线细节

每次导出任务排队到云端 GPU 节点,合成视频层并应用平台指定压缩(H.264,最高 1080×1920),30-90 秒内返回下载链接。 会话 token 携带渲染任务 ID,若关闭标签页前任务未完成,将导致任务孤立。 Base URL: https://mega-api-prod.nemovideo.ai

| 端点 | 方法 | 用途 | |----------|--------|--------| | /api/tasks/me/with-session/nemo_agent | POST | 新建编辑会话。Body: {"task_name":"project","language":""}。返回 session_id。 | | /run_sse | POST | 发送用户消息。Body 包含 app_namesession_idnew_message。流式响应 Accept: text/event-stream。超时 15 分钟。 | | /api/upload-video/nemo_agent/me/ | POST | 上传文件(multipart)或 URL。 | | /api/credits/balance/simple | GET | 查询剩余积分(availablefrozentotal)。 | | /api/state/nemo_agent/me//latest | GET | 获取当前时间线状态(draftvideo_infosgenerated_media)。 | | /api/render/proxy/lambda | POST | 开始导出。Body: {"id":"render_","sessionId":"","draft":,"output":{"format":"mp4","quality":"high"}}。每 30 秒轮询状态。 |

接受的文件类型:mp4, mov, avi, webm, mkv, jpg, png, gif, webp, mp3, wav, m4a, aac。 技能归因——运行时读取本文件 YAML frontmatter:

  • X-Skill-Source: ai-image-to-video-deepfake
  • X-Skill-Version: 来自 frontmatter version
  • X-Skill-Platform: 根据安装路径检测(~/.clawhub/clawhub~/.cursor/skills/cursor,否则 unknown

所有请求必须包含: Authorization: Bearer X-Skill-SourceX-Skill-VersionX-Skill-Platform。 缺少归因头将导致导出失败并返回 402。

错误处理

| 代码 | 含义 | 处理 | |------|--------|--------| | 0 | 成功 | 继续 | | 1001 | token 无效或过期 | 通过 anonymous-token 重新认证(token 7 天后过期) | | 1002 | 会话未找到 | 新建会话 §3.0 | | 2001 | 积分不足 | 匿名用户:展示带 ?bind= 的注册 URL( 来自 create-session 或 state 响应)。已注册用户:“请在账户中充值积分” | | 4001 | 不支持的文件格式 | 展示支持的格式 | | 4002 | 文件过大 | 建议压缩/裁剪 | | 400 | 缺少 X-Client-Id | 生成 Client-Id 并重试(见 §1) | | 402 | 免费套餐导出被阻止 | 订阅层级问题,非积分问题。“请注册或升级套餐以解锁导出。” | | 429 | 限速(1 token/客户端/7 天) | 30 秒后重试一次 |

读取 SSE 流

文本事件直接展示给用户(经 GUI 翻译后)。工具调用保持内部处理。 心跳及空 data: 行表示后端仍在运行——每 2 分钟显示“⏳ Still working...”。 约 30% 的编辑操作会无文本关闭流。此时轮询 /api/state 确认时间线已更新,再告知用户变更内容。

GUI 指令翻译

后端回复假设存在可视化界面。将其指令映射为 API 调用:
  • “click” 或 “点击” → 通过对应端点执行动作
  • “open” 或 “打开” → 查询会话状态获取数据
  • “drag/drop” 或 “拖拽” → 通过 SSE 发送编辑命令
  • “preview in timeline” → 用文字摘要当前轨道
  • “Export” 或 “导出” → 执行导出流程

Draft 字段映射t=tracks,tt=track type(0=video,1=audio,7=text),sg=segments,d=duration(ms),m=metadata。

时间线(3 轨道):
  • 视频:城市延时(0-10 秒)
  • 背景音乐:Lo-fi(0-10 秒,35% 音量)
  • 标题:"Urban Dreams"(0-3 秒)

常见工作流

快速编辑:上传 → “animate this photo into a realistic talking video clip” → 下载 MP4。30 秒片段约 1-2 分钟完成。 批量处理:同一会话内上传多个文件,逐条下达不同指令,每条独立渲染。 迭代优化:先粗剪,预览结果,再微调。会话保存时间线状态,可继续修改。

技巧提示

后端在指令具体时处理更快。与其说“让它更好看”,不如说“animate this photo into a realistic talking video clip”——具体指令效果更好。 文件最大 200MB。优先使用 JPG、PNG、WEBP、HEIC 可获得最流畅体验。导出 MP4 兼容性最佳。

数据来源ClawHub ↗ · 中文优化:龙虾技能库