deepsop-genvis

AI 图片与视频异步生成技能，调用 AI Artist API 根据文本提示词生成图片或视频，自动轮询直到任务完成。 ⚠️ 使用前必须设置环境变量 AI_ARTIST_令牌为你自己的 API Key！需要 API Key 授权：已有账号请前往 https://AI.deepsop.com/记录in?source=2 登录获取；没有账号请前往 https://AI.deepsop.com/register?source=2 注册后获取。支持图片模型：**3.1Nano2-Evo（默认）**、S5.0L、N2、W2.7、W2.7Pro、Nano2-Beta-Evo、**Image2（GPTimage-2）**。支持视频模型：**V3.1FB（默认）**、S1.5Pro、V3.1PB、V3.1Fast、W2.6t / W2.6i / W2.6r、klingV3Omni、W2.7t / W2.7i / W2.7r、**S2.0 / S2.0Fast**（种子ance2.0 系列，支持多音频参考与联网搜索）。查看当前服务端激活的模型请运行：`python3 scripts/生成_image.py --列出-模型s`。触发场景： - 用户要求生成图片，如"生成一匹狼"、"画一只猫"、"风景画"、"帮我画"等。 - 用户要求生成视频，如"生成视频"、"文生视频"、"图生视频"、"生成一段...的视频"等。 - 用户指定模型：N2、S5.0L、W2.7、W2.7Pro、3.1Nano2-Evo、Nano2-Beta-Evo、Image2、GPTimage-2、gpt-image-2、S1.5Pro、V3.1FB、V3.1PB、V3.1Fast、W2.6t、W2.6i、W2.6r、klingV3Omni、W2.7t、W2.7i、W2.7r、S2.0、S2.0Fast、种子ance2.0。 - 用户上传参考图/参考视频时，自动先调用文件上传 API 转换为可访问 URL。

0· 0·0 当前·0 累计

by @2393970875 (aohan)·MIT-0

数据与API AI模型访问

使用场景：使用deepsop-genvis进行数据与API使用deepsop-genvis

下载技能包

License

MIT-0

License

MIT-0

可自由使用、修改和再分发，无需署名。

查看条款 ↗

运行时依赖

无特殊依赖

安装命令

点击复制

官方npx clawhub@latest install deepsop-genvis

镜像加速npx clawhub@latest install deepsop-genvis --registry https://cn.longxiaskill.com镜像同步中

本土化适配说明

deepsop-genvis 安装说明：安装命令：["openclaw skills install deepsop-genvis"]

需要定制？告诉我你的需求 →

技能文档

AI Image 生成器

异步生成 AI 图片与视频的技能。

⚠️ 首次使用必读

获取 API Key

本技能需要 API Key 授权才能调用 AI Artist API：

已有账号 → 前往 https://AI.deepsop.com/记录in?source=2 登录获取没有账号 → 前往 https://AI.deepsop.com/register?source=2 注册后获取

登录后在复制您的 API Key（sk- 开头）。

设置环境变量

在使用前，你必须先设置自己的 API Key：

# Linux/macOS/Git Bash (Windows) 导出 AI_ARTIST_令牌="sk-your_API_key_here"

# Windows PowerShell $env:AI_ARTIST_令牌="sk-your_API_key_here"

或在项目根目录放一个 .env 文件（需 pip 安装 python-dotenv，脚本会自动加载）：

AI_ARTIST_令牌=sk-your_API_key_here FEISHU_网页HOOK_URL= # 可选，用于结果通知

验证配置

验证配置是否正确：

python3 scripts/test_config.py

详细配置说明请查看下方"环境配置"章节。

快速开始 python3 scripts/生成_image.py "提示词"

意图澄清指南（重要）

调用前必须做的事：当用户的请求涉及参数复杂的模型，或关键信息缺失时，先向用户提问确认意图，再执行生成，避免浪费配额生成不符合预期的作品。

通用判断流程先分辨媒介：图片 vs 视频（关键词："画/生成图片/海报/插画" → 图片；"视频/动画/片段/动起来" → 视频）。判断输入材料：纯文字 → 文生模式（TEXT）有一张首帧图 → 首帧图生视频（FIRST&LAST）有首尾两张图 → 首尾帧控制（FIRST&LAST，需首帧+尾帧）有参考视频 → 续写（CONTINUATION）、编辑（EDIT）、参考生成（FEATURE/REFERENCE）有多张参考图（要求角色/元素一致性） → 参考图模式（REFERENCE）若用户意图不明确或关键材料缺失，必须提问，不要擅自假设。按模型列出"必须澄清的关键点"

所有视频模型通用：

时长（秒）？比例？（16:9 横屏 / 9:16 竖屏 / 1:1 正方）是否需要生成声音 / 配音 / 音乐？提示词含有人物时，是否希望保持角色一致性？

klingV3Omni（最复杂）：5 种生成类型 + 多镜头模式，务必确认：

生成类型：文生（TEXT）/ 首尾帧（FIRST&LAST）/ 参考图生视频（REFERENCE）/ 编辑已有视频（EDIT）/ 参考视频再创作（FEATURE）？镜头模式：单镜头（single）/ 智能多镜头（multi）/ 自定义分镜（customize，需要用户给出每个分镜的描述 + 时长）？生成模式：std 标准 / pro 专家级？若是 EDIT/FEATURE：需要参考视频 URL，并确认"是否保留原音"（keep_original_sound yes/no）

W2.6r / W2.7r（参考视频模式）：

参考图片 + 参考视频的总数 ≤ 5，询问用户是否都准备好了 URL / 本地文件是否想保留原视频的角色音色？希望迁移到什么场景？迁移的主体是什么？（让用户把场景描述写进 prompt）

W2.7i（图生视频，支持续写）：

输入是"一张首帧图"要让它动起来？→ FIRST&LAST（可选提供尾帧，让首尾过渡更可控）输入是"一段已有视频"要让它继续播？→ CONTINUATION（需要 first_命令行工具p_url）动作/运镜希望如何展开？请用户描述（写进 prompt）

W2.6t / W2.7t（文生视频）：

是否需要多镜头叙事？若是 → shot_type="multi"（智能分镜）是否有反向提示词（不希望出现的内容）？是否需要智能改写提示词（prompt_extend=True，默认 false）？是否需要传入自定义音频？

V3.1Fast（V3.1 系列的复杂款）：

是否需要翻译为英文提示词（enhance_prompt）？是否允许生成人物（personGeneration=allow_adult/dont_allow）？图像缩放模式（resize_mode=pad/crop）？时长 4 秒还是 8 秒？

V3.1FB / V3.1PB：时长固定 8 秒，不必问；但要确认比例 / 分辨率。

S1.5Pro（影视级）：

是否追求"音画同步 + 口型对齐"？（说明场景是否包含对话）时长在 4-12 秒之间，默认 10 秒，可问用户。

图片复杂款 W2.7 / W2.7Pro / N2 / 3.1Nano2-Evo：

有无参考图？做"风格迁移"、"角色一致性"、"文字渲染"时参考图能显著提升质量。是否需要特定比例？（默认 1:1，横图/竖图需指定）质量档位（1K/2K/4K，详见每个模型表）

Image2（GPTimage-2，OpenAI gpt-image-2 接入）：

渲染质量预设？low（最快）/ medium（平衡，默认）/ high（质量）——用 --ratiocination 一次出几张？1–10，用 --n 是否需要参考图？支持最多 16 张参考图、单张 ≤50MB；提示词上限 16000 字默认尺寸 auto（智能比例），可改为 1:1 / 3:4 / 4:3 / 16:9 / 9:16 等（禁用 1:4 / 4:1 / 1:8 / 8:1）该模型不接受网页搜索、不接受 image搜索；仅 3.1Nano2-Evo 支持 image搜索提问姿态（给 Claude 的指令）一次最多问 2-3 个最关键的问题，别堆 10 个选项让用户懵。优先问对画面/成本影响最大的参数（生成类型 > 时长 > 分辨率 > 次要参数）。提供默认建议，让用户说"就这样"也能继续，不要强制用户全部自选。示例："我打算用 klingV3Omni 做参考图生视频，比例 16:9、时长 10s、生成声音。你有几张想作为参考的图片吗？要不要保留原音？" 材料缺失时必须停下来要素材（URL / 本地文件路径），不要用占位符或假 URL 代替。用户若说"随便/都行"，按默认值直接执行，并在生成后告知用了哪些默认。何时可以不提问直接执行用户请求非常明确（提示词清晰 + 指定了模型 + 提供了必要的参考材料 URL）用户明确说"快速来一张就行" / "随便出个视频"：用默认模型与默认参数，生成后告知用了什么。用户只要一张插画/头像/风景图 → 直接用默认 3.1Nano2-Evo 图片模型。参考图/视频上传流程

当用户提供本地文件作为参考图或参考视频时，需要先调用文件上传 API 转换为可访问的 URL：

文件上传 API curl --location --请求 POST 'https://AI.deepsop.com/prod-API/系统/file上传/上传' \ --header 'x-API-key: sk-your_API_key_here' \ --form 'file=@"C:\\Users\\admin\\下载s\\image.png"'

返回结果：

{ "msg": "操作成功", "fileName": "image.png", "code": 200, "url": "https://kocgo-AI-sales-test.oss-cn-hangzhou.aliyuncs.com/material/100/xxx.png" }

使用上传后的 URL

获取到 url 后，可作为 firstImageUrl、lastImageUrl 或其他图片参数传入生成接口。

在对话中直接返回图片方式 1: Markdown 图片语法（推荐）

生成图片后，直接在回复中使用 Markdown 语法：

!描述

平台支持情况：

✅ 网页Chat、Discord、Telegram：完全支持 ✅ 飞书：支持（需公开 URL） ❌ Whats应用：不支持方式 2: 下载后发送（需要 message 工具）

使用 --下载参数下载图片，然后通过 message 工具发送：

python3 scripts/生成_image.py "风景画" --下载

然后在代码中读取图片并发送：

from scripts.生成_image 导入生成_image 导入 base64

结果 = 生成_image(prompt="风景画", 下载=True)

if 结果 and 结果["状态"] == "成功": # 方式 A: 使用 data URI image_uri = 结果["data_uri"] # data:image/png;base64,... # 方式 B: 读取本地文件 with open(结果["local_path"], "rb") as f: image_data = f.read() base64_data = base64.b64encode(image_data).decode()

参数说明通用参数参数默认值说明 prompt 必填生成提示词（图片或视频描述） --模型自动推断生成模型。未指定时根据 prompt 关键词自动推断：包含视频/动画/短片/动起来/镜头/命令行工具p/motion/video 等 → V3.1FB；其余 → 3.1Nano2-Evo。图片：3.1Nano2-Evo、S5.0L、N2、W2.7、W2.7Pro、Nano2-Beta-Evo；视频：V3.1FB、S1.5Pro、V3.1PB、V3.1Fast、W2.6t、W2.6i、W2.6r、klingV3Omni、W2.7t、W2.7i、W2.7r --列出-模型s - 列出当前服务端激活的模型（hidden状态=0）后退出，不需 prompt --dry-运行 - 仅构建并打印最终 payload，不提交任务（调试用） --json-输出 - 以单行 JSON 向 stdout 输出最终结果 {状态,url,message,local_path?}，便于 OpenClaw 等编排器解析 --interval 5 轮询间隔(秒) --max-wAIt 图片 600 / 视频 1200 任务轮询最长等待秒数输出契约（给编排器/OpenClaw） stdout：任务完成后恰好一行最终结果默认：成功时输出 URL，失败时留空 --json-输出：始终输出一行 JSON，形如 {"状态":"成功","url":"https://...","message":"..."} --markdown-输出：成功时输出 !prompt stderr：所有人类可读进度日志（[auto]、[上传]、预估费用、任务 ID、轮询状态变化、⚠️ 警告、错误说明）退出码：0 = 成功，1 = 失败/超时

脚本会始终轮询到终态（成功 / FAILED

数据来源：ClawHub ↗ · 中文优化：龙虾技能库