deepsop-genvis
v2AI 图片与视频异步生成技能,调用 AI Artist API 根据文本提示词生成图片或视频,自动轮询直到任务完成。 ⚠️ 使用前必须设置环境变量 AI_ARTIST_令牌 为你自己的 API Key! 需要 API Key 授权:已有账号请前往 https://AI.deepsop.com/记录in?source=2 登录获取;没有账号请前往 https://AI.deepsop.com/register?source=2 注册后获取。 支持图片模型:**3.1Nano2-Evo(默认)**、S5.0L、N2、W2.7、W2.7Pro、Nano2-Beta-Evo、**Image2(GPTimage-2)**。 支持视频模型:**V3.1FB(默认)**、S1.5Pro、V3.1PB、V3.1Fast、W2.6t / W2.6i / W2.6r、klingV3Omni、W2.7t / W2.7i / W2.7r、**S2.0 / S2.0Fast**(种子ance2.0 系列,支持多音频参考与联网搜索)。 查看当前服务端激活的模型请运行:`python3 scripts/生成_image.py --列出-模型s`。 触发场景: - 用户要求生成图片,如"生成一匹狼"、"画一只猫"、"风景画"、"帮我画"等。 - 用户要求生成视频,如"生成视频"、"文生视频"、"图生视频"、"生成一段...的视频"等。 - 用户指定模型:N2、S5.0L、W2.7、W2.7Pro、3.1Nano2-Evo、Nano2-Beta-Evo、Image2、GPTimage-2、gpt-image-2、S1.5Pro、V3.1FB、V3.1PB、V3.1Fast、W2.6t、W2.6i、W2.6r、klingV3Omni、W2.7t、W2.7i、W2.7r、S2.0、S2.0Fast、种子ance2.0。 - 用户上传参考图/参考视频时,自动先调用文件上传 API 转换为可访问 URL。
运行时依赖
安装命令
点击复制本土化适配说明
deepsop-genvis 安装说明: 安装命令:["openclaw skills install deepsop-genvis"]
技能文档
AI Image 生成器
异步生成 AI 图片与视频的技能。
⚠️ 首次使用必读
- 获取 API Key
本技能需要 API Key 授权才能调用 AI Artist API:
已有账号 → 前往 https://AI.deepsop.com/记录in?source=2 登录获取 没有账号 → 前往 https://AI.deepsop.com/register?source=2 注册后获取
登录后在复制您的 API Key(sk- 开头)。
- 设置环境变量
在使用前,你必须先设置自己的 API Key:
# Linux/macOS/Git Bash (Windows) 导出 AI_ARTIST_令牌="sk-your_API_key_here"
# Windows PowerShell $env:AI_ARTIST_令牌="sk-your_API_key_here"
或在项目根目录放一个 .env 文件(需 pip 安装 python-dotenv,脚本会自动加载):
AI_ARTIST_令牌=sk-your_API_key_here FEISHU_网页HOOK_URL= # 可选,用于结果通知
- 验证配置
验证配置是否正确:
python3 scripts/test_config.py
详细配置说明请查看下方"环境配置"章节。
快速开始 python3 scripts/生成_image.py "提示词"
意图澄清指南(重要)
调用前必须做的事:当用户的请求涉及参数复杂的模型,或关键信息缺失时,先向用户提问确认意图,再执行生成,避免浪费配额生成不符合预期的作品。
通用判断流程 先分辨媒介:图片 vs 视频(关键词:"画/生成图片/海报/插画" → 图片;"视频/动画/片段/动起来" → 视频)。 判断输入材料: 纯文字 → 文生模式(TEXT) 有一张首帧图 → 首帧图生视频(FIRST&LAST) 有首尾两张图 → 首尾帧控制(FIRST&LAST,需首帧+尾帧) 有参考视频 → 续写(CONTINUATION)、编辑(EDIT)、参考生成(FEATURE/REFERENCE) 有多张参考图(要求角色/元素一致性) → 参考图模式(REFERENCE) 若用户意图不明确或关键材料缺失,必须提问,不要擅自假设。 按模型列出"必须澄清的关键点"
所有视频模型通用:
时长(秒)? 比例?(16:9 横屏 / 9:16 竖屏 / 1:1 正方) 是否需要生成声音 / 配音 / 音乐? 提示词含有人物时,是否希望保持角色一致性?
klingV3Omni(最复杂):5 种生成类型 + 多镜头模式,务必确认:
生成类型:文生(TEXT)/ 首尾帧(FIRST&LAST)/ 参考图生视频(REFERENCE)/ 编辑已有视频(EDIT)/ 参考视频再创作(FEATURE)? 镜头模式:单镜头(single)/ 智能多镜头(multi)/ 自定义分镜(customize,需要用户给出每个分镜的描述 + 时长)? 生成模式:std 标准 / pro 专家级? 若是 EDIT/FEATURE:需要参考视频 URL,并确认"是否保留原音"(keep_original_sound yes/no)
W2.6r / W2.7r(参考视频模式):
参考图片 + 参考视频的总数 ≤ 5,询问用户是否都准备好了 URL / 本地文件 是否想保留原视频的角色音色? 希望迁移到什么场景?迁移的主体是什么?(让用户把场景描述写进 prompt)
W2.7i(图生视频,支持续写):
输入是"一张首帧图"要让它动起来?→ FIRST&LAST(可选提供尾帧,让首尾过渡更可控) 输入是"一段已有视频"要让它继续播?→ CONTINUATION(需要 first_命令行工具p_url) 动作/运镜希望如何展开?请用户描述(写进 prompt)
W2.6t / W2.7t(文生视频):
是否需要多镜头叙事?若是 → shot_type="multi"(智能分镜) 是否有反向提示词(不希望出现的内容)? 是否需要智能改写提示词(prompt_extend=True,默认 false)? 是否需要传入自定义音频?
V3.1Fast(V3.1 系列的复杂款):
是否需要翻译为英文提示词(enhance_prompt)? 是否允许生成人物(personGeneration=allow_adult/dont_allow)? 图像缩放模式(resize_mode=pad/crop)? 时长 4 秒还是 8 秒?
V3.1FB / V3.1PB:时长固定 8 秒,不必问;但要确认比例 / 分辨率。
S1.5Pro(影视级):
是否追求"音画同步 + 口型对齐"?(说明场景是否包含对话) 时长在 4-12 秒之间,默认 10 秒,可问用户。
图片复杂款 W2.7 / W2.7Pro / N2 / 3.1Nano2-Evo:
有无参考图?做"风格迁移"、"角色一致性"、"文字渲染"时参考图能显著提升质量。 是否需要特定比例?(默认 1:1,横图/竖图需指定) 质量档位(1K/2K/4K,详见每个模型表)
Image2(GPTimage-2,OpenAI gpt-image-2 接入):
渲染质量预设?low(最快)/ medium(平衡,默认)/ high(质量)——用 --ratiocination 一次出几张?1–10,用 --n 是否需要参考图?支持最多 16 张参考图、单张 ≤50MB;提示词上限 16000 字 默认尺寸 auto(智能比例),可改为 1:1 / 3:4 / 4:3 / 16:9 / 9:16 等(禁用 1:4 / 4:1 / 1:8 / 8:1) 该模型 不接受 网页搜索、不接受 image搜索;仅 3.1Nano2-Evo 支持 image搜索 提问姿态(给 Claude 的指令) 一次最多问 2-3 个最关键的问题,别堆 10 个选项让用户懵。 优先问对画面/成本影响最大的参数(生成类型 > 时长 > 分辨率 > 次要参数)。 提供默认建议,让用户说"就这样"也能继续,不要强制用户全部自选。 示例:"我打算用 klingV3Omni 做参考图生视频,比例 16:9、时长 10s、生成声音。你有几张想作为参考的图片吗?要不要保留原音?" 材料缺失时必须停下来要素材(URL / 本地文件路径),不要用占位符或假 URL 代替。 用户若说"随便/都行",按默认值直接执行,并在生成后告知用了哪些默认。 何时可以不提问直接执行 用户请求非常明确(提示词清晰 + 指定了模型 + 提供了必要的参考材料 URL) 用户明确说"快速来一张就行" / "随便出个视频":用默认模型与默认参数,生成后告知用了什么。 用户只要一张插画/头像/风景图 → 直接用默认 3.1Nano2-Evo 图片模型。 参考图/视频上传流程
当用户提供本地文件作为参考图或参考视频时,需要先调用文件上传 API 转换为可访问的 URL:
文件上传 API curl --location --请求 POST 'https://AI.deepsop.com/prod-API/系统/file上传/上传' \ --header 'x-API-key: sk-your_API_key_here' \ --form 'file=@"C:\\Users\\admin\\下载s\\image.png"'
返回结果:
{ "msg": "操作成功", "fileName": "image.png", "code": 200, "url": "https://kocgo-AI-sales-test.oss-cn-hangzhou.aliyuncs.com/material/100/xxx.png" }
使用上传后的 URL
获取到 url 后,可作为 firstImageUrl、lastImageUrl 或其他图片参数传入生成接口。
在对话中直接返回图片 方式 1: Markdown 图片语法(推荐)
生成图片后,直接在回复中使用 Markdown 语法:
!描述
平台支持情况:
✅ 网页Chat、Discord、Telegram:完全支持 ✅ 飞书:支持(需公开 URL) ❌ Whats应用:不支持 方式 2: 下载后发送(需要 message 工具)
使用 --下载 参数下载图片,然后通过 message 工具发送:
python3 scripts/生成_image.py "风景画" --下载
然后在代码中读取图片并发送:
from scripts.生成_image 导入 生成_image 导入 base64
结果 = 生成_image(prompt="风景画", 下载=True)
if 结果 and 结果["状态"] == "成功": # 方式 A: 使用 data URI image_uri = 结果["data_uri"] # data:image/png;base64,... # 方式 B: 读取本地文件 with open(结果["local_path"], "rb") as f: image_data = f.read() base64_data = base64.b64encode(image_data).decode()
参数说明 通用参数 参数 默认值 说明 prompt 必填 生成提示词(图片或视频描述) --模型 自动推断 生成模型。未指定时根据 prompt 关键词自动推断:包含 视频/动画/短片/动起来/镜头/命令行工具p/motion/video 等 → V3.1FB;其余 → 3.1Nano2-Evo。图片:3.1Nano2-Evo、S5.0L、N2、W2.7、W2.7Pro、Nano2-Beta-Evo;视频:V3.1FB、S1.5Pro、V3.1PB、V3.1Fast、W2.6t、W2.6i、W2.6r、klingV3Omni、W2.7t、W2.7i、W2.7r --列出-模型s - 列出当前服务端激活的模型(hidden状态=0)后退出,不需 prompt --dry-运行 - 仅构建并打印最终 payload,不提交任务(调试用) --json-输出 - 以单行 JSON 向 stdout 输出最终结果 {状态,url,message,local_path?},便于 OpenClaw 等编排器解析 --interval 5 轮询间隔(秒) --max-wAIt 图片 600 / 视频 1200 任务轮询最长等待秒数 输出契约(给编排器/OpenClaw) stdout:任务完成后恰好一行最终结果 默认:成功时输出 URL,失败时留空 --json-输出:始终输出一行 JSON,形如 {"状态":"成功","url":"https://...","message":"..."} --markdown-输出:成功时输出 !prompt stderr:所有人类可读进度日志([auto]、[上传]、预估费用、任务 ID、轮询状态变化、⚠️ 警告、错误说明) 退出码:0 = 成功,1 = 失败/超时
脚本会始终轮询到终态(成功 / FAILED