📦 comfyui-agent-skill-mie — comfyui-代理-技能-mie
v1.0.0用于通过稳定的CLI运行注册的ComfyUI工作流的Agent技能。支持在本地或可信的自托管环境中生成图像、视频、音乐和语音。
运行时依赖
安装命令
点击复制技能文档
comfyui-agent-skill-mie 目的 通过稳定的 Agent 面向的 CLI 运行注册的 ComfyUI 工作流程,具有提示增强、快速失败错误和结构化 JSON 结果。 当用户要求以下操作时使用此技能: 从文本生成图像。 从参考图像生成新的类似图像。 编辑输入图像,同时保留某些结构或主题细节。 生成文本到视频或图像到视频的 MP4 输出。 生成音乐/器乐/歌曲风格的 MP3 输出。 使用 Qwen3-TTS 合成语音音频。 检查 ComfyUI 服务器是否可用。 当用户只想要提示写作、头脑风暴或讨论而不进行实际生成时,不要使用此技能。 当 ComfyUI 服务器不可用时,不要使用此技能。
硬性规则 源模式:从技能根目录(包含 SKILL.md 和 scripts/ 的目录)运行 CLI 命令。 工具安装模式:comfyui-agent-skill-mie / comfyui-skill 可以从任何目录运行。 源模式:使用 uv run --no-sync python -m comfyui(或 uv run --no-sync comfyui-skill)进行运行时调用。 工具安装模式:直接使用 comfyui-skill(或 comfyui-agent-skill-mie);不要使用 uv run 包装。 仅使用注册的工作流程。 不要运行任意未经审查的 ComfyUI 工作流程 JSON。 如果服务器健康检查失败,停止生成并返回/处理 SERVER_UNAVAILABLE;不要在磁盘上搜索 ComfyUI 安装或猜测端口。 不要创建或编辑 config.local.json,除非用户明确想要一个持久的服务器 URL。 对于一次性运行,使用 --server 或 COMFYUI_URL。 对于 reference_to_image,使用 Agent 视觉检查参考图像并创建提示。 不要将参考图像上传到 ComfyUI。 对于 image_to_image 和 image_to_video,使用 --image 上传提供的本地图像。 分析器生成的工作流程配置需要人类审查后才能激活。
设置 推荐安装(工具安装模式):pipx install comfyui-agent-skill-mie 安装包:comfyui-agent-skill-mie 主命令:comfyui-agent-skill-mie 短别名:comfyui-skill 先决条件:具有 GET /system_stats 可用的 ComfyUI 服务器。 Python 3.10+。 仅源模式:uv。 所选工作流程所需的 ComfyUI 模型/自定义节点。 网络注意事项:默认本地示例使用 http://127.0.0.1:8188 进行同环境设置。 如果代理在 WSL/容器/沙盒中运行,而 ComfyUI 在主机操作系统上运行,127.0.0.1 可能指的是运行时本身。 尝试使用 --server http://localhost:8188 或主机机器 IP(并可选地通过 save-server 持久化)。 从技能根目录开始的初始设置:uv sync uv run --no-sync python -m comfyui --help 工具安装模式:comfyui-agent-skill-mie --help comfyui-skill --help comfyui-skill check
快速工作流程选择 最小决策树: 用户提供文本 → 生成 -p "..."(默认为 z_image_turbo) 用户提供参考图像并想要新类似图像 → 视觉 → reference_to_image 提示 → 运行 z_image_turbo 用户提供输入图像并想要编辑 → 生成 --workflow klein_edit --image input_image=... -p "..." 用户想要 TTS/语音音频 → 生成 --workflow qwen3_tts --speech-text "..." --instruct "..." 用户想要视频 → ltx_23_t2v_distill(文本到视频)或 ltx_23_i2v_distilled(图像到视频)
用户意图 工作流程/模式 所需命令形状 文本到图像 z_image_turbo 默认 生成 -p "提示" Qwen 图像 2512 qwen_image_2512_4step 生成 --workflow qwen_image_2512_4step -p "提示" 类似图像从参考 Agent 视觉 + T2I 读取参考图像,创建英语提示,然后 T2I 编辑图像 klein_edit 生成 --workflow klein_edit --image input_image=photo.png -p "编辑提示" 文本到视频 ltx_23_t2v_distill 生成 --workflow ltx_23_t2v_distill -p "镜头提示" 图像到视频 ltx_23_i2v_distilled 生成 --workflow ltx_23_i2v_distilled --image input_image=photo.png -p "动作提示" 文本到音乐 ace_step_15_music 生成 --workflow ace_step_15_music -p "音乐标签" 文本到语音 qwen3_tts 生成 --workflow qwen3_tts --speech-text "..." --instruct "..."
对于工作流程特定的大小规则、能力边界和示例,请阅读 references/workflows.md。
核心命令 环境医生(检查服务器 + 预飞注册工作流程): 工具安装模式:comfyui-skill doctor 源模式:uv run --no-sync python -m comfyui doctor 如果它以代码 0 退出,则环境已准备好用于所有检查的工作流程。 退出代码 1 表示缺少节点/模型或服务器不可达(请参阅 JSON有效负载)。 健康检查:uv run --no-sync python -m comfyui check 工具安装模式:comfyui-skill check 生成图像:uv run --no-sync python -m comfyui generate -p "一只可爱的猫坐在窗台上,背景是黄金时段" 工具安装模式:comfyui-skill generate -p "一只可爱的猫坐在窗台上,背景是黄金时段" 使用特定工作流程和服务器生成:uv run --no-sync python -m comfyui generate --workflow z_image_turbo --server http://192.168.1.100:8188 -p "一幅风景" 保存持久服务器 URL