Multimodal Image Understandingv4通过调用多模态模型来理解图片内容。触发场景:(1) 用户要求分析/描述/提取/OCR 图片信息,且当前模型不支持图像输入(如 deepseek-v4、glm 5.1 等纯文本模型),(2) 用户明确要求"用我的视觉模型"或"调用多模态 API"来看图,(3) 用户显式调用本 skill(/multimodal-image-understanding)。 1· 0·0 当前·0 累计by @zzfly256 (Rytia)·MIT-0下载技能包LicenseMIT-0 LicenseMIT-0可自由使用、修改和再分发,无需署名。查看条款 ↗ 运行时依赖无特殊依赖 安装命令 点击复制官方npx clawhub@latest install multimodal-image-understanding 镜像加速npx clawhub@latest install multimodal-image-understanding --registry https://cn.longxiaskill.com 镜像可用需要定制?告诉我你的需求 →数据来源:ClawHub ↗ · 中文优化:龙虾技能库