Multimodal Image Understanding

Name: Multimodal Image Understanding
Rating: 1

通过调用多模态模型来理解图片内容。触发场景：(1) 用户要求分析/描述/提取/OCR 图片信息，且当前模型不支持图像输入（如 deepseek-v4、glm 5.1 等纯文本模型），(2) 用户明确要求"用我的视觉模型"或"调用多模态 API"来看图，(3) 用户显式调用本 skill（/multimodal-image-understanding）。

1· 0·0 当前·0 累计