glm-v-model — 智谱 GLM 视觉模型调用

Name: glm-v-model — 智谱 GLM 视觉模型调用
Rating: 1 (1 reviews)
Author: baokui

baokui

glm-v-model — 智谱 GLM 视觉模型调用

v1.0.1

用于图像/视频理解、多模态对话、图表分析等任务的智谱 GLM-4V/4.6V 视觉模型调用技能。

1· 458·1 当前·1 累计

by @baokui·MIT-0

AI模型访问数据分析

下载技能包

License

MIT-0

最后更新

2026/4/10

安全扫描

VirusTotal

无害

查看报告

OpenClaw

可疑

medium confidence

该技能基本如声称（调用 GLM 视觉模型），但存在不一致和小配置问题（缺少声明的 API 环境变量、硬编码示例路径和有 bug 的助手脚本），使用前需谨慎。

评估建议

该技能似乎能完成声称的功能（调用智谱 GLM 视觉模型），但在安装或使用前，请检查以下几点： - 预计需要 API 密钥（ZHIPU_API_KEY），尽管注册元数据未列出。仅在信任 Zhipu/bigmodel.cn 服务并了解其数据处理时提供。 - 图片（可能包括视频）将传输到第三方 API。除非您接受提供者的隐私/保留政策，否则不要发送敏感或私人图片。 - 包含的助手脚本和示例存在问题：示例中的硬编码用户路径和脚本中可能的 bug（调用 `img.read()` 但 SKILL.md 建议传递文件名）。将脚本视为不可信任的代码，在运行前检查/修改。 - SDK（zai-sdk）通过 pip 安装（如注释所述）。在安装前，请通过 PyPI 或供应商网站审查包源/版本，以确保其合法。推荐行动：要求发布者更新注册元数据以列出 ZHIPU_API_KEY（和任何其他必需的环境变量），移除或修复硬编码路径/示例，并纠正脚本的文件处理行为。如果无法验证发布者/SDK，请避免发送私人图片或在隔离环境中运行代码。...

详细分析 ▾

ℹ 用途与能力

技能名称、描述、SKILL.md 示例和 Python 辅助脚本都针对调用智谱/GLM-4V/4.6V 视觉模型（图像/视频理解）。调用外部模型提供商需要 API 密钥是预期的。但注册元数据未声明任何必需的环境变量，而 SKILL.md 和脚本都指出需要 API 密钥（ZHIPU_API_KEY）。声明的要求和实际使用之间的不匹配需要解决。

ℹ 指令范围

指令指导代理读取本地图像文件或 URL 并发送到 GLM 服务，这与声明的功能相符。担忧：(1) SKILL.md 包含一个示例，向 sys.path追加绝对的用户特定路径（/Users/guobaokui/...），这是一个不安全、不可移植的示例且不必要。(2) 提供的脚本的预期输入是模糊/有 bug 的：它期望本地图像具有 .read() 对象，但 SKILL.md 示例调用 glm_v(['image.jpg'], ...)（一个文件名字符串），这将破坏脚本。(3) 技能将传输图像数据到第三方 API（智谱）；这预期但对隐私敏感。

✓ 安装机制

未包含安装规格（仅指令加辅助脚本）。注释建议通过 pip 安装 'zai-sdk' — 一个正常的低风险包管理步骤。没有从任意 URL 下载或提取步骤。

⚠ 凭证需求

代码从环境中读取 ZHIPU_API_KEY 以对外部服务进行身份验证，这与技能的目的成比例。担忧是技能的注册元数据未列出此必需的环境变量（或任何主要凭证）。缺失的声明可能误导用户，导致他们忽略提供凭证的需要和认识到数据将发送到第三方。

✓ 持久化与权限

技能未标记为 always:true，不请求系统范围的配置路径，也不修改其他技能。它作为一个调用技能运行，并需要外部 API 密钥 — 未请求过度持久或提升权限。

安全有层次，运行前请审查代码。

License

MIT-0

可自由使用、修改和再分发，无需署名。

查看条款 ↗

运行时依赖

无特殊依赖

版本

latestv1.0.12026/3/5

此版本未检测到用户可见的变化。

● 无害

安装命令点击复制

官方npx clawhub@latest install glm-v-model

镜像加速npx clawhub@latest install glm-v-model --registry https://cn.clawhub-mirror.com

技能文档

GLM 视觉模型调用

本技能提供调用智谱 AI 的 GLM-4V 和 GLM-4.6V 视觉模型的能力，支持图像理解、视频分析、图表解读等功能。

支持的模型

模型	说明	特点
glm-4v	GLM-4 视觉模型	基础视觉理解
glm-4.6v	GLM-4.6V 视觉模型	更强的视觉理解能力，支持更长上下文

快速使用

基本图像理解

# 示例代码（保持原样，无需翻译）

使用图片URL

# 示例代码（保持原样，无需翻译）

多图理解

# 示例代码（保持原样，无需翻译）

视频理解（GLM-4.6V）

# 示例代码（保持原样，无需翻译）

使用脚本

项目中已包含脚本 script/infer_glmv.py，可直接调用：

# 示例代码（保持原样，无需翻译）

常用场景

场景	Prompt 示例
图片描述	"详细描述这张图片的内容"
图表分析	"分析这张图表数据"
文字识别(OCR)	"提取图片中的文字"
物体识别	"图片中有哪些物体"
场景理解	"这是什么地方"
多图对比	"比较这两张图片的异同"
视频理解	"总结这个视频的内容"

注意事项

API Key: 需要智谱 AI 的 API Key，可从 https://open.bigmodel.cn 获取
图片格式: 支持 JPEG、PNG、WebP 等常见格式
图片大小: 单张图片建议不超过 10MB
thinking: 可启用深度思考模式 thinking={"type": "enabled"}
计费: 按 token 计费，图片会转换为 token 消耗

本技能提供调用智谱 AI 的 GLM-4V 和 GLM-4.6V 视觉模型的能力，支持图像理解、视频分析、图表解读等功能。

支持的模型

模型	说明	特点
glm-4v	GLM-4 视觉模型	基础视觉理解
glm-4.6v	GLM-4.6V 视觉模型	更强的视觉理解能力，支持更长上下文

快速使用

基本图像理解

from zai import ZhipuAiClient
import base64
client = ZhipuAiClient(api_key="YOUR_API_KEY")
# 读取本地图片并转为 base64
with open("image.jpg", "rb") as f:
    img_base = base64.b64encode(f.read()).decode("utf-8")response = client.chat.completions.create(
    model="glm-4.6v",
    messages=[{
        "role": "user",
        "content": [
            {"type": "image_url", "image_url": {"url": f"data:image/jpeg;base64,{img_base}"}},
            {"type": "text", "content": "描述这张图片"}
        ]
    }],
    thinking={"type": "enabled"}
)
print(response.choices[0].message.content)

使用图片URL

response = client.chat.completions.create(
    model="glm-4.6v",
    messages=[{
        "role": "user",
        "content": [
            {"type": "image_url", "image_url": {"url": "https://example.com/image.jpg"}},
            {"type": "text", "content": "这张图片里有什么？"}
        ]
    }]
)

多图理解

response = client.chat.completions.create(
    model="glm-4.6v",
    messages=[{
        "role": "user",
        "content": [
            {"type": "image_url", "image_url": {"url": "图片1 base64 或 URL"}},
            {"type": "image_url", "image_url": {"url": "图片2 base64 或 URL"}},
            {"type": "text", "content": "比较这两张图片的异同"}
        ]
    }]
)

视频理解（GLM-4.6V）

# 支持理解视频内容
response = client.chat.completions.create(
    model="glm-4.6v",
    messages=[{
        "role": "user",
        "content": [
            {"type": "video_url", "video_url": {"url": "视频URL"}},
            {"type": "text", "content": "描述这个视频的内容"}
        ]
    }]
)

使用脚本

项目中已包含脚本 script/infer_glmv.py，可直接调用：

import sys
sys.path.append('/Users/guobaokui/.openclaw/workspace_multmodal/skills/glm-v-model/script')
from infer_glmv import glm_v# 使用方式
# glm_v(['image.jpg'], '描述图片', 'glm-4.6v')

常用场景

场景	Prompt 示例
图片描述	"详细描述这张图片的内容"
图表分析	"分析这张图表数据"
文字识别(OCR)	"提取图片中的文字"
物体识别	"图片中有哪些物体"
场景理解	"这是什么地方"
多图对比	"比较这两张图片的异同"
视频理解	"总结这个视频的内容"

注意事项

API Key: 需要智谱 AI 的 API Key，可从 https://open.bigmodel.cn 获取
图片格式: 支持 JPEG、PNG、WebP 等常见格式
图片大小: 单张图片建议不超过 10MB
thinking: 可启用深度思考模式 thinking={"type": "enabled"}
计费: 按 token 计费，图片会转换为 token 消耗

数据来源：ClawHub ↗ · 中文优化：龙虾技能库

OpenClaw 技能定制 / 插件定制 / 私有工作流定制

免费技能或插件可能存在安全风险，如需更匹配、更安全的方案，建议联系付费定制

了解定制服务

License

运行时依赖

版本

安装命令 点击复制

技能文档

GLM 视觉模型调用

支持的模型

快速使用

基本图像理解

使用图片URL

多图理解

视频理解（GLM-4.6V）

使用脚本

常用场景

注意事项

支持的模型

快速使用

基本图像理解

使用图片URL

多图理解

视频理解（GLM-4.6V）

使用脚本

常用场景

注意事项

安装命令点击复制