首页龙虾技能列表 › glm-v-model — 智谱 GLM 视觉模型调用

glm-v-model — 智谱 GLM 视觉模型调用

v1.0.1

用于图像/视频理解、多模态对话、图表分析等任务的智谱 GLM-4V/4.6V 视觉模型调用技能。

1· 458·1 当前·1 累计
by @baokui·MIT-0
下载技能包
License
MIT-0
最后更新
2026/4/10
安全扫描
VirusTotal
无害
查看报告
OpenClaw
可疑
medium confidence
该技能基本如声称(调用 GLM 视觉模型),但存在不一致和小配置问题(缺少声明的 API 环境变量、硬编码示例路径和有 bug 的助手脚本),使用前需谨慎。
评估建议
该技能似乎能完成声称的功能(调用智谱 GLM 视觉模型),但在安装或使用前,请检查以下几点: - 预计需要 API 密钥(ZHIPU_API_KEY),尽管注册元数据未列出。仅在信任 Zhipu/bigmodel.cn 服务并了解其数据处理时提供。 - 图片(可能包括视频)将传输到第三方 API。除非您接受提供者的隐私/保留政策,否则不要发送敏感或私人图片。 - 包含的助手脚本和示例存在问题:示例中的硬编码用户路径和脚本中可能的 bug(调用 `img.read()` 但 SKILL.md 建议传递文件名)。将脚本视为不可信任的代码,在运行前检查/修改。 - SDK(zai-sdk)通过 pip 安装(如注释所述)。在安装前,请通过 PyPI 或供应商网站审查包源/版本,以确保其合法。 推荐行动:要求发布者更新注册元数据以列出 ZHIPU_API_KEY(和任何其他必需的环境变量),移除或修复硬编码路径/示例,并纠正脚本的文件处理行为。如果无法验证发布者/SDK,请避免发送私人图片或在隔离环境中运行代码。...
详细分析 ▾
用途与能力
技能名称、描述、SKILL.md 示例和 Python 辅助脚本都针对调用智谱/GLM-4V/4.6V 视觉模型(图像/视频理解)。调用外部模型提供商需要 API 密钥是预期的。但注册元数据未声明任何必需的环境变量,而 SKILL.md 和脚本都指出需要 API 密钥(ZHIPU_API_KEY)。声明的要求和实际使用之间的不匹配需要解决。
指令范围
指令指导代理读取本地图像文件或 URL 并发送到 GLM 服务,这与声明的功能相符。担忧:(1) SKILL.md 包含一个示例,向 sys.path追加绝对的用户特定路径(/Users/guobaokui/...),这是一个不安全、不可移植的示例且不必要。(2) 提供的脚本的预期输入是模糊/有 bug 的:它期望本地图像具有 .read() 对象,但 SKILL.md 示例调用 glm_v(['image.jpg'], ...)(一个文件名字符串),这将破坏脚本。(3) 技能将传输图像数据到第三方 API(智谱);这预期但对隐私敏感。
安装机制
未包含安装规格(仅指令加辅助脚本)。注释建议通过 pip 安装 'zai-sdk' — 一个正常的低风险包管理步骤。没有从任意 URL 下载或提取步骤。
凭证需求
代码从环境中读取 ZHIPU_API_KEY 以对外部服务进行身份验证,这与技能的目的成比例。担忧是技能的注册元数据未列出此必需的环境变量(或任何主要凭证)。缺失的声明可能误导用户,导致他们忽略提供凭证的需要和认识到数据将发送到第三方。
持久化与权限
技能未标记为 always:true,不请求系统范围的配置路径,也不修改其他技能。它作为一个调用技能运行,并需要外部 API 密钥 — 未请求过度持久或提升权限。
安全有层次,运行前请审查代码。

License

MIT-0

可自由使用、修改和再分发,无需署名。

运行时依赖

无特殊依赖

版本

latestv1.0.12026/3/5

此版本未检测到用户可见的变化。

● 无害

安装命令 点击复制

官方npx clawhub@latest install glm-v-model
镜像加速npx clawhub@latest install glm-v-model --registry https://cn.clawhub-mirror.com

技能文档

GLM 视觉模型调用

本技能提供调用智谱 AI 的 GLM-4V 和 GLM-4.6V 视觉模型的能力,支持图像理解、视频分析、图表解读等功能。

支持的模型

模型说明特点
glm-4vGLM-4 视觉模型基础视觉理解
glm-4.6vGLM-4.6V 视觉模型更强的视觉理解能力,支持更长上下文

快速使用

基本图像理解

# 示例代码(保持原样,无需翻译)

使用图片URL

# 示例代码(保持原样,无需翻译)

多图理解

# 示例代码(保持原样,无需翻译)

视频理解(GLM-4.6V)

# 示例代码(保持原样,无需翻译)

使用脚本

项目中已包含脚本 script/infer_glmv.py,可直接调用:
# 示例代码(保持原样,无需翻译)

常用场景

场景Prompt 示例
图片描述"详细描述这张图片的内容"
图表分析"分析这张图表数据"
文字识别(OCR)"提取图片中的文字"
物体识别"图片中有哪些物体"
场景理解"这是什么地方"
多图对比"比较这两张图片的异同"
视频理解"总结这个视频的内容"

注意事项

  • API Key: 需要智谱 AI 的 API Key,可从 https://open.bigmodel.cn 获取
  • 图片格式: 支持 JPEG、PNG、WebP 等常见格式
  • 图片大小: 单张图片建议不超过 10MB
  • thinking: 可启用深度思考模式 thinking={"type": "enabled"}
  • 计费: 按 token 计费,图片会转换为 token 消耗
数据来源:ClawHub ↗ · 中文优化:龙虾技能库
OpenClaw 技能定制 / 插件定制 / 私有工作流定制

免费技能或插件可能存在安全风险,如需更匹配、更安全的方案,建议联系付费定制

了解定制服务