📦 IaworkerIntelligent

v1.0.0

Automation Worker — 分析视频/图像流,为物理任务(调试、维修、装配……)生成结构化、实时的操作步骤。

1· 10·0 当前·0 累计
下载技能包
最后更新
2026/4/22
0
安全扫描
VirusTotal
无害
查看报告
OpenClaw
安全
medium confidence
该技能的代码与说明与其宣称目的(分析图像/视频并生成语音分步指导)一致;未发现隐蔽外泄或无关凭据请求,但存在若干运行风险(未声明的繁重依赖、模型下载与 gTTS 的隐式网络活动、摄像头访问),安装前请留意。
评估建议
此技能看似功能如其所述,但安装前请先审视以下实际风险: (1) 依赖:依赖 OpenCV、Pillow,可选 torch/transformers——后者会联网下载大模型,除非已缓存。需添加明确安装步骤并锁定包版本。 (2) 网络:gTTS 会把文本发往 Google TTS 在线接口;transformers 可能从 Hugging Face 拉取模型。如需离线隐私,请配置 pyttsx3,避免使用分类器 pipeline 或提前下载模型。 (3) 设备访问:可读取摄像头并写文件/临时音频;若摄像头或图像敏感,请在沙箱或受控环境运行。 (4) 安全:生成的维修指令可能涉及安全关键操作;务必验证步骤,高风险任务勿仅依赖自动指引。 (5) 建议:在隔离虚拟环境/容器内做代码审查或测试;若默认禁用外部 TTS,设 tts.enabled=false;要求作者提供安装规范,列明网络调用、模型来源及确切依赖。...
详细分析 ▾
用途与能力
名称/描述(视觉分析 → 步骤生成 → TTS)与提供的脚本(video_analyzer.py、step_engine.py、speaker.py)一致。代码实现了对象/异常检测、步骤生成及 TTS/显示输出,均与声明目的相符。小提示:尽管技能未提供安装规范,仍使用了重型 ML 库(torch/transformers、cv2、PIL),这对图像分析合理,但应告知用户。
指令范围
SKILL.md 及脚本将行为限定为:分析提供的图像/视频或摄像头流,生成步骤,输出 Markdown,并播放 TTS。此为功能范围。重要注意事项:分析器会访问本地文件与摄像头设备,写入输出文件(Markdown、临时音频),并启动子进程播放音频。_llm_ 分析通过本地 prompt 模板实现(所示代码无外部 LLM 调用),但分类器流水线可能从网络获取模型(见安装说明)。
安装机制
未提供安装说明。代码依赖较大的原生库(opencv-python、pillow),可选的 torch/transformers(若已安装,运行时将从模型中心下载如 'microsoft/resnet-50' 的模型),以及 gTTS/pyttsx3 用于音频。这些模型下载和 gTTS 的网络调用是隐式的,未在 SKILL.md 中说明;缺少安装块可能导致用户对大量下载、网络流量或缺失的运行时依赖感到意外。
凭证需求
该 skill 不请求环境变量或凭据,程度合理;但默认在 config.yaml 中使用 gTTS(在线 TTS 客户端),会向 Google TTS 服务发起网络请求;若使用 transformers,则会从 Hugging Face 拉取模型。这些网络交互对功能集而言属合理,但未在元数据中声明,且可能涉及隐私(图像数据会通过这些库上传至远程服务)。
持久化与权限
该技能并非始终包含,采用常规 agent 调用。它不修改其他技能或系统级配置,仅在其自身目录内读写文件,并使用系统设备(摄像头、音频)——这是功能所需。
安全有层次,运行前请审查代码。

运行时依赖

无特殊依赖

版本

latestv1.0.02026/4/22

iaworker 初始发布:面向实时物理任务指导的智能自动化工人。 - 分析图像、视频或实时摄像头流,检测物理问题(维修、调试、装配、检验)。 - 生成结构化、分步操作说明,附带预估难度与所需工具。 - 以视觉(markdown 显示)和语音(TTS 朗读)双模式提供指导,支持逐步确认。 - 支持多种任务类型,每步安全警告与防错提示。 - 通过 YAML 配置文件高度自定义 TTS、显示与工作流程参数。 - 包含模块化脚本:视频/图像分析器、步骤生成器、TTS/显示处理器。

无害

安装命令

点击复制
官方npx clawhub@latest install iaworker
镜像加速npx clawhub@latest install iaworker --registry https://cn.longxiaskill.com

技能文档

分析视频/图像流,诊断物理问题,生成结构化逐步操作指引。以可视化(markdown 显示)与可听化(TTS 语音)双重方式交付指令。

---

核心流程

`` ┌─────────────────────────────────────────────────────────────────────┐ │ iaworker 流程 │ ├─────────────────────────────────────────────────────────────────────┤ │ │ │ [1] 接收输入 │ │ 视频文件路径、图片路径或实时摄像头画面 │ │ ↓ │ │ [2] 分析 (video_analyzer.py) │ │ - 提取关键帧 │ │ - 识别物体、损坏、组件 │ │ - 检测异常模式(裂纹、松动、液体泄漏) │ │ - 分类任务类型(维修 / 调试 / 装配 / 检验) │ │ ↓ │ │ [3] 生成步骤 (step_engine.py) │ │ - 构建有序编号动作步骤 │ │ - 包含工具需求、安全警告 │ │ - 标记前置步骤(断电等) │ │ - 估算每步难度/时间 │ │ ↓ │ │ [4] 交付 (speaker.py + display) │ │ - 显示格式化 markdown 步骤指南 │ │ - 通过 TTS 朗读每步 │ │ - 逐步推进(非一次性全部显示) │ │ - 可配置等待用户确认后再继续 │ │ │ └─────────────────────────────────────────────────────────────────────┘ `

---

快速开始

分析图片并获得语音步骤

`bash python scripts/video_analyzer.py \ --input /path/to/image.jpg \ --task repair \ --lang en \ --speak `

分析视频并分段输出步骤

`bash python scripts/video_analyzer.py \ --input /path/to/video.mp4 \ --task debug \ --lang en \ --speak \ --step-by-step `

实时摄像头分析

`bash python scripts/video_analyzer.py \ --input camera \ --task inspection \ --lang en \ --speak \ --live `

---

脚本

video_analyzer.py

入口脚本,分析视觉输入并触发步骤生成。
`bash python scripts/video_analyzer.py [options] `

选项: | 参数 | 说明 | 默认值 | |------|------|--------| | --input PATH | 图片路径、视频路径或 camera 实时 | 必填 | | --task TYPE | repairdebugassemblyinspectionauto | auto | | --lang CODE | enzh | en | | --speak | 启用 TTS 朗读步骤 | 关闭 | | --step-by-step | 逐条朗读与显示,等待确认 | 顺序模式 | | --live | 实时摄像头连续分析 | 关闭 | | --output PATH | 将步骤写入 markdown 文件 | 仅控制台 | | --frame-skip N | 视频跳帧(加速分析) | 10 |

任务自动识别:

  • repair — 物品损坏;查找损伤并建议修复
  • debug — 功能异常;追踪故障原因
  • assembly — 需要组装/搭建
  • inspection — 检查状态并报告结果

step_engine.py

根据分析结果生成结构化步骤。 `python from step_engine import StepEngine engine = StepEngine(lang="en") steps = engine.generate( task_type="repair", objects=["wheel", "chain", "brake caliper"], anomalies=["chain loose", "brake pad worn"], context={"bike_type": "mountain"} ) for step in steps: print(step["number"], step["title"]) print(step["description"]) print(f"[Tools: {step['tools']}] [Time: {step['time_estimate']}]") if step["safety_warning"]: print(f"⚠️ {step['safety_warning']}") ``

数据来源ClawHub ↗ · 中文优化:龙虾技能库