📦 IaworkerIntelligent

Name: IaworkerIntelligent
Rating: 1

v1.0.0

Automation Worker — 分析视频/图像流，为物理任务（调试、维修、装配……）生成结构化、实时的操作步骤。

1· 10·0 当前·0 累计

by @yinleunglai

开发工具自动化视频处理图像处理项目管理

下载技能包

最后更新

2026/4/22

安全扫描

VirusTotal

无害

查看报告

OpenClaw

安全

medium confidence

该技能的代码与说明与其宣称目的（分析图像/视频并生成语音分步指导）一致；未发现隐蔽外泄或无关凭据请求，但存在若干运行风险（未声明的繁重依赖、模型下载与 gTTS 的隐式网络活动、摄像头访问），安装前请留意。

评估建议

此技能看似功能如其所述，但安装前请先审视以下实际风险： (1) 依赖：依赖 OpenCV、Pillow，可选 torch/transformers——后者会联网下载大模型，除非已缓存。需添加明确安装步骤并锁定包版本。 (2) 网络：gTTS 会把文本发往 Google TTS 在线接口；transformers 可能从 Hugging Face 拉取模型。如需离线隐私，请配置 pyttsx3，避免使用分类器 pipeline 或提前下载模型。 (3) 设备访问：可读取摄像头并写文件/临时音频；若摄像头或图像敏感，请在沙箱或受控环境运行。 (4) 安全：生成的维修指令可能涉及安全关键操作；务必验证步骤，高风险任务勿仅依赖自动指引。 (5) 建议：在隔离虚拟环境/容器内做代码审查或测试；若默认禁用外部 TTS，设 tts.enabled=false；要求作者提供安装规范，列明网络调用、模型来源及确切依赖。...

详细分析 ▾

✓ 用途与能力

名称/描述（视觉分析 → 步骤生成 → TTS）与提供的脚本（video_analyzer.py、step_engine.py、speaker.py）一致。代码实现了对象/异常检测、步骤生成及 TTS/显示输出，均与声明目的相符。小提示：尽管技能未提供安装规范，仍使用了重型 ML 库（torch/transformers、cv2、PIL），这对图像分析合理，但应告知用户。

ℹ 指令范围

SKILL.md 及脚本将行为限定为：分析提供的图像/视频或摄像头流，生成步骤，输出 Markdown，并播放 TTS。此为功能范围。重要注意事项：分析器会访问本地文件与摄像头设备，写入输出文件（Markdown、临时音频），并启动子进程播放音频。_llm_ 分析通过本地 prompt 模板实现（所示代码无外部 LLM 调用），但分类器流水线可能从网络获取模型（见安装说明）。

⚠ 安装机制

未提供安装说明。代码依赖较大的原生库（opencv-python、pillow），可选的 torch/transformers（若已安装，运行时将从模型中心下载如 'microsoft/resnet-50' 的模型），以及 gTTS/pyttsx3 用于音频。这些模型下载和 gTTS 的网络调用是隐式的，未在 SKILL.md 中说明；缺少安装块可能导致用户对大量下载、网络流量或缺失的运行时依赖感到意外。

ℹ 凭证需求

该 skill 不请求环境变量或凭据，程度合理；但默认在 config.yaml 中使用 gTTS（在线 TTS 客户端），会向 Google TTS 服务发起网络请求；若使用 transformers，则会从 Hugging Face 拉取模型。这些网络交互对功能集而言属合理，但未在元数据中声明，且可能涉及隐私（图像数据会通过这些库上传至远程服务）。

✓ 持久化与权限

该技能并非始终包含，采用常规 agent 调用。它不修改其他技能或系统级配置，仅在其自身目录内读写文件，并使用系统设备（摄像头、音频）——这是功能所需。

安全有层次，运行前请审查代码。

运行时依赖

无特殊依赖

版本

latestv1.0.02026/4/22

iaworker 初始发布：面向实时物理任务指导的智能自动化工人。 - 分析图像、视频或实时摄像头流，检测物理问题（维修、调试、装配、检验）。 - 生成结构化、分步操作说明，附带预估难度与所需工具。 - 以视觉（markdown 显示）和语音（TTS 朗读）双模式提供指导，支持逐步确认。 - 支持多种任务类型，每步安全警告与防错提示。 - 通过 YAML 配置文件高度自定义 TTS、显示与工作流程参数。 - 包含模块化脚本：视频/图像分析器、步骤生成器、TTS/显示处理器。

● 无害

安装命令

点击复制

官方npx clawhub@latest install iaworker

镜像加速npx clawhub@latest install iaworker --registry https://cn.longxiaskill.com

技能文档

分析视频/图像流，诊断物理问题，生成结构化逐步操作指引。以可视化（markdown 显示）与可听化（TTS 语音）双重方式交付指令。

---

核心流程

  
┌─────────────────────────────────────────────────────────────────────┐  
│ iaworker 流程 │  
├─────────────────────────────────────────────────────────────────────┤  
│ │  
│ [1] 接收输入 │  
│ 视频文件路径、图片路径或实时摄像头画面 │  
│ ↓ │  
│ [2] 分析 (video_analyzer.py) │  
│ - 提取关键帧 │  
│ - 识别物体、损坏、组件 │  
│ - 检测异常模式（裂纹、松动、液体泄漏） │  
│ - 分类任务类型（维修 / 调试 / 装配 / 检验） │  
│ ↓ │  
│ [3] 生成步骤 (step_engine.py) │  
│ - 构建有序编号动作步骤 │  
│ - 包含工具需求、安全警告 │  
│ - 标记前置步骤（断电等） │  
│ - 估算每步难度/时间 │  
│ ↓ │  
│ [4] 交付 (speaker.py + display) │  
│ - 显示格式化 markdown 步骤指南 │  
│ - 通过 TTS 朗读每步 │  
│ - 逐步推进（非一次性全部显示） │  
│ - 可配置等待用户确认后再继续 │  
│ │  
└─────────────────────────────────────────────────────────────────────┘

  
---  
快速开始  
分析图片并获得语音步骤

bash  
python scripts/video_analyzer.py \  
  --input /path/to/image.jpg \  
  --task repair \  
  --lang en \  
  --speak

  
分析视频并分段输出步骤

bash  
python scripts/video_analyzer.py \  
  --input /path/to/video.mp4 \  
  --task debug \  
  --lang en \  
  --speak \  
  --step-by-step

  
实时摄像头分析

bash  
python scripts/video_analyzer.py \  
  --input camera \  
  --task inspection \  
  --lang en \  
  --speak \  
  --live

  
---  
脚本  
video_analyzer.py  
入口脚本，分析视觉输入并触发步骤生成。

bash  
python scripts/video_analyzer.py [options]

选项： | 参数 | 说明 | 默认值 | |------|------|--------| |--input PATH | 图片路径、视频路径或 camera实时 | 必填 | |--task TYPE | repair、debug、assembly、inspection、auto | auto| |--lang CODE | en 或 zh | en| |--speak| 启用 TTS 朗读步骤 | 关闭 | |--step-by-step| 逐条朗读与显示，等待确认 | 顺序模式 | |--live| 实时摄像头连续分析 | 关闭 | |--output PATH| 将步骤写入 markdown 文件 | 仅控制台 | |--frame-skip N | 视频跳帧（加速分析） | 10 |

任务自动识别：

repair — 物品损坏；查找损伤并建议修复

debug — 功能异常；追踪故障原因

assembly — 需要组装/搭建

inspection — 检查状态并报告结果

`step_engine.py`


根据分析结果生成结构化步骤。

python  
from step_engine import StepEngine  
engine = StepEngine(lang="en")  
steps = engine.generate(  
    task_type="repair",  
    objects=["wheel", "chain", "brake caliper"],  
    anomalies=["chain loose", "brake pad worn"],  
    context={"bike_type": "mountain"}  
)  
for step in steps:  
    print(step["number"], step["title"])  
    print(step["description"])  
    print(f"[Tools: {step['tools']}] [Time: {step['time_estimate']}]")  
    if step["safety_warning"]:  
        print(f"⚠️ {step['safety_warning']}")

数据来源：ClawHub ↗ · 中文优化：龙虾技能库