移动节点与硬件集成教程

什么是节点（Nodes）

节点是连接到 OpenClaw Gateway 的远程设备。通过节点系统，你可以让智能体控制物理世界的硬件——手机摄像头、麦克风、音箱、传感器等。 ``


┌──────────────┐     网络连接     ┌──────────────┐
│  Android 手机 │ ──────────────→ │              │
│  （摄像头节点）│                 │   Gateway    │
└──────────────┘                 │   (服务器)    │
                                 │              │
┌──────────────┐                 │              │
│  树莓派       │ ──────────────→ │              │
│  （音频节点）  │                 └──────────────┘
└──────────────┘



节点让智能体从"只能聊天"变成"能看、能听、能说"。

节点类型

| 节点类型 | 功能 | 典型设备 |
|----------|------|---------|
| 移动节点 | 摄像头 + 麦克风 + GPS | Android/iOS 手机 |
| 音频节点 | 录音 + 播放 + TTS | 树莓派 + 音箱/麦克风 |
| 摄像头节点 | 拍照 + 视频流 | USB 摄像头、IP 摄像头 |
| 通用节点 | 自定义硬件控制 | Arduino、ESP32 等 |

移动节点（Android/iOS）

移动节点是最容易上手的节点类型——你的手机就是一个功能齐全的节点。

Android 配置

1. 在手机上安装 OpenClaw 移动端 App（从 GitHub Releases 下载 APK）

2. 打开 App，输入 Gateway 地址：


Gateway URL: http://your-server-ip:18789
Token: your-gateway-token



3. 授予必要权限：
   - 摄像头（拍照/视频）
   - 麦克风（录音/语音唤醒）
   - 位置（GPS 定位）
   - 通知（接收消息推送）

4. 点击"连接"，手机即成为 Gateway 的一个节点。

iOS 配置

iOS 配置流程与 Android 类似：

1. 从 TestFlight 或 App Store 安装 OpenClaw App
2. 输入 Gateway 地址和 Token
3. 授予权限
4. 连接

> ⚠️ iOS 由于系统限制，后台运行时部分功能（如持续录音）可能受限。建议保持 App 在前台运行。

移动节点能做什么

连接后，你可以在聊天中让智能体：


你：拍一张照片看看现在的环境
智能体：[调用手机摄像头拍照] 我看到你在一个办公室里...

你：现在我在哪里？
智能体：[获取 GPS 位置] 你目前在北京市海淀区...

你：录一段 10 秒的环境音
智能体：[调用麦克风录音] 我听到了键盘敲击声和空调运转声...



音频节点

音频节点让智能体能"听"和"说"。

功能概览

| 功能 | 说明 | 工具名 |
|------|------|--------|
| 录音 | 从麦克风录制音频 |

audio_record

 |
| 播放 | 通过音箱播放音频 |

audio_play

 |
| TTS | 文字转语音 |

tts

 |
| STT | 语音转文字 |

stt

 |

配置音频节点

在

openclaw.json

 中配置：

json
{
  "nodes": {
    "audio": {
      "enabled": true,
      "inputDevice": "default",
      "outputDevice": "default",
      "sampleRate": 16000,
      "tts": {
        "provider": "edge-tts",
        "voice": "zh-CN-XiaoxiaoNeural"
      }
    }
  }
}



TTS 语音选择

OpenClaw 支持多种 TTS 引擎：

| 引擎 | 说明 | 成本 |
|------|------|------|
| edge-tts | 微软 Edge TTS（推荐） | 免费 |
| openai-tts | OpenAI TTS | 按量付费 |
| local | 本地 TTS 引擎 | 免费 |

中文推荐语音：

json
{
  "tts": {
    "provider": "edge-tts",
    "voice": "zh-CN-XiaoxiaoNeural"
  }
}



可选中文语音：

zh-CN-XiaoxiaoNeural（女声）、zh-CN-YunxiNeural（男声）、zh-CN-XiaoyiNeural

（女声活泼）。

摄像头节点

摄像头节点让智能体能"看"。

拍照

json
{
  "nodes": {
    "camera": {
      "enabled": true,
      "device": "/dev/video0",
      "resolution": "1280x720"
    }
  }
}



智能体可以通过工具调用拍照：


你：看看门口有没有人
智能体：[调用摄像头拍照] 门口目前没有人，走廊是空的。



视频流

摄像头也支持短视频录制：


你：录一段 5 秒的视频
智能体：[录制 5 秒视频] 视频已录制完成。



图像理解（Media Understanding）

图像理解功能让智能体能分析图片和视频内容。它依赖支持视觉的 AI 模型（如 GPT-4o、Claude 3.5 Sonnet）。

工作流程


摄像头拍照 → 图片发送给视觉模型 → 模型返回描述 → 智能体回复



配置

json
{
  "mediaUnderstanding": {
    "enabled": true,
    "model": "gpt-4o",
    "maxImageSize": "1024x1024"
  }
}



使用场景

- 识别物体："这是什么植物？"
- 读取文字：拍照识别文档、标签、屏幕内容
- 环境感知：描述当前环境、检测异常
- 辅助视障用户：描述周围环境

语音唤醒（Voicewake）

语音唤醒让你可以用语音关键词激活智能体，就像"Hey Siri"或"小爱同学"一样。

配置

json
{
  "voicewake": {
    "enabled": true,
    "wakeWord": "小龙虾",
    "sensitivity": 0.5,
    "audioNode": "default"
  }
}



| 配置项 | 说明 | 默认值 |
|--------|------|--------|
|

wakeWord

 | 唤醒词 | "openclaw" |
|

sensitivity

 | 灵敏度（0-1，越高越容易触发） | 0.5 |
|

audioNode

 | 使用的音频节点 | "default" |

工作流程


持续监听麦克风
    ↓
检测到唤醒词"小龙虾"
    ↓
开始录音（等待用户说完）
    ↓
语音转文字（STT）
    ↓
发送给智能体处理
    ↓
智能体回复（TTS 播放）
    ↓
回到监听状态



使用示例


[说] 小龙虾
[提示音] 嘟~
[说] 今天天气怎么样
[智能体语音回复] 今天北京晴天，最高温度 28 度...



> 💡 语音唤醒需要设备持续监听麦克风，会消耗一定电量。移动设备上建议在需要时手动开启。

位置命令（Location Command）

位置命令让智能体获取设备的 GPS 位置信息。

配置

json
{
  "nodes": {
    "location": {
      "enabled": true,
      "updateInterval": 300
    }
  }
}

updateInterval

 为位置更新间隔（秒），默认 300（5 分钟）。

使用场景


你：我现在在哪里？
智能体：[获取 GPS] 你在北京市朝阳区望京 SOHO 附近。

你：附近有什么好吃的？
智能体：根据你的位置，附近 500 米内有...



Talk 语音对话

Talk 是 OpenClaw 的实时语音对话模式——你说话，智能体用语音回复，像打电话一样自然。

启用 Talk 模式

json
{
  "talk": {
    "enabled": true,
    "stt": {
      "provider": "whisper",
      "model": "whisper-1"
    },
    "tts": {
      "provider": "edge-tts",
      "voice": "zh-CN-XiaoxiaoNeural"
    },
    "vadSensitivity": 0.6
  }
}



VAD（语音活动检测）

VAD 自动检测你什么时候开始说话、什么时候说完：

| 配置项 | 说明 |
|--------|------|
|

vadSensitivity

 | 灵敏度（0-1），越高越容易检测到语音 |

Talk 模式 vs 语音唤醒

| 对比 | Talk 模式 | 语音唤醒 |
|------|----------|---------|
| 激活方式 | 手动开启 | 唤醒词触发 |
| 对话方式 | 持续对话 | 单次问答 |
| 适用场景 | 长时间语音交互 | 偶尔的语音指令 |
| 资源消耗 | 较高 | 较低 |

硬件推荐

入门方案：手机节点

最简单的方案——用一部闲置手机：

- 安装 OpenClaw App
- 连接到 Gateway
- 手机变成摄像头 + 麦克风 + GPS 节点

进阶方案：树莓派 + 外设


树莓派 4B
├── USB 麦克风阵列（录音 + 语音唤醒）
├── 3.5mm 音箱（TTS 播放）
├── USB 摄像头（拍照 + 视频）
└── 连接到 Gateway（WiFi/以太网）



高级方案：多节点网络


Gateway（服务器）
├── 客厅节点：树莓派 + 音箱 + 麦克风
├── 门口节点：摄像头
├── 卧室节点：手机（语音唤醒）
└── 办公室节点：电脑（WebChat）



常见问题

节点断开连接怎么办？

节点会自动尝试重连。如果持续断开：

bash
检查 Gateway 状态
openclaw status

查看节点连接日志
openclaw logs | grep "node"



摄像头拍照模糊怎么办？

- 检查摄像头分辨率设置
- 确保光线充足
- 调整

resolution` 配置

语音识别不准确怎么办？

- 使用更好的麦克风（推荐 USB 麦克风阵列） - 减少环境噪音 - 尝试不同的 STT 引擎（Whisper 对中文支持较好）

小结

- 节点系统让智能体能与物理世界交互 - 手机是最简单的全功能节点（摄像头 + 麦克风 + GPS） - 语音唤醒实现免手操作的语音交互 - Talk 模式提供实时语音对话体验 - 多节点网络可以覆盖整个家庭或办公空间 #移动节点 #硬件集成 #语音唤醒 #摄像头控制 #龙虾技能库