Give eyes to your openclaw — 赋予你的OpenClaw眼睛
v1.0.1赋予您的代理视觉能力 —— 通过MCP从任何屏幕、监视器或设备捕获截图、语音和注释。
运行时依赖
安装命令
点击复制技能文档
Eye2byte — 屏幕上下文为您的Agent Eye2byte是一个开源的MCP服务器(GitHub,PyPI),允许您查看用户的屏幕。仅当用户明确要求您查看某些内容、调试视觉问题或捕获其屏幕时,才使用这些MCP工具。 隐私与数据存储 所有数据都存储在本地。捕获的内容存储在用户的机器上的~/.eye2byte/output/中。除用户配置的vision model API外,nothing会被发送到外部服务器。 自动清理:捕获的内容会在N天后被删除(默认:7天,可在设置中配置)。设置为0可禁用。 MCP令牌:当使用SSE远程传输时,--token标志会设置一个仅存储在用户的openclaw.json中的bearer令牌。将其视为任何API密钥。该令牌永远不会被记录或传输到Authorization头之外。 无遥测。Eye2byte不收集任何分析或使用数据。 可用的MCP工具 capture_and_summarize 截取用户的屏幕并获取结构化分析。 参数:mode — "full"(默认)、"window"或"region" monitor — 0 = 活动监视器(默认),1/2/3 = 特定监视器,-1 = 同时捕获所有监视器 delay — 截取前等待的秒数(用于菜单/工具提示) window_name — 通过名称捕获特定应用程序窗口(例如"chrome","code") 当用户说类似"看我的屏幕"、"你看到什么"、"调试这个"或"这里有什么问题"时使用。 capture_with_voice 截取屏幕 + 录制语音 + 转录。返回视觉分析和用户所说的话。 当用户想要在显示屏幕的同时描述某些内容时使用。 record_clip_and_summarize 录制短屏幕剪辑、提取关键帧并分析序列。 当用户想要显示某些随时间变化的内容(动画、工作流、步骤序列)时使用。 summarize_screenshot 分析现有的图像文件。传递文件路径以获取结构化分析。 transcribe_audio 本地Whisper音频文件转录。 get_recent_context 从之前的捕获中检索最近的上下文包摘要。 使用此功能在不重新捕获的情况下回忆您最近看到的内容。 您会得到什么 每次捕获都会返回一个结构化的上下文包: 目标 — 用户似乎正在做什么 环境 — 操作系统、编辑器、仓库、分支、语言 屏幕状态 — 可见面板、文件、终端输出 信号 — 字面错误、堆栈跟踪、警告 可能的情况 — 可能发生的事情 建议的下一步信息 — 您应该问什么或做什么 何时使用Eye2byte 用户提到某些视觉内容("此按钮已损坏"、"布局不正确") 用户要求您"查看"或"检查"他们屏幕上的某些内容 您需要查看错误对话框、UI错误或终端输出,用户无法轻松复制 用户正在调试,视觉上下文将有助于您的诊断 用户要求您监视或观看某些内容 您想验证您的更改是否产生了预期的视觉效果 多监视器提示 monitor=-1捕获所有监视器的拼接 — 有助于查看整个工作空间 monitor=1, 2, 3用于针对特定显示器 默认(monitor=0)捕获具有活动窗口的监视器 设置 Eye2byte必须在您要捕获屏幕的机器上运行: 本地(同一机器):如果此技能已加载,则已配置。 远程(不同机器):用户在其本地机器上运行eye2byte-mcp --sse --token ,并在openclaw.json中配置MCP连接URL。