Browser Automation - 使用自然语言在命令行中实现网页浏览与交互
v1.0.1通过 Stagehand CLI 与 Claude,使用自然语言指令实现浏览器的打开、导航、数据抽取、截图、表单填写、按钮点击等交互,可自动在本地 Chrome 与远程 Browserbase 环境之间切换,适用于开发调试及生产爬取场景。
56· 4.2万·0 当前·0 累计
下载技能包
License
MIT-0
此技能需要访问外网资源,可能需要科学上网
运行时依赖
无特殊依赖
安装命令
点击复制官方npx clawhub@latest install browser-automation
镜像加速npx clawhub@latest install browser-automation --registry https://cn.longxiaskill.com 镜像可用
国内专用npm install --registry=https://registry.npmmirror.com && npm link
本土化适配说明
首次使用前,请在项目根目录执行 `npm install --registry=https://registry.npmmirror.com` 安装依赖,然后运行 `npm link` 将 `browser` 命令链接为全局可用。如果系统中未安装 Chrome,请自行下载安装,或使用 Browserbase 远程模式(需要在 .env 中配置 BROWSERBASE_API_KEY 与 BROWSERBASE_PROJECT_ID)。
技能文档
使用 Stagehand CLI 与 Claude 自动化浏览器交互。
第一步:环境选择(本地 vs 远程)
技能会自动在本地浏览器和远程 Browserbase 环境之间切换:
- 若
.env文件中存在 Browserbase API 密钥(BROWSERBASE_API_KEY 和 BROWSERBASE_PROJECT_ID):使用远程 Browserbase 环境 - 若不存在 Browserbase API 密钥:回退到本地 Chrome 浏览器
- 不会弹出用户提示:根据当前配置自动决定
初始化(仅首次运行)
检查本目录下的 setup.json。若 setupComplete: false:
npm install # 安装依赖
npm link # 创建全局 browser 命令
命令列表
以下所有命令在本地模式和 Browserbase 模式下表现一致:
browser navigate# 打开指定 URLbrowser act ""# 用自然语言描述的动作browser extract "" ['{}']# 提取数据(可选 schema)browser observe ""# 发现页面元素browser screenshot# 截取页面截图browser close# 关闭浏览器
快速示例
browser navigate https://example.com
browser act "click the Sign In button"
browser extract "get the page title"
browser close
模式对比
| 功能 | 本地模式 | Browserbase |
|---|---|---|
| 速度 | 更快 | 略慢 |
| 环境准备 | 需要 Chrome | 需要 API Key |
| 隐身模式 | 否 | 是 |
| 代理 / CAPTCHA | 否 | 是 |
| 适用场景 | 开发调试 | 生产/爬取 |
最佳实践
- 在进行任何交互前先导航到目标页面
- 每条指令后查看截图,确认操作是否成功
- 动作描述要具体、明确
- 完成后记得关闭浏览器
故障排除
- 未找到 Chrome:请安装 Chrome,或切换到 Browserbase 模式
- 动作执行失败:使用
browser observe发现可用元素后再重试 - Browserbase 连接失败:确认 API Key 与 Project ID 已正确配置
更多示例请参阅 EXAMPLES.md,API 参考请查看 REFERENCE.md。