📦 Auto Tech Research — 自动技术调研

v1.0.0

基于 Chrome DevTools Protocol 的全自动深度技术调研工具,模拟真人浏览器行为在国内外主流平台搜索并生成结构化 HTML 报告,全程无 web_fetch,支持登录态与 JS 渲染,结果透明可追溯。

0· 34·1 当前·1 累计
by @huayang0704·MIT-0
下载技能包
License
MIT-0
最后更新
2026/4/13
0
安全扫描
VirusTotal
无害
查看报告
OpenClaw
可疑
medium confidence
该技能声称通过浏览器驱动进行研究,看似合理,但存在隐私与运行风险:隐含访问用户已登录 Chrome 配置(chrome-relay),并包含未在安装要求中声明的可执行 Python 脚本。
评估建议
安装或运行前请:1. 完整审阅 scripts/auto-research.py,确认无网络外泄或数据窃取行为;2. 明确 chrome-relay 的访问方式,评估是否允许对登录账户页面截图(可能暴露 cookie、私信等);3. 若仅需公开数据抓取,禁用 chrome-relay 或在无登录的独立浏览器配置中运行;4. 要求发布者解释为何在“仅指令”元数据下仍包含可运行脚本,并提供数据流向说明;5. 本地执行脚本时,先在 sandbox 或 VM 中运行并监控网络活动。...
详细分析 ▾
用途与能力
技能声称通过 CDP/浏览器进行研究,SKILL.md 中的指令与目标一致(导航、截图、提取、生成 HTML)。但包内包含约 27 KB 的 Python 脚本及运行示例,而注册元数据标注为“仅指令”且无安装说明,这种可执行代码与无安装声明的不匹配应予以澄清。
指令范围
运行时指令明确要求使用“chrome-relay”配置(用户已登录的 Chrome)访问需登录平台,这意味着可读取 cookie、会话及任何已登录账号。SKILL.md 未说明 consent、限制或会读取哪些数据,且指示在多个第三方站点广泛导航/截图,隐私暴露面大,应声明并受控。
安装机制
无安装说明(仅指令)本身风险较低,但仓库内含约 27 KB Python 脚本及 python3 scripts/auto-research.py 的示例。不清楚是代理还是用户执行该脚本;可执行代码的存在扩大了攻击面,即使无安装器也应予以解释。
凭证需求
技能未声明需任何环境变量或凭证,但其行为依赖浏览器配置(openclaw 与 chrome-relay)。访问 chrome-relay 实质赋予技能读取会话 cookie 及已登录账号(微信、知乎、B站、Google 等)的权限,该级别访问未在凭证/配置项中声明。
持久化与权限
always 为 false,无永久驻留或修改其他技能/配置的声明。代理默认自动调用属于常规行为,非本包新增风险。
安全有层次,运行前请审查代码。

License

MIT-0

可自由使用、修改和再分发,无需署名。

运行时依赖

无特殊依赖

版本

latestv1.0.02026/4/13

auto-tech-research v4.0.0 - 全面弃用 web_fetch,所有自动化搜索均通过 browser(Chrome DevTools Protocol)模拟真人操作完成。 - 浏览器自动选择独立 profile 或 chrome-relay(带登录态)以应对不同平台需求,如知乎、B站等需登录内容。 - 支持 JS 渲染页面,搜索和内容获取与人工操作一致,极大提升反爬绕过能力和内容一致性。 - 各平台采集过程与结果透明:HTML 报告中输出获取成功/失败/原因等诊断信息。 - 优化浏览器资源管理和操作效率,减少无效页面打开与超时失败。

无害

安装命令

点击复制
官方npx clawhub@latest install auto-tech-research
镜像加速npx clawhub@latest install auto-tech-research --registry https://cn.longxiaskill.com

技能文档

核心变更(v4.0)

v3.0 → v4.0 最大变化:全面弃用 web_fetch,改用 browser(CDP 协议)

| 维度 | v3.0 | v4.0 | |------|------|------| | 搜索工具 | web_fetch 优先,browser 降级 | browser 唯一工具 | | 搜索体验 | 程序式 HTTP 请求 | 模拟真人浏览器操作 | | JS 渲染 | 不支持 | 完整支持 | | 登录态 | 不支持 | 支持(chrome-relay) | | 反爬绕过 | 经常 403 | 与真人一致,极少被拦 | | 搜索结果 | API 返回格式 | 与人工搜索完全一致 |

工作流程概览

`` 输入技术主题(+ 可选的用户补充链接) ↓ [Phase 1] 关键词扩展(中英双语) ↓ [Phase 2] 平台相关性评估 + 动态数量分配 ↓ [Phase 3] 浏览器搜索(CDP 操控,模拟真人) ├─ 启动浏览器(独立 openclaw 实例 或 chrome-relay) ├─ 逐平台搜索:打开搜索页 → 输入关键词 → 获取结果列表 ├─ 逐条打开:点击链接 → 等待加载 → snapshot 提取内容 ├─ 记录每个平台的获取状态和原因 └─ 用户补充链接:直接 navigate → snapshot ↓ [Phase 4] 内容分级整理(L1-L4) ↓ [Phase 5] 生成 HTML 报告 ├─ 技术概览(200-1000字) ├─ 分级资源(带平台标签和可点击链接) ├─ 平台获取诊断面板 └─ 平台统计明细 `

浏览器策略

浏览器选择

| 场景 | 浏览器 Profile | 说明 | |------|----------------|------| | 默认 |
openclaw(省略 profile) | 独立受控浏览器,无登录态,适合公开内容 | | 需要登录态 | chrome-relay | 用户已登录的 Chrome,适合知乎、B站等 |

启动顺序

`
  • 优先使用 openclaw 默认浏览器(独立、干净)
  • 如果平台需要登录(知乎文章、B站视频详情等),切换 chrome-relay
  • 每个平台搜索完成后,关闭标签页释放资源
`

Phase 1: 关键词扩展

与 v3.0 一致,中英双语扩展:
`yaml 示例:Kubernetes 中文: 核心: ["Kubernetes", "K8s", "容器编排"] 教程: ["Kubernetes入门", "K8s教程"] 深度: ["Kubernetes架构", "K8s原理"] 英文: core: ["Kubernetes", "K8s", "container orchestration"] tutorial: ["Kubernetes tutorial", "K8s getting started"] advanced: ["Kubernetes architecture", "K8s deep dive"] `

Phase 2: 平台相关性评估

与 v3.0 一致,根据主题动态评估每个平台的相关性和获取数量。

Phase 3: 浏览器搜索(核心变更)

3.1 搜索引擎策略

| 目标平台 | 搜索方式 | URL 模板 | |----------|----------|----------| | 通用英文 | Google 搜索 |
https://www.google.com/search?q={关键词} | | 通用中文 | 百度搜索 | https://www.baidu.com/s?wd={关键词} | | 知乎 | 知乎站内搜索 | https://www.zhihu.com/search?type=content&q={关键词} | | CSDN | CSDN 搜索 | https://so.csdn.net/so/search?q={关键词} | | B站 | B站站内搜索 | https://search.bilibili.com/all?keyword={关键词} | | GitHub | GitHub 搜索 | https://github.com/search?q={关键词}&type=repositories | | arXiv | arXiv 搜索 | https://arxiv.org/search/?query={关键词} | | YouTube | YouTube 搜索 | https://www.youtube.com/results?search_query={关键词} | | HackerNews | HN 搜索 | https://hn.algolia.com/?q={关键词} | | 微信公众号 | 搜狗微信搜索 | https://weixin.sogou.com/weixin?query={关键词} | | 小宇宙 | 小宇宙搜索 | https://www.xiaoyuzhoufm.com/search?q={关键词} |

3.2 每个平台的搜索步骤

` 对于每个平台:
  • browser(action="navigate", url=搜索URL)
  • browser(action="snapshot") → 获取搜索结果列表
  • 从 snapshot 中提取 Top N 个结果的标题和链接
  • 对每个结果:
a. browser(action="navigate", url=结果链接) b. browser(action="snapshot") → 获取文章内容 c. 提取:标题、作者、发布时间、正文摘要
  • 记录获取状态(成功条数、失败原因)
  • 关闭多余标签页
`

3.3 关键操作示例

Google 搜索
` browser(action="navigate", url="https://www.google.com/search?q=Kubernetes+tutorial") browser(action="snapshot") → 获取搜索结果 # 从 snapshot 中提取链接 browser(action="navigate", url="第一个结果链接") browser(action="snapshot") → 获取文章内容 `

知乎搜索(需要 chrome-relay): ` browser(action="navigate", url="https://www.zhihu.com/search?type=content&q=Kubernetes", profile="chrome-relay") browser(action="snapshot", profile="chrome-relay") → 获取搜索结果 # 提取知乎文章链接(zhuanlan.zhihu.com/p/xxx) browser(action="navigate", url="https://zhuanlan.zhihu.com/p/xxx", profile="chrome-relay") browser(action="snapshot", profile="chrome-relay") → 获取文章内容 `

B站搜索` browser(action="navigate", url="https://search.bilibili.com/all?keyword=Kubernetes") browser(action="snapshot") → 获取视频列表(标题、播放量、UP主) # 提取视频链接(bilibili.com/video/BVxxx) `

3.4 内容提取策略

| 内容类型 | 提取方式 | 提取目标 | |----------|----------|----------| | 文章 | snapshot → 解析文本 | 标题、作者、正文前500字 | | 视频 | snapshot → 解析元数据 | 标题、UP主、播放量、简介 | | 论文 | snapshot → 解析摘要 | 标题、作者、Abstract | | 仓库 | snapshot → 解析 README | 名称、Stars、描述 | | 讨论 | snapshot → 解析帖子 | 标题、分数、评论数 |

3.5 获取诊断(每个平台必须输出)

` 📊 平台获取诊断 ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━ ✅ Google搜索 | 10条 | 独立浏览器,搜索结果正常 ✅ 知乎 | 8条 | chrome-relay,站内搜索 + zhuanlan 直链 ✅ GitHub | 12条 | 独立浏览器,仓库搜索+API ✅ arXiv | 5条 | 独立浏览器,搜索结果正常 ✅ B站 | 6条 | 独立浏览器,视频列表正常 ⚠️ CSDN | 3条 | 独立浏览器,部分文章需VIP,跳过 ❌ YouTube | 0条 | 独立浏览器,地区限制无法加载 ✅ HackerNews | 4条 | 独立浏览器,Algolia搜索正常 ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━ 总计: 48条 (7/8 平台成功) `

3.6 用户补充链接处理

当用户发送额外链接时:
`
  • 识别 URL 的平台来源
  • browser(action="navigate", url=用户链接)
  • browser(action="snapshot") → 提取内容
  • 分类到对应 Level
  • 更新 HTML 报告(增量)
`

Phase 4: 内容分级

与 v3.0 一致:L1入门 / L2实践 / L3深度 / L4前沿

Phase 5: HTML 报告生成

与 v3.0 一致,使用
references/report-template.html 模板生成自包含 HTML。

性能优化

减少浏览器操作次数

  • 批量提取:一次 snapshot 提取搜索页面的所有结果,而不是逐个点击
  • 标签复用:在同一标签页中 navigate 不同页面,减少标签开关
  • 跳过低质量:搜索结果中明显低质量的跳过不打开
  • 并行标签:如果浏览器支持,可同时打开多个标签

超时和错误处理

`
  • 页面加载超时(>15s)→ 标记失败,继续下一个
  • 页面内容为空 → 尝试等待 2s 后重新 snapshot
  • 弹窗/登录拦截 → 尝试关闭弹窗,或切换 chrome-relay
  • 验证码 → 标记为"需人工干预",跳过
``

与 v3.0 的完整对比

| 维度 | v3.0 | v4.0 | |------|------|------| | 搜索工具 | web_fetch 优先 | browser(CDP)唯一 | | 搜索体验 | HTTP 请求 | 模拟真人浏览器 | | JS 渲染 | ❌ | ✅ | | 知乎 | 403 失败 | ✅ chrome-relay 搜索 | | B站 | 空内容 | ✅ JS 渲染后提取 | | CSDN | 404 频繁 | ✅ 浏览器正常加载 | | YouTube | 超时 | ⚠️ 可能地区限制 | | 搜索结果一致性 | 低(API格式) | 高(与人工一致) | | 输出格式 | HTML | HTML(不变) | | 失败诊断 | ✅ | ✅(不变) |

注意事项

  • 浏览器资源管理:搜索完一个平台后关闭多余标签页,避免内存泄漏
  • 搜索频率控制:不要短时间内对同一平台发起过多请求,间隔 2-3 秒
  • 内容提取精度:snapshot 返回的是 accessibility tree,需要从中筛选有效内容
  • cookie/登录态:需要登录的平台使用 chrome-relay,公开内容用独立浏览器
  • 隐私保护:不在独立浏览器中输入任何账号密码

--- 版本:v4.0.0 更新日期:2026-03-27 核心变更:全面弃用 web_fetch,改用 browser CDP 协议模拟真人搜索

数据来源ClawHub ↗ · 中文优化:龙虾技能库