Miliger Playwright Scraper — 基于Playwright的网页爬取技能

Name: Miliger Playwright Scraper — 基于Playwright的网页爬取技能
Author: zhaog100

zhaog100

Miliger Playwright Scraper — 基于Playwright的网页爬取技能

v1.2.0

使用Playwright进行真实浏览器操作，爬取复杂动态网页。支持多Tab、懒加载、SPA单页应用，适用于公开信息型网站，如会议议程、展会信息等。

0· 0·0 当前·0 累计

by @zhaog100·MIT-0

浏览器自动化

下载技能包

License

MIT-0

最后更新

2026/3/15

安全扫描

VirusTotal

无害

查看报告

OpenClaw

安全

high confidence

该技能是一致的Playwright基于的网页爬取器：其指令、示例代码和要求与描述目的相符，没有未解释的凭据、网络端点或可疑安装步骤。

评估建议

该技能似乎做了它声称的（一个Playwright基于的爬取器）。在运行之前：（1）审查示例脚本；（2）使用新/短暂的浏览器配置文件；（3）仅指向公开、合法的页面；（4）在受控环境中运行npm install；（5）如果需要更强的保证，在可丢弃的VM/容器中运行并检查输出文件。...

详细分析 ▾

✓ 用途与能力

名称/描述描述了一个Playwright网页爬取器，SKILL.md及示例完全实现了该功能（Playwright API、导航、点击、滚动、数据提取、保存到磁盘）。没有无关的凭据、二进制文件或服务被请求。

ℹ 指令范围

指令保持在爬取范围内（生成/运行Playwright脚本、提取DOM、保存Markdown/JSON）。它们包括可以捕获任意页面内容的操作（page.content()、截屏、保存HTML）并推荐持久的浏览器配置文件，这意味着如果运行在认证页面上，工具可以收集敏感信息。文档警告仅爬取公共数据，但重新使用配置文件和捕获完整页面内容的能力会增加误用风险。

✓ 安装机制

技能包中没有嵌入安装规范（仅指令）。README/SKILL.md 指示运行npm install playwright 和npx playwright install chromium — 标准、众所周知的步骤，将从官方源下载Playwright和浏览器二进制文件。包文件中没有任意下载URL或从未知主机提取的行为。

ℹ 凭证需求

该技能不请求环境变量或外部凭据（没有列出秘密令牌）。然而，它推荐并演示了持久的Chrome配置文件（./chrome-profile），这些文件在磁盘上存储cookies/会话数据 — 这给了爬取器在用户提供的情况下重用身份验证状态的能力，因此用户应该避免将技能指向需要登录的网站，除非他们了解隐私影响。

✓ 持久化与权限

该技能没有标记为'always: true'，使用正常的自主调用默认值。它将输出和配置文件数据写入本地目录（例如 ./mwc-agenda, ./chrome-profile），这对于一个爬取器来说是预期的；它不修改其他技能或系统范围的代理配置。

安全有层次，运行前请审查代码。

License

MIT-0

可自由使用、修改和再分发，无需署名。

查看条款 ↗

运行时依赖

无特殊依赖

版本

latestv1.2.02026/3/15

● 无害

安装命令点击复制

官方npx clawhub@latest install miliger-playwright-scraper

镜像加速npx clawhub@latest install miliger-playwright-scraper --registry https://cn.clawhub-mirror.com

技能文档

（由于原始内容中SKILL.md已提供中文版，以下为占位，请替换为实际内容或保持原文）请参考提供的中文SKILL.md文档。

功能概述

使用Playwright进行真实浏览器操作，爬取复杂动态网页。

核心能力

✅ 真实浏览器操作 - 点击、滚动、输入、等待
✅ 处理复杂SPA - 单页应用、多Tab、懒加载
✅ AI自动生成脚本 - 无需提前准备，实时分析页面结构
✅ 持久化Chrome Profile - 复用登录状态
✅ 数据结构化输出 - 自动整理成Markdown/JSON

对比优势

工具	局限性	Playwright优势
n8n	无法处理JS渲染	✅ 完整JS渲染支持
Apify	需要现成actor	✅ AI实时生成脚本
Bright Data	按量计费	✅ 本地运行，免费

适用场景

✅ 公开信息型网站 - 会议日程、展会信息
✅ 多Tab懒加载页面 - 需点击切换的内容
✅ SPA单页应用 - JavaScript异步加载

不适用场景

⚠️ 反爬机制强的网站 - 需要复杂验证
⚠️ 需多轮调试的场景 - 效率不高
⚠️ 生产环境 - 需要高度稳定性

使用方式

1. 基本爬取（单页面）

官家，请帮我爬取这个页面：https://example.com
等JS渲染完成后提取所有内容
保存成Markdown

2. 多Tab爬取

官家，请爬取MWC巴展议程：
页面有5个日期Tab（PRE、MON、TUE、WED、THU）
需要点击每个Tab获取数据
按日期分别保存

3. 懒加载内容

官家，请爬取这个页面：
需要滚动到底部才能加载完整内容
等待所有内容加载完成
提取所有session数据

技术实现

Playwright核心API

1. 启动浏览器

const { chromium } = require('playwright');
const browser = await chromium.launch({
  headless: false, // 或true
  channel: 'chrome'
});
const context = await browser.newContext({
  viewport: { width: 1920, height: 1080 }
});const page = await context.newPage();

2. 导航和等待

await page.goto(url, { waitUntil: 'networkidle' });
await page.waitForLoadState('domcontentloaded');
await page.waitForSelector('selector');

3. DOM操作

// 点击
await page.click('button');
await page.click('text=Monday');
// 滚动
await page.evaluate(() => {
  window.scrollTo(0, document.body.scrollHeight);
});// 等待
await page.waitForTimeout(2000);

4. 数据提取

const data = await page.evaluate(() => {
  const items = Array.from(document.querySelectorAll('.item'));
  return items.map(item => ({
    title: item.querySelector('.title').textContent,
    time: item.querySelector('.time').textContent,
    location: item.querySelector('.location').textContent
  }));
});

5. 持久化Profile

const context = await chromium.launchPersistentContext(
  './user-data',
  { headless: false, channel: 'chrome' }
);

实战案例

案例1：MWC巴展议程爬取

需求：

5个日期Tab（PRE、MON、TUE、WED、THU）
每个Tab有懒加载
数据通过JS异步请求

实现步骤：

// 1. 导航到页面
await page.goto('https://mwcbarcelona.com/agenda');
// 2. 等待页面加载
await page.waitForLoadState('networkidle');// 3. 循环处理每个Tab
const tabs = ['PRE', 'MON', 'TUE', 'WED', 'THU'];
for (const tab of tabs) {
  // 点击Tab
  await page.click(text=${tab});
  
  // 等待内容加载
  await page.waitForTimeout(2000);
  
  // 滚动到底部（触发懒加载）
  await page.evaluate(() => {
    window.scrollTo(0, document.body.scrollHeight);
  });
  
  // 等待懒加载完成
  await page.waitForTimeout(3000);
  
  // 提取数据
  const sessions = await page.evaluate(() => {
    const items = Array.from(document.querySelectorAll('.session'));
    return items.map(item => ({
      title: item.querySelector('.title').textContent,
      time: item.querySelector('.time').textContent,
      location: item.querySelector('.location').textContent,
      speakers: item.querySelector('.speakers').textContent
    }));
  });
  
  // 保存到文件
  const markdown = sessions.map(s => 
    ## ${s.title}\n- 时间: ${s.time}\n- 地点: ${s.location}\n- 演讲者: ${s.speakers}\n
  ).join('\n');
  
  fs.writeFileSync(mwc-${tab}.md, markdown);
}

关键点：

✅ 等待网络空闲（networkidle）
✅ 点击后等待内容加载
✅ 滚动触发懒加载
✅ 等待懒加载完成
✅ 数据结构化提取

最佳实践

1. 等待策略

// ❌ 不推荐：固定等待
await page.waitForTimeout(5000);// ✅ 推荐：智能等待
await page.waitForLoadState('networkidle');
await page.waitForSelector('.item', { state: 'visible' });
await page.waitForFunction(() => {
  return document.querySelectorAll('.item').length > 10;
});

2. 错误处理

try {
  await page.click('button');
  await page.waitForSelector('.result', { timeout: 10000 });
} catch (error) {
  console.error('操作失败:', error.message);
  // 截图调试
  await page.screenshot({ path: 'error.png' });
}

3. 性能优化

// 阻止不必要的资源加载
await page.route('*/.{png,jpg,jpeg,gif,svg}', route => route.abort());
await page.route('*/.css', route => route.abort());

4. 反爬应对

// 设置用户代理
await page.setExtraHTTPHeaders({
  'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64)...'
});// 禁用webdriver标识
await page.evaluateOnNewDocument(() => {
  Object.defineProperty(navigator, 'webdriver', {
    get: () => false,
  });
});

调试技巧

1. 截图

await page.screenshot({ path: 'debug.png', fullPage: true });

2. 打印HTML

const html = await page.content();
console.log(html);

3. 打印特定元素

const element = await page.$('.item');
const html = await element.innerHTML();
console.log(html);

4. 控制台日志

page.on('console', msg => {
  console.log('PAGE LOG:', msg.text());
});

注意事项

安全提示

⚠️ 仅爬取公开信息
⚠️ 遵守robots.txt
⚠️ 不要过度请求，避免给服务器造成压力
⚠️ 敏感数据不要保存

法律风险

⚠️ 确保爬取行为合法
⚠️ 不要爬取版权内容
⚠️ 不要绕过付费墙
⚠️ 不要爬取个人隐私数据

技术限制

⚠️ 反爬机制强的网站可能失败
⚠️ 需要复杂验证的平台不适用
⚠️ 页面结构变化需重新调试

安装依赖

npm install playwright
npx playwright install chromium

参考资料

创建时间: 2026-02-27 版本: 1.0.0 维护者: 米粒儿（AI Agent）

数据来源：ClawHub ↗ · 中文优化：龙虾技能库

OpenClaw 技能定制 / 插件定制 / 私有工作流定制

免费技能或插件可能存在安全风险，如需更匹配、更安全的方案，建议联系付费定制

了解定制服务

License

运行时依赖

版本

安装命令 点击复制

技能文档

功能概述

核心能力

对比优势

适用场景

不适用场景

使用方式

1. 基本爬取（单页面）

2. 多Tab爬取

3. 懒加载内容

技术实现

Playwright核心API

1. 启动浏览器

2. 导航和等待

3. DOM操作

4. 数据提取

5. 持久化Profile

实战案例

案例1：MWC巴展议程爬取

最佳实践

1. 等待策略

2. 错误处理

3. 性能优化

4. 反爬应对

调试技巧

1. 截图

2. 打印HTML

3. 打印特定元素

4. 控制台日志

注意事项

安全提示

法律风险

技术限制

安装依赖

参考资料

安装命令点击复制