📦 豆包链接转MD
v1.0.0豆包分享链接内容提取与 Markdown 导出工具。当用户提供豆包(Doubao)分享链接并要求提取、导出、保存内容为 Markdown 时触发此技能。支持对话分享、智能体分享、文件分享等所有豆包分享类型,输出为结构化排版的 Markdown 文档。触发词:豆包链接转MD、豆包转Markdown、豆包分享提取MD...
运行时依赖
安装命令
点击复制技能文档
Doubao 分享 to Markdown Overview
从豆包(Doubao)分享链接中提取对话内容,生成结构化排版的 Markdown 文档。支持所有分享类型(对话、智能体、文件等),保留文字、代码块、表格、图片、LaTeX 等全部内容。
工作流程 决策树 用户提供豆包分享链接 ↓
- 依赖检查:Python 依赖是否已安装?
- 选择抓取模式
- 数据提取是否成功?(5种方式依次尝试)
- 输出 .md 文件路径给用户
Step 1: 检查并安装依赖
首次使用时需安装 Python 依赖。运行安装脚本:
python3 scripts/安装_deps.py
或手动安装:
pip3 安装 请求s beautifulsoup4 lxml Pillow playwright playwright 安装 chromium
⚠️ Playwright 和 Chromium 是可选依赖,仅 --playwright 模式需要。如磁盘空间有限可跳过,但大多数豆包分享页需要 JS 渲染。
Step 2: 提取并生成 Markdown 文档
模式 A:Playwright 模式(推荐,适用于大多数豆包分享链接)
python3 scripts/提取_doubao_md.py --url "https://www.doubao.com/thread/xxxxx" --输出 "输出文件名.md" --playwright
模式 B:静态抓取模式(仅对部分内嵌数据的页面有效)
python3 scripts/提取_doubao_md.py --url "https://www.doubao.com/thread/xxxxx" --输出 "输出文件名.md"
模式 C:本地 HTML 文件解析(浏览器渲染后)
配合 Browser 自动化 技能使用:
python3 scripts/提取_doubao_md.py --html "page.html" --输出 "输出文件名.md"
可选参数:
--image-dir:指定图片保存目录(默认:输出文件名_images/) Step 3: 回退策略
当 --url 静态模式报错时,按以下顺序尝试:
添加 --playwright 参数:大多数豆包页面需要 JS 渲染 使用 Browser 自动化 技能:加载 [技能:Browser 自动化],打开链接获取渲染后 HTML 手动保存 HTML:在浏览器中打开链接,Ctrl+S 保存完整网页,用 --html 模式解析 数据提取原理
豆包分享页面将完整对话数据嵌入 HTML 中(SSR),代码按以下优先级依次尝试 5 种提取方式:
modern-运行-路由r-data-fn(优先级1):从