运行时依赖
安装命令
点击复制技能文档
Url2md 将网页转换为干净、可读的 Markdown。 快速开始 单个 URL python3 scripts/url2md.py https://example.com/article 输出到文件: python3 scripts/url2md.py https://example.com/article -o article.md 批量转换 创建一个包含 URL 的文件(每行一个): https://example.com/article-1 https://example.com/article-2 https://example.com/article-3 转换所有并保存到目录: python3 scripts/url2md.py -f urls.txt -d ./markdown_files/ 功能 无依赖:仅使用 Python 标准库(urllib, html.parser) 标题提取:自动添加页面标题作为 H1 链接解析:将相对 URL 转换为绝对 基本格式:标题、段落、列表、链接、图像、代码块、表格 噪音去除:去除脚本、样式、导航、页脚和其他模板 脚本参考 scripts/url2md.py 用法:url2md.py [url] [选项] 选项: 选项 描述 url 要转换的单个 URL -o, --output 输出文件(默认:stdout) -f, --file 包含要转换的 URL 的文件 -d, --dir 批量转换的输出目录 --no-title 跳过添加页面标题作为 H1 --timeout 请求超时时间(秒)(默认:30) -v, --version 显示版本 示例: # 单个 URL 到 stdout python3 scripts/url2md.py https://docs.python.org/3 # 保存到文件 python3 scripts/url2md.py https://docs.python.org/3 -o python-docs.md # 批量转换,自定义超时时间 python3 scripts/url2md.py -f urls.txt -d ./output/ --timeout 60 # 跳过标题 python3 scripts/url2md.py https://example.com --no-title 何时使用 将文档页面转换为 Markdown 以进行本地参考 将网页文章存档为文本文件 从动态源构建静态内容 在浏览器工具不可用时提取可读内容 批量处理 URL 列表 限制 仅转换静态 HTML,不执行 JavaScript 复杂布局(多列、重度 CSS)可能会失去结构完整性 需要登录或付费的内容需要身份验证令牌 限速网站可能会阻止重复请求