Hfpclawer Paper Search — Hfpclawer 论文搜索
v0.5.0从 arXiv、HuggingFace Papers 和 OpenReview 中发现、下载和组织学术论文。支持多源搜索 → 去重 → PDF 下载 → Markdown 转换 → 可选 wiki 同步。专为希望每天监测新论文的研究人员设计。
运行时依赖
版本
# Quick 扫描 (3 pages per 查询, ~50 papers)
安装命令
点击复制技能文档
hfpclawer 文档搜索与下载 一个多源学术论文管道:搜索跨 arXiv / HuggingFace Papers / OpenReview / PapersWithCode,按标题去重,下载 PDF,转换为 Markdown,并可选地同步到 wiki。 谁适用:希望每天获取“新论文” feed 而无需手动检查多个网站的研究人员。
概述 典型工作流程在一个命令中: hfpclawer search # 发现新论文跨源 ├── 按相关性排名您的关键词 hfpclawer download # 下载匹配论文的 PDF ├── 8 个并发流 hfpclawer convert --to-wiki # PDF → 可读 Markdown + wiki 同步 或者运行完整管道: hfpclawer full --max-pages 3 --to-wiki
前提条件 pip install hfpclawer>=0.5.0 hfpclawer init # 在当前目录创建 config.yaml 编辑 config.yaml 以匹配您的搜索兴趣(见下面的配置部分)。
快速开始
- 首次设置
- 一次性完整管道(每日使用)
- 步骤式(用于调试)
- 定期监控新论文
配置 配置文件 config.yaml 控制搜索和下载的论文: search: max_per_dim:50 # 每个搜索查询每个源的论文数 queries: - query: "神经操作员" category:神经操作员 - query: "物理信息" category:物理信息 - query: "PDE 解决器深度学习" category:PDE 解决器 keywords: include_high:# 论文必须匹配这些(OR) - "神经操作员" - "PDE" - "深度学习" include_low:# 可选奖励关键词 - "傅里叶" - "自注意力" exclude:# 排除这些主题 - "量子" - "LLM" classification: threshold_pass:30 # 相关性评分阈值(0-100) title_similarity_min:0.40 # 去重阈值 paths: data_dir: "数据" # SQLite DB 位置 pdf_dir: "pdfs" # 下载的 PDF md_dir: "mds" # 转换的 Markdown 文件
可用命令 命令 目的 公共标志 hfpclawer search 发现新论文 --max-pages、--dry-run hfpclawer download 下载 PDF(从搜索结果运行) hfpclawer convert 转换 PDF → MD --to-wiki 同步到 raw/papers/ hfpclawer full 所有在一个管道 --max-pages、--to-wiki hfpclawer list 列出已下载的论文 hfpclawer store stats 论文存储统计 hfpclawer store export 以 JSON/CSV 格式导出存储 --format json hfpclawer store verify 交叉验证论文元数据 --arxiv-id hfpclawer config 显示当前配置 hfpclawer mcp 启动 MCP 服务器(用于 LLM 集成) hfpclawer monitor 下载守护进程控制 start、stop、status hfpclawer dedup 显示去重统计
每日例程 早晨 — 检查有什么新内容 # 快速扫描(每个查询 3 页,~50 篇论文) hfpclawer search --max-pages 3 # 查看结果 hfpclawer store stats 下午 — 下载和阅读 # 下载所有新论文 hfpclawer download # 转换为可读 Markdown hfpclawer convert # 读取最好的一个 cat mds/2010.08895.md | head -80 每周 — 完整管道 # 完整扫描与 wiki 同步 hfpclawer full --max-pages 10 --to-wiki # 验证新添加论文的引用 hfpclawer audit verify "关键引用论文" --source openalex
数据存储 hfpclawer 使用三个层次: 存储位置 内容 持久性 SQLite data/papers.db 元数据、去重、交叉引用 持久 PDFs pdfs/ 原始论文 PDF 下载一次,保留 Markdown mds/ 转换文本 可从 PDF 再生 论文存储跟踪: arXiv ID、标题、作者、摘要 发现源(HF / arXiv / OpenReview) 下载状态、转换状态 wiki 同步路径(如果同步) 交叉验证与 Crossref(DOI 验证)
常见陷阱 pip install 需要在正确的 venv 中。 如果 hfpclawer 命令未找到,请检查活动 Python 环境。 HuggingFace CLI 限速。 太多查询每分钟会触发 429。 如果发生这种情况,请将 max_per_dim 减少到 10。 Scrapy 蜘蛛需要 scrapy 额外安装。 如果您看到 ModuleNotFoundError:scrapy,请运行 pip install hfpclawer[scrapy]。 PDF 转换需要 pymupdf4llm。 如果 hfpclawer convert抱怨缺少 pymupdf4llm,请运行 pip install hfpclawer[pdf]。 wiki 同步默认为 raw/papers/。