Hfpclawer Paper Search — Hfpclawer 论文搜索

v0.5.0

从 arXiv、HuggingFace Papers 和 OpenReview 中发现、下载和组织学术论文。支持多源搜索 → 去重 → PDF 下载 → Markdown 转换 → 可选 wiki 同步。专为希望每天监测新论文的研究人员设计。

0· 56·0 当前·0 累计

by @diamond2nv·MIT-0

文档工具网络工具浏览器自动化文件处理 AI模型访问

下载技能包

License

MIT-0

License

MIT-0

可自由使用、修改和再分发，无需署名。

查看条款 ↗

运行时依赖

无特殊依赖

版本

latestv0.5.0

# Quick 扫描 (3 pages per 查询, ~50 papers)

安装命令

点击复制

官方npx clawhub@latest install hfpclawer-paper-search

镜像加速npx clawhub@latest install hfpclawer-paper-search --registry https://cn.longxiaskill.com 镜像可用

需要定制？告诉我你的需求 →

技能文档

hfpclawer 文档搜索与下载一个多源学术论文管道：搜索跨 arXiv / HuggingFace Papers / OpenReview / PapersWithCode，按标题去重，下载 PDF，转换为 Markdown，并可选地同步到 wiki。谁适用：希望每天获取“新论文” feed 而无需手动检查多个网站的研究人员。

概述典型工作流程在一个命令中： hfpclawer search # 发现新论文跨源 ├── 按相关性排名您的关键词 hfpclawer download # 下载匹配论文的 PDF ├── 8 个并发流 hfpclawer convert --to-wiki # PDF → 可读 Markdown + wiki 同步或者运行完整管道： hfpclawer full --max-pages 3 --to-wiki

前提条件 pip install hfpclawer>=0.5.0 hfpclawer init # 在当前目录创建 config.yaml 编辑 config.yaml 以匹配您的搜索兴趣（见下面的配置部分）。

快速开始

首次设置

# 创建默认配置 hfpclawer init # 编辑配置以匹配您的研究兴趣 vim config.yaml # → 修改：search.queries、keywords.include_high、keywords.exclude

一次性完整管道（每日使用）

# 发现 → 下载 → 转换 → wiki 同步在一个命令中 hfpclawer full # 限制页面用于快速检查 hfpclawer full --max-pages 3 --to-wiki

步骤式（用于调试）

# 步骤 1：搜索所有源 hfpclawer search --max-pages 5 # 步骤 2：下载匹配论文的 PDF hfpclawer download # 步骤 3：转换 PDF 为 Markdown hfpclawer convert # 步骤 4：同步到 wiki 目录 hfpclawer convert --to-wiki

定期监控新论文

# 检查已下载的论文 hfpclawer list # 显示论文存储统计 hfpclawer store stats # 启动实时下载监控 hfpclawer monitor start

配置配置文件 config.yaml 控制搜索和下载的论文： search： max_per_dim：50 # 每个搜索查询每个源的论文数 queries： - query： "神经操作员" category：神经操作员 - query： "物理信息" category：物理信息 - query： "PDE 解决器深度学习" category：PDE 解决器 keywords： include_high：# 论文必须匹配这些（OR） - "神经操作员" - "PDE" - "深度学习" include_low：# 可选奖励关键词 - "傅里叶" - "自注意力" exclude：# 排除这些主题 - "量子" - "LLM" classification： threshold_pass：30 # 相关性评分阈值（0-100） title_similarity_min：0.40 # 去重阈值 paths： data_dir： "数据" # SQLite DB 位置 pdf_dir： "pdfs" # 下载的 PDF md_dir： "mds" # 转换的 Markdown 文件

可用命令命令目的公共标志 hfpclawer search 发现新论文 --max-pages、--dry-run hfpclawer download 下载 PDF（从搜索结果运行） hfpclawer convert 转换 PDF → MD --to-wiki 同步到 raw/papers/ hfpclawer full 所有在一个管道 --max-pages、--to-wiki hfpclawer list 列出已下载的论文 hfpclawer store stats 论文存储统计 hfpclawer store export 以 JSON/CSV 格式导出存储 --format json hfpclawer store verify 交叉验证论文元数据 --arxiv-id hfpclawer config 显示当前配置 hfpclawer mcp 启动 MCP 服务器（用于 LLM 集成） hfpclawer monitor 下载守护进程控制 start、stop、status hfpclawer dedup 显示去重统计

每日例程早晨 — 检查有什么新内容 # 快速扫描（每个查询 3 页，~50 篇论文） hfpclawer search --max-pages 3 # 查看结果 hfpclawer store stats 下午 — 下载和阅读 # 下载所有新论文 hfpclawer download # 转换为可读 Markdown hfpclawer convert # 读取最好的一个 cat mds/2010.08895.md | head -80 每周 — 完整管道 # 完整扫描与 wiki 同步 hfpclawer full --max-pages 10 --to-wiki # 验证新添加论文的引用 hfpclawer audit verify "关键引用论文" --source openalex

数据存储 hfpclawer 使用三个层次：存储位置内容持久性 SQLite data/papers.db 元数据、去重、交叉引用持久 PDFs pdfs/ 原始论文 PDF 下载一次，保留 Markdown mds/ 转换文本可从 PDF 再生论文存储跟踪： arXiv ID、标题、作者、摘要发现源（HF / arXiv / OpenReview）下载状态、转换状态 wiki 同步路径（如果同步）交叉验证与 Crossref（DOI 验证）

常见陷阱 pip install 需要在正确的 venv 中。如果 hfpclawer 命令未找到，请检查活动 Python 环境。 HuggingFace CLI 限速。太多查询每分钟会触发 429。如果发生这种情况，请将 max_per_dim 减少到 10。 Scrapy 蜘蛛需要 scrapy 额外安装。如果您看到 ModuleNotFoundError：scrapy，请运行 pip install hfpclawer[scrapy]。 PDF 转换需要 pymupdf4llm。如果 hfpclawer convert抱怨缺少 pymupdf4llm，请运行 pip install hfpclawer[pdf]。 wiki 同步默认为 raw/papers/。

License

运行时依赖

版本

安装命令

技能文档

相关技能推荐