论文阅读助手 -> Paper Reading Assistant
v7.7论文阅读报告生成器,从PDF提取结构化内容并生成全中文阅读报告。触发关键词:/readpaper、论文阅读、论文分析、PDF分析 可以翻译为: 论文阅读报告生成器,从PDF中提取结构化内容,并生成全中文的阅读报告。支持的触发关键词包括:/readpaper、论文阅读、论文分析以及PDF分析。
运行时依赖
安装命令
点击复制技能文档
readpaper - 论文阅读报告生成器(v7.7 简化版) 简介 readpaper 是一个智能论文分析工具,能够从 PDF 文件中提取结构化内容,供 AI 直接生成全中文阅读报告。
方案B工作流程 用户运行 /readpaper → Python 提取 PDF 内容 → 保存为结构化文件 → AI 读取文件 → AI 直接生成中文报告
功能特点 智能 PDF 提取:支持多种 PDF 解析库(PyMuPDF、pypdf、pdfplumber),根据文件大小自动选择最优方案 自动库安装:自动检测并安装缺失的 PDF 处理库,无需手动配置环境 结构化输出:将论文内容整理成标准格式,便于 AI 理解和总结 元数据识别:自动提取论文标题、作者、期刊、发表时间、DOI 等 结果缓存:相同文件重复分析时毫秒级响应
使用方法 方式:使用 WorkBuddy 自动调用(推荐) /readpaper "PDF 文件路径" WorkBuddy 会自动: 提取 PDF 内容并保存为结构化文件 {文件名}_提取内容.txt AI 读取提取的内容文件 AI 直接生成完整的中文阅读报告
报告结构 生成的中文报告包含以下十个部分: 一、论文基本信息 论文标题(中英文对照) 期刊/会议 作者 作者单位 发表时间 DOI 二、摘要总结 中文摘要总结(400-600字) 涵盖研究背景、目的、方法、主要发现和意义 三、研究背景 研究问题的科学背景和重要性 该领域已有的研究进展 本研究要解决的具体科学问题 四、研究方法 数据来源和范围 研究方法和模型 关键分析步骤 便于复现实验的技术细节 五、图表分析 对每个主要图表的中文解读 图表展示的核心内容 关键发现和规律 与研究问题的关联 六、主要发现 核心科学发现的详细阐述 关键实验结果和数据分析 与预期结果的对比 七、核心贡献 学术贡献和创新点 对领域的推动作用 实际应用价值 八、批判性思考 8.1 研究优势:优势、亮点和创新之处 8.2 研究局限:局限性或不足之处 8.3 改进建议:具体的改进建议 8.4 未来研究方向:未来深入研究的方向 九、论文总结 综合概括论文的研究目标、方法、主要发现和贡献,突出论文的核心价值。 十、方法复现 10.1 数据获取:公开数据集名称/来源、API 接口、下载方式;无法公开的数据如何获取或替代 10.2 代码实现要点:核心算法伪代码或流程图、关键超参数设置、数据预处理步骤 10.3 复现步骤:按时间顺序的实验步骤、可选的简化复现路径 10.4 潜在问题与解决方案:常见复现失败原因及对应解决方法
技术实现 文件结构 readpaper/ ├── SKILL.md # 技能说明文档 ├── scripts/ │ ├── read_paper_main.py # 主执行脚本 │ └── report_generator.py # 内容提取器 工作流程 PDF 提取:根据文件大小选择最优提取方法 内容解析:提取元数据、摘要、背景、方法、图表、结论 结构化保存:将提取的内容保存为文本文件 AI 生成报告:AI 读取内容文件,直接生成中文报告 PDF 提取策略 文件大小 优先方法 备选方法 最后备选 < 10 MB PyMuPDF pdfplumber pypdf ≥ 10 MB pdfplumber PyMuPDF pypdf 策略说明: PyMuPDF:提取效果最佳,是 10MB 以下文件的首选 pdfplumber:内存效率高,适合大文件,也是 10MB 以下文件的备选 pypdf:轻量级纯 Python 库,作为最后的备选方案
缓存机制 分析缓存:~/.workbuddy/cache/readpaper/cache_index.json 缓存有效期:30 天 相同文件再次分析时直接返回缓存结果
输出文件 运行后会生成以下文件: 提取内容文件:{PDF 文件名}_提取内容.txt 包含论文的结构化提取内容 供 AI 读取并生成中文报告 阅读报告文件:报告-{论文标题}.md 生成的完整中文阅读报告 使用论文标题作为文件名的一部分 示例:报告-Separating Daily 1 km PM2.5 Inorganic Chemical Composition in China since 2000 via Deep Learning Integrating Ground, Satellite, and Model Data.md
版本历史 v7.7 - 新增第十章"方法复现":包含数据获取、代码实现要点、复现步骤、潜在问题与解决方案,方便读者复现论文实验 v7.6 - 增加自动库安装功能:自动检查并安装 PyMuPDF、pdfplumber、pypdf 等依赖库,无需手动配置环境 v7.5 - 优化 PDF 提取策略:10MB 以下文件优先使用 PyMuPDF,pdfplumber 作为备选,pypdf 作为最后备选 v7.4 - 简化报告模板:移除"报告元信息"表格,使报告更加简洁 v7.3 - 重构报告结构:1) 将原"六、论文总结"拆分为"六、主要发现"和"七、核心贡献";2) 新增"九、论文总结"作为综合概括;3) 报告元信息移至末尾,使用表格和分隔符 v7.2 - 优化报告模板:1) 文件名格式改为报告-{论文标题}.md;2) 将报告元信息改为第九部分,使用 --- 分隔符 v7.1 - 添加报告元信息(生成时间、生成时长、skill 版本)到报告模板 v7.0 - 方案 B 优化:简化流程,AI 直接读取 PDF 内容生成报告 v6.0 - 改为 LLM 驱动,由大语言模型生成中文报告 v5.0 - 添加自动翻译功能 v4.0 - 精简代码,移除冗余脚本 v3.0 - 添加缓存系统
注意事项 确保 PDF 文件可正常读取 部分 PDF 可能存在文字提取困难,影响报告质量 AI 生成的内容需要人工审核和补充 建议在报告生成后根据实际内容进行调整