AI 学术论文研究员
本技能旨在通过搜索 arXiv 文献并自动下载 PDF 文件和管理本地文件来协助 AI 领域的研究人员。核心原则:所有下载记录必须依赖本地工作空间/paper_list/paper_list.csv 以防止重复下载。
执行脚本:python arxiv_tool.py
目标会议列表:与本技能位于同一目录的 target.csv 文件(包含用户关注的顶级会议或期刊名称,例如 CVPR、NeurIPS、ICLR)。
在执行任何搜索之前,必须根据用户的意图决定使用哪种排序参数(--sort):
搜索经典理论/著名算法(Classic/Influential):如果用户搜索特定的著名算法(例如“Adam”、“ResNet”)或核心领域的基础论文,则必须使用 --sort relevance。否则,由于 arXiv 默认返回大量新提交的论文,经典的老论文将被推出搜索结果。
跟踪最新前沿(Latest Trends):如果用户明确请求“最新”、“今年”或“最近几周”的论文,请使用 --sort date。
根据用户的查询推断所需的模式:
模式 A:广泛搜索(所有相关模式)
触发条件:用户仅提供研究方向而不限制论文必须发表在顶级会议上。
执行逻辑:运行 python arxiv_tool.py search "[query]" --max 15 --sort [选定的排序策略]。忽略 JSON 响应中的注释字段。排除结果中 is_downloaded: true 的论文。选择与用户需求最相关的论文并直接进入下载过程。
模式 B:顶级会议/期刊严格过滤(顶级验证模式)
触发条件:用户明确请求“顶级会议”、“顶级期刊”或指定某些会议(例如“帮助我找到与 Adam 相关的过去 ICLR 会议论文”)。
执行逻辑:读取目标列表:使用文件读取工具查看 target.csv 的内容以获取目标会议/期刊列表。
初始搜索:运行 python arxiv_tool.py search "[query]" --max 30 --sort [选定的排序策略]。(注意:脚本自动获取论文的最新版本,因此如果它已被顶级会议接受,注释将包含相关信息。)
LLM 语义验证(CRITICAL):仔细审查每个候选论文的 JSON 注释字段。确定 target.csv 中是否存在任何会议。如果注释为空或不包含目标会议的出版声明,则必须排除该论文。排除已下载的论文(is_downloaded: true)。为成功验证的论文进入下载过程。
对于过滤后的论文,逐一执行下载命令:python arxiv_tool.py download [arxiv_id]。收集脚本的返回结果。
在完成搜索和下载后,向用户报告最终结果:
明确说明使用的检索模式(模式 A/B)和排序方法(日期/相关性)。
列出成功下载的论文(格式:[ArXiv ID] 标题 - (匹配的会议,如果有))。