# Paper RAG · 快速入门

> 社区开源 skill，非 the AI provider 官方产物。
> 许可：MIT · 仓库：https://github.com/hummat/paperpipe
> 整理：Ameureka × CCAF101（独立中文学习社区，并非认证方官网）

> ⚠️ **功能替代**，非原版。详见下方"能力边界"。

## 一句话定位

本地论文库 + 分层 RAG 检索 + 公式级代码校验，让编码 agent 基于真实论文内容实现，告别公式幻觉。

## 核心能力

维护本地论文数据库（PDF、LaTeX 源、提取的公式、面向代码实现的摘要），通过 papi CLI 与 PaperQA2/LEANN 双 RAG 后端，为编码 agent 提供基于真实论文内容的分层检索问答与证据定位，防止论文实现过程中的公式/细节幻觉。

## 关键特性

- 本地结构化论文库：每篇论文存 paper.pdf / source.tex / equations.md / summary.md / tldr.md / notes.md / figures/，支持 arXiv ID、URL、标题、Semantic Scholar、本地 PDF、BibTeX 多源批量导入
- 分层检索升级（cheapest first）：papi search --rg 精确文本 → BM25 排序 → hybrid → leann_search 语义 → retrieve_chunks 带 DOI/页码引用 → papi ask 全 RAG 合成
- 公式级代码校验：papi show <paper> -l eq/tex 输出带变量定义的结构化公式，/papi-verify 让 agent 逐符号比对实现是否与论文一致
- 双 RAG 后端：PaperQA2（云端 agent 合成+引用）与 LEANN（本地 Ollama），支持 Voyage/OpenAI/Gemini/the AI CLI/Ollama/OpenRouter 多模型与 embedding 组合
- 编码 agent 原生集成：papi install 自动为 AI Code Assistant、Codex、Gemini CLI 安装 skill 与 MCP 检索工具（retrieve_chunks / leann_search）
- 套件化专用 skill：papi(入口路由) / papi-ask / papi-verify / papi-compare / papi-ground / papi-curate / papi-init 七个子 skill 各司其职

## 安装

1) 安装 CLI：uv tool install paperpipe（或 pip install paperpipe，按需加 extras 如 [paperqa]/[leann]/[mcp]/[all]）；2) 安装 agent skill + MCP：运行 papi install 自动检测并写入 AI Code Assistant / Codex / Gemini CLI 的 skill 目录与 MCP 配置，也可 papi install skill --claude --codex --gemini 与 papi install mcp --claude 精确指定；3) 源码安装：git clone https://github.com/hummat/paperpipe && pip install -e ".[all]"。注：paperpipe 自带 papi install 机制写入各 agent 的 skill 目录（如 Codex ~/.codex/skills、Claude Code ~/.claude/skills、Gemini CLI）与 MCP 配置，无需手动拷贝 SKILL.md。

## 使用流程

1. papi add <arXiv id/URL/title/PDF> 添加要实现的论文，自动下载 PDF+LaTeX 并生成摘要/公式/TL;DR
2. papi list / papi show <paper> -l eq 查看要实现的公式，papi show -l tex 取原始 LaTeX
3. papi search --rg "term" 精确文本检索，无命中再升级到 papi search(BM25) / --hybrid
4. papi ask "question" 做跨论文 RAG 合成问答（需先 papi index 并装 PaperQA2 或 LEANN 后端）
5. 调用 /papi-verify 让 agent 比对代码与论文公式；/papi-ground 为回答附引用避免幻觉
6. papi export <papers> --level equations --to ./dir 将上下文导出到仓库供 agent 读取

## 适用人群

正在复现/实现学术论文的 ML 研究者与工程师，尤其是用编码 agent（AI Code Assistant/Codex/Gemini CLI）写论文代码、需要精确公式与可引用证据来杜绝幻觉的人。

## 示例 Prompt

```text
Does my code match the paper? 用 /papi-verify 校验我的 LoRA 实现是否与论文公式一致；再 show equations from paper Y 看具体公式。
```

## 能力边界（诚实说明）

原「Paper RAG」概念无唯一权威仓库；paperpipe/papi（hummat/paperpipe，MIT）是功能相近的独立实现，提供论文数据库+RAG 问答+证据定位+公式级代码校验，属「功能替代」而非原版 Paper RAG，亦与 Anthropic/the AI 官方无任何关联。

## 完整源码

见 https://github.com/hummat/paperpipe（本文件为 CCAF101 编辑整理的快速入门，非完整仓库镜像）。

---

Ameureka × CCAF101 · 独立中文学习社区，并非认证方官网。文中第三方产品名为其各自厂商商标，CCAF101 不与之关联且不暗示使用关系。
