社区开源 skill,非 the AI provider 官方产物。本页为 CCAF101 编辑整理的中文介绍。
一句话定位
提交前一键核验参考文献真伪,专治 LLM 编造的"真实 DOI + 伪造标题"幻觉引用——标识符、作者、年份全对,唯独标题是假的也能抓出来。
核心能力
将文档中的参考文献逐条与 Crossref 权威元数据比对,确定性捕获一类最难肉眼识破的 LLM 幻觉——真实标识符(DOI / NBER 工作论文号 / arXiv ID)配上伪造标题——并在提交前输出 Markdown 核验报告。
关键特性
- 通过 DOI、NBER 工作论文号(10.3386/wXXXXX)、标题+作者三种路径查询 Crossref 权威元数据,并以 blended F1 相似度比对标题
- 五级判定:VERIFIED / PARTIAL_MATCH / METADATA_MISMATCH / NOT_FOUND / NEEDS_MANUAL_VERIFICATION,其中 METADATA_MISMATCH 即'真标识符+假标题'幻觉
- 对抗式匹配鲁棒性:抵抗子集截断攻击、停用词膨胀、短标题误判,支持 Unicode 归一化(Über=Ueber)与 LaTeX 命令剥离(\emph{}、$\ell_1$)
- 多格式输入:纯文本、Markdown、.tex、.bib(BibTeX,含嵌套花括号/TeX 重音/@string 宏),.docx(仅 macOS 经 textutil 转换)
- 隐私可控:只把引用元数据发往 Crossref 公共 API,不外传文档正文;本地仅保留 SHA-256 哈希审计日志(verifications.jsonl),不 phone-home
- DoS 防护:单次最多 60 条引用、1 MB 输入;退出码 0/1/2 区分全通过/有疑似/内部错误
安装步骤
作为 AI Code Assistant skill 安装(非 pip/brew/npm 包)。在终端执行:cd ~/.ai-config/skills && git clone https://github.com/jonckr/cite-verify.git && chmod +x cite-verify/scripts/.sh cite-verify/tests/.sh。如需 BibTeX 支持,再跑一次 scripts/install_deps.sh 安装 hash-pinned 的隔离 python3 解析器。依赖仅需系统自带工具:bash、curl、jq、awk、sed、perl、shasum;macOS 额外用 textutil 处理 .docx。SKILL.md 与脚本内部均按 ~/.ai-config/skills/cite-verify/ 路径引用。
使用流程
- 克隆到 ~/.ai-config/skills/cite-verify 并 chmod 脚本可执行(BibTeX 用户额外跑 install_deps.sh)
- 在 AI Code Assistant 会话中直接粘贴一条或多条引用(空行分隔),或给出 .md/.tex/.bib/.txt/.docx 文件路径
- skill 调用 scripts/lint.sh:parse_citation.sh 抽字段 → crossref_lookup.sh 查 Crossref → title_match.sh 算 F1 → report.sh 生成报告
- 查看 Markdown 报告中的 VERIFIED / PARTIAL_MATCH / METADATA_MISMATCH / NOT_FOUND / NEEDS_MANUAL_VERIFICATION 五类判定
- 重点处理 METADATA_MISMATCH(真标识符+假标题,几乎必错)与 NOT_FOUND 条目,逐条人工复核后再提交文档
- 退出码非 1 时表示存在疑似幻觉或未命中,提交前务必清零;反馈误报/漏报可到 github.com/jonckr/cite-verify/issues
适用人群
用 LLM 辅助写作的学术研究者、研究生、基金/课题申报人、期刊投稿作者——任何在提交前需要确认参考文献不是'真 DOI + 假标题'幻觉的人。不适合需要核对引用是否真正支撑论点(claim grounding)、或涉及保密/未公开引用清单的敏感文档场景。
差异化
定位为'写完后、仅元数据、Crossref 优先、学术导向'的窄域审计工具,而非构建期生成器或声明级事实核查。专打肉眼最难识破的幻觉模式:标识符真实、作者真实、年份合理,唯独标题是 LLM 编造。用 blended F1(精度+召回)而非简单包含匹配,从原理上抵抗截断攻击;v0.2 经 OpenAI Codex 对抗式审查,配套 20 例对抗测试与安全模型文档。
示例 Prompt
Can you check this citation for me? Ludwig, J., Mullainathan, S., & Rambachan, A. (2025). Causal inference with imperfect instruments. NBER Working Paper 33344.下载
CCAF 考域映射(编辑视角)
本 skill 映射到 CCAF 考域:Context Management(CCAF101 编辑视角,非 skill 作者声明)。想系统学这一域?
诚实说明 / 能力边界
精确匹配——此即 jonckr/cite-verify 原版仓库(v0.2,MIT)。需诚实说明的能力边界(均来自 SKILL.md/README 原文):① 当前只查 Crossref,arXiv API 与 OpenAlex 尚未接入(分别因速率限制与待 v0.3);② 只核对引用元数据(标题/作者/年份/出处),不验证被引文献是否真正支撑正文论点(claim grounding 属另一类问题);③ 不做撤稿检测;④ .docx 仅 macOS 可用;⑤ 单次上限 60 条引用 / 1 MB 输入;⑥ 对'引用清单本身即敏感'的文档(保密申报书、未公开研究、匿名评审)不建议使用,因 Crossref 会看到每条引用。
CCAF101 是独立中文学习社区,并非认证方官网。社区 skill 非官方产物。文中第三方产品名为其各自厂商商标,CCAF101 不与之关联且不暗示使用关系。
Ameureka × CCAF101