[F]CCAF101
GuideDomainsScenariosBootcampEnterprise
获取备考指南
CCAF101

Ameureka × CCAF101

Privacy PolicyTerms of ServiceContact
CCAF101/认证指南/rag-hybrid-search-bm25

LEARN · RAG 混合检索 BM25

RAG 混合检索实战:BM25、向量召回与可追溯答案

理解何时使用 BM25、向量检索和混合召回,设计权限过滤、重排、引用和失败回退,提升 RAG 的可追溯性。

EXAM WEIGHT15%
BM25 擅长精确词、编号和专有名词,向量检索擅长语义近似;生产 RAG 通常先做权限与时效过滤,再并行召回、归一化合并和重排,最后要求答案引用真实片段并在证据不足时停止猜测。

为什么需要混合检索

只用向量检索时,错误码、型号、缩写和精确短语可能被语义相似内容淹没;只用 BM25 时,同义表达和自然语言问题又容易漏召回。混合检索把两种优势结合,但前提是合并和重排过程可解释。

检索管线

用户问题
  → 权限、租户、时间过滤
  → 查询改写与关键词提取
  → BM25 召回 + 向量召回
  → 分数归一化与去重
  → rerank
  → 片段预算与引用
  → 生成或拒答

权限过滤必须发生在召回前或检索引擎内部,不能先取回敏感内容再指望生成阶段“不要说”。

BM25 适合什么

BM25 对词项匹配敏感,适合:

  • 错误码与 API 名称。
  • 产品型号、文件名和编号。
  • 法规条款、版本号和精确术语。
  • 用户明确使用的关键词组合。

它的弱点是无法自然理解同义词和上下位概念,因此需要查询扩展或向量召回补充。

向量检索适合什么

向量检索适合概念解释、自然语言问题和表达差异较大的内容。它的风险是“语义相似但事实不适用”,例如旧版本文档、不同租户政策或相近但不同的产品。

因此向量结果必须带元数据:来源、版本、时间、权限和文档类型。

合并与重排

简单拼接两个结果列表会让分数失去意义。可以使用 Reciprocal Rank Fusion 等排名融合方法,再用轻量 reranker 或业务规则重排。

final_score =
  rank_fusion(bm25_rank, vector_rank)
  + freshness_bonus
  + official_source_bonus
  - duplicate_penalty

这里的权重是 CCAF101 自研练习示例,不是官方推荐参数。真实系统应通过离线评测和线上行为数据调整。

可追溯答案

每个结论应能回到具体片段。答案生成前检查证据是否覆盖问题;证据冲突时展示差异或请求澄清;没有足够证据时明确返回“无法确认”。

反模式

  • 在召回后才做权限过滤。
  • 不保存文档版本与更新时间。
  • 用一个统一阈值处理所有查询类型。
  • 只评估答案文风,不评估引用是否支持结论。
  • 证据不足时继续补全看似合理的答案。

验收清单

  • 精确词和语义问题都有测试样本。
  • 权限过滤早于内容暴露。
  • 两路分数可比较且合并方法固定。
  • 重复片段被合并。
  • 答案包含可定位引用。
  • 证据不足时触发拒答或澄清。

EDITORIAL RECORD

作者
Ameureka × CCAF101 编辑组
审核
项目操盘人
最后核实
2026-06-21

RELATED PATHS

  • Context Management 考域:记忆、检索、压缩与可靠恢复(15%)
  • Prompt Caching 与上下文预算:稳定前缀、缓存边界和失效策略
  • Prompt Engineering 考域:结构、约束与评估闭环(20%)
  • CCAF 学习资源地图:Academy、官方文档与 CCAF101 编辑方法

来源与使用边界

  • https://docs.anthropic.com/
  • AGENTS.md §7 来源标注

课程归档与竞品归档仅用于知识覆盖和信息架构研究,页面正文、代码与图表均为 CCAF101 原创整理。CCAF101 是独立中文学习社区,并非认证方官网。

Ameureka × CCAF101