RAG 混合检索实战：BM25、向量召回与可追溯答案

为什么需要混合检索

只用向量检索时，错误码、型号、缩写和精确短语可能被语义相似内容淹没；只用 BM25 时，同义表达和自然语言问题又容易漏召回。混合检索把两种优势结合，但前提是合并和重排过程可解释。

用户问题
  → 权限、租户、时间过滤
  → 查询改写与关键词提取
  → BM25 召回 + 向量召回
  → 分数归一化与去重
  → rerank
  → 片段预算与引用
  → 生成或拒答

权限过滤必须发生在召回前或检索引擎内部，不能先取回敏感内容再指望生成阶段“不要说”。

BM25 对词项匹配敏感，适合：

它的弱点是无法自然理解同义词和上下位概念，因此需要查询扩展或向量召回补充。

向量检索适合概念解释、自然语言问题和表达差异较大的内容。它的风险是“语义相似但事实不适用”，例如旧版本文档、不同租户政策或相近但不同的产品。

因此向量结果必须带元数据：来源、版本、时间、权限和文档类型。

简单拼接两个结果列表会让分数失去意义。可以使用 Reciprocal Rank Fusion 等排名融合方法，再用轻量 reranker 或业务规则重排。

final_score =
  rank_fusion(bm25_rank, vector_rank)
  + freshness_bonus
  + official_source_bonus
  - duplicate_penalty

这里的权重是 CCAF101 自研练习示例，不是官方推荐参数。真实系统应通过离线评测和线上行为数据调整。

每个结论应能回到具体片段。答案生成前检查证据是否覆盖问题；证据冲突时展示差异或请求澄清；没有足够证据时明确返回“无法确认”。

用户问题
  → 权限、租户、时间过滤
  → 查询改写与关键词提取
  → BM25 召回 + 向量召回
  → 分数归一化与去重
  → rerank
  → 片段预算与引用
  → 生成或拒答

权限过滤必须发生在召回前或检索引擎内部，不能先取回敏感内容再指望生成阶段“不要说”。

因此向量结果必须带元数据：来源、版本、时间、权限和文档类型。

简单拼接两个结果列表会让分数失去意义。可以使用 Reciprocal Rank Fusion 等排名融合方法，再用轻量 reranker 或业务规则重排。

final_score =
  rank_fusion(bm25_rank, vector_rank)
  + freshness_bonus
  + official_source_bonus
  - duplicate_penalty

这里的权重是 CCAF101 自研练习示例，不是官方推荐参数。真实系统应通过离线评测和线上行为数据调整。