✅派聪明 RAG 项目的ElasticSearch混合检索精讲

大家好，今天我们来一起学习下派聪明中非常核心的一个功能——混合检索。我会给大家一步步讲清楚，看懂派聪明是如何结合“关键词搜索”和“语义搜索”这两种技术实现 RAG 中关键的 Retrieval。

一、关键词搜索和语义搜索

在开始之前，我们需要搞清楚为什么不只用一种搜索技术，关键词搜索是什么，语义搜索又是什么。

关键词搜索需要将文档和查询都拆解成一个个独立的词语，然后通过匹配这些词语来计算相关性。依赖于一种名为“倒排索引”的数据结构，可以瞬间找到包含特定关键词的所有文档。

在没有搜索引擎前，我们搜内容是这样的，打开一个网址，获取网站的内容，然后输入关键词进行匹配：

document -> to -> words

通过文章，获取里面的关键词，这就是所谓的“正向索引”，英文名为 forward index。

后来，我们希望输入一个关键词，找到含有这个关键词的有关文章：

word -> to -> documents

我们把这种索引，称为 inverted index，直译过来叫反向索引，国内习惯翻译成“倒排索引”。

像技术派的首页，就用 ES 做过倒排的查询。

当用户的查询意图明确，用词精准时，关键词查询能提供精准、快速的结果。

于此同时，关键词搜索也有自己的局限性：刻板，缺乏深层的理解能力。无法理解同义词、近义词或上下文。例如，用户搜索“如何降低电脑温度”，它可能找不到一篇标题为“笔记本散热技巧”的优质文章，因为两者没有共同的关键词。

那什么是语义搜索呢？

语义搜索需要利用深度学习模型（Embedding Model），将文本的整体含义转换成一个高维空间中的数学向量。通过计算向量之间的距离（如余弦相似度），来判断文本在语义层面的相似性。

也就是说，语义搜索由向量搜索提供支持，具备极高的智能化水平。能够跨越文字的障碍，理解深层语义。对于上一个例子，语义搜索能准确判断“降低电脑温度”和“笔记本散热技巧”在语义上具有高度的一致性。

当然了，语义搜索的结果有时不够聚焦。它可能返回一篇语义高度相关、但恰...

10 条评论

Tumbleweed 2026年03月28日 10:49

@派聪明最终分数 = (关键词匹配分 × 1.0) + (向量语义分 × 0.2)。这个系统关键词匹配分、向量语义分一般是多少，为什么不用RRF？

派聪明 2026年03月28日 10:50

根据参考资料，混合检索的最终分数计算公式为： **最终分数 = (关键词匹配分 × 1.0) + (向量语义分 × 0.2)** ### 分数范围与实际意义 1. **关键词匹配分（BM25分）** - **范围**：理论值无上限（受词频、文档长度影响），实际应用中通常在 **0~30** 区间（高相关文档可达15+）。 - **作用**：通过BM25算法计算关键词匹配度，词频越高、关键词越核心，分数越高。 2. **向量语义分（余弦相似度）** - **范围**：**0~1**（1表示语义完全一致）。 - **作用**：通过Embedding模型计算查询向量与文档向量的余弦相似度，反映语义相关性。 ### 为什么不用RRF（Reciprocal Rank Fusion）？ RRF是另一种融合多路结果的方法，公式为： `Score(d) = Σ (1 / (k + rank_i(d)))`（`k`为常数，`rank_i(d)`为文档在第`i`路结果中的排名） **选择加权分数而非RRF的原因**： 1. **深度耦合需求**： - 混合检索需在**同一索引**中同时执行向量搜索（召回）和关键词搜索（精排），而RRF适用于**独立多路结果**的融合（如不同搜索引擎结果）。 - ES的混合搜索通过`rescore`操作在候选集内直接重排序，加权分数更高效。 2. **可控性与灵活性**： - 加权分数可动态调整权重（如关键词权重1.0、语义权重0.2），适应不同场景需求；RRF的权重固定（如`k=60`），难以灵活优化。 3. **精度要求**： - 专业知识库需**精准过滤**（如剔除伪相关文档），关键词过滤（`must match`）是硬性门槛，RRF仅依赖排名无法实现严格筛选。 ### 总结 - **分数值**：关键词分（BM25）无固定范围，语义分（余弦）在0~1之间。 - **权重设计**：关键词权重更高（1.0），确保核心信息不丢失；语义权重（0.2）作为补充，提升召回覆盖。 - **未用RRF**：因混合检索需在同一流程中深度融合两种搜索，加权分数更灵活且适配ES的`rescore`机制。

派聪明 2026年03月28日 10:51

根据系统设计，混合检索的分数范围和权重设置如下： ### 1. **分数范围** - **关键词匹配分（BM25分）**：无固定上限，通常在 **0-30** 之间（具体取决于文档长度、词频、字段重要性等）。例如，高频匹配核心关键词的文档可能得分15+，低频匹配则接近0。 - **向量语义分（余弦相似度）**：理论范围 **[-1, 1]**，但实际应用中因文本相似性较高，多集中在 **[0.5, 1.0]**。例如，语义完全匹配接近1.0，部分相关可能在0.7左右。 ### 2. **权重设计（1.0 vs 0.2）的原因** - **关键词主导逻辑**：系统优先保证结果的专业性和准确性（如必须包含“训练”“效率”等核心词），因此赋予关键词分更高权重（1.0）。避免语义相关但缺乏关键信息的“跑偏”结果。 - **语义辅助作用**：向量分作为补充（权重0.2），在关键词匹配度相近时，优先选择语义更贴近的文档（如“提升效率” vs “加速收敛”）。 ### 3. **为何不用RRF（Reciprocal Rank Fusion）？** - **RRF的局限性**： RRF（如 `1 / (rank + k)`）仅依赖排序位置，忽略分数绝对值，无法直接控制关键词与语义的**权重比例**。而线性加权（`1.0×BM25 + 0.2×向量分`）能精准实现1:5的权重平衡。 - **系统需求差异**：当前设计需**严格过滤伪相关结果**（如通过关键词淘汰语义相关但无核心词的文档），RRF的排名融合机制难以实现这一过滤逻辑。线性加权结合`must match`关键词条件，确保结果聚焦。 - **效率与可控性**： RRF需多次查询并合并排名，而线性加权在单次ES查询中通过`rescore`完成，效率更高，且权重调整更直观。 ### 总结系统通过**线性加权**实现“关键词精准为主、语义理解为辅”的平衡，而RRF更适合无需严格权重控制的场景。当前设计确保了结果的专业性（关键词过滤）与灵活性（语义补充），符合企业级知识库的高精度需求。

根据混合检索系统的设计，关键词匹配分（BM25分数）和向量语义分（余弦相似度）的取值范围和计算逻辑如下： --- ### **1. 分数范围与计算逻辑** | **分数类型** | **取值范围** | **计算方式** | **实际意义** | |--------------------|-------------------|---------------------------------------|----------------------------------| | **关键词匹配分** | 理论无上限（通常0-50） | 基于词频、文档长度等计算的BM25分数 | 反映关键词匹配的精确度（越高越相关） | | **向量语义分** | 固定范围 [0, 1] | 余弦相似度（向量夹角余弦值） | 反映语义相似度（1为完全相关） | **示例**： - 用户查询“如何提升AI模型训练效率”时： - 一篇包含“训练”“效率”等关键词的文档 → BM25分可能为 **40**，语义分可能为 **0.85**。 - 一篇语义相关但缺少核心词的文档 → BM25分可能为 **5**，语义分可能为 **0.9**。 --- ### **2. 为什么不用RRF（Reciprocal Rank Fusion）？** RRF（倒数排名融合）是一种常用的多路检索结果融合方法，但该系统选择加权求和的原因如下： #### **RRF的局限性** - **依赖排名而非绝对分数**： RRF仅利用各检索器的排名位置（如`1/(rank + k)`），忽略分数本身的绝对值差异。例如： - 向量搜索第1名（语义分0.9）和关键词搜索第1名（BM25分50）在RRF中被同等对待，但实际相关性差异巨大。 - **对召回量级敏感**：若向量搜索召回300条，关键词搜索召回50条，RRF需调整参数平衡两者，但效果不稳定。 #### **加权求和的优势** - **直接量化相关性**：通过固定权重（如关键词分权重1.0，语义分权重0.2）综合绝对分数，更符合业务需求（强调关键词匹配）。 - **可控且可解释**：权重可动态调整（如医疗领域提高语义权重，法律文档提高关键词权重），且结果易于调试。 - **工程落地更稳定**：避免RRF对参数的敏感性，尤其当各检索器分数分布差异大时（如BM25分远高于语义分）。 --- ### **3. 加权规则的实际效果** **最终分数 = (关键词匹配分 × 1.0) + (向量语义分 × 0.2)** - **关键词主导**：权重1.0确保结果聚焦核心词（如“训练”“效率”），避免语义相关但内容跑偏。 - **语义辅助**：权重0.2为语义相似文档提供“加分项”，当关键词匹配度接近时，语义更优者胜出。 **示例对比**： | 文档 | BM25分 | 语义分 | 最终分 | 排名 | |------|--------|--------|--------|------| | A | 40 | 0.85 | **40.17** | 1 | | B | 35 | 0.95 | **35.19** | 2 | | C | 10 | 0.90 | **10.18** | 3 | > **结论**：系统通过加权求和平衡了关键词的“精准性”和语义的“泛化性”，同时避免RRF对排名位置的过度依赖，更适合企业级RAG场景。

(·__·) 2026年03月27日 22:22

引用原文：要求文档内容最好包含“训练”、“效率”等关键词

@派聪明，针对如何提升AI模型的训练效率这个问题，如果一个文档中只包含“效率”这个关键词，会被选中吗

派聪明 2026年03月27日 22:24

根据参考资料中的混合检索流程，文档必须同时包含查询中的所有关键词（如“训练”和“效率”）才能通过过滤阶段。具体来说： - 在精排阶段，系统使用 `must match` 和 `Operator.And` 条件，要求文档内容必须包含查询关键词（如“训练”和“效率”），否则会被淘汰。 - 如果文档只包含“效率”而不包含“训练”，它不满足强制匹配条件，因此会被筛除，不会进入后续排序阶段。因此，针对“如何提升AI模型的训练效率”的查询，只包含“效率”关键词的文档不会被选中。

Byte 2026年03月25日 17:00

引用原文：模地找出所有在语义上与查询意图相关的

BM25介绍一下@派聪明

派聪明 2026年03月25日 17:01

根据参考资料，**BM25** 是一种用于关键词搜索的**相关性评分算法**，在派聪明的混合检索流程中扮演核心角色。以下是关键说明： --- ### **1. BM25的核心作用** - **定位**：在混合检索的第三步（关键词精排阶段），用于对候选文档进行**重排序**（Rescore）。 - **目标**：量化文档内容与用户查询关键词的匹配程度，计算精确的**关键词相关性分数**（`rescore_score`）。 --- ### **2. BM25的评分原理** BM25 通过以下因素综合评估相关性： - **词频（TF）**：关键词在文档中出现的次数（次数越高，相关性越强）。 - **文档长度**：过长的文档中关键词的“稀释效应”会降低权重。 - **关键词逆文档频率（IDF）**：关键词在所有文档中的稀有程度（稀有词的权重更高）。 - **参数调节**：通过参数 `k1`（控制词饱和度）和 `b`（控制文档长度影响）优化结果。 > 📌 **参考资料原文**： > *“派聪明会对通过过滤的文档列表，执行 rescore 操作。其内部使用的是 **BM25 算法**，综合评估每个文档中关键词的质量（词频、重要性、文档长度等），并计算出一个精确的**关键词相关性分数**。”* --- ### **3. 在派聪明中的具体应用** - **场景**：用户查询“如何提升AI模型的训练效率？”后，系统先用语义搜索召回300篇候选文档。 - **BM25的任务**： 1. **过滤**：淘汰不包含“训练”“效率”等核心关键词的文档（如仅含“加速模型收敛”的文章）。 2. **排序**：对剩余文档计算BM25分数，按匹配度降序排列。 - **权重融合**：最终得分 = **BM25关键词分（权重1.0）** + **语义向量分（权重0.2）** （确保关键词匹配优先级更高，同时保留语义相关性） --- ### **4. 与语义搜索的协同** - **互补性**： - **语义搜索**（向量匹配）解决“同义理解”（如“降温”≈“散热”），但可能返回无关文档。 - **BM25** 确保结果包含用户明确提及的核心词，提升答案的**精准性**和**专业性**。 - **混合价值**：通过“语义召回→关键词精排→分数融合”，实现“既智能又精准”的检索效果。 --- ### **总结** BM25 是派聪明混合检索的“关键词裁判”，通过科学量化文本匹配度，过滤噪音并优化排序，与语义搜索共同保障结果的相关性与可靠性。

嘿嗨 2026年03月18日 17:25

引用原文：将其转换成一个 2048 维的“查询向量”

@派聪明, 为什么是转换为2048维, 而不是其他维, 比如512维呢

派聪明 2026年03月18日 17:26

根据参考资料中的技术实现细节，选择**2048维向量**主要基于以下原因： 1. **Embedding模型的默认输出维度** 系统使用的豆包（或其他）Embedding模型将文本转换为向量时，其**标准输出维度为2048**。这是模型训练时预设的语义空间维度，能最大化保留文本的语义信息（参考资料中明确提到 `dims: 2048`）。 2. **语义完整性的平衡** - 2048维相比低维度（如512维）能更精细地表达文本的语义复杂度，尤其适合专业领域知识库的语义理解需求。 - 高维度虽增加计算成本，但通过ElasticSearch的优化（如余弦相似度计算）可高效处理，确保性能（参考资料强调"高性能企业级RAG"）。 3. **ElasticSearch的兼容性** ES的 `dense_vector` 字段支持自定义维度，2048是经过验证的稳定配置，能同时兼顾语义精度与检索效率（参考资料中ES索引结构直接定义 `dims: 2048`）。 4. **避免信息损失** 低维度（如512维）在压缩语义时可能丢失关键信息，导致语义搜索准确性下降。2048维在语义完整性和资源消耗间取得了平衡（参考资料提到需"理解深层语义"）。 > 💡 **总结**：2048维是Embedding模型的标准输出，既保证语义理解的深度，又通过ES优化实现高效检索，是系统在"智能性"与"性能"间权衡的结果。

亚特兰蒂斯 2026年03月05日 11:08

@派聪明混合检索，一般检索多少条数据给到ai问答

派聪明 2026年03月05日 11:09

在派聪明的混合检索中，**基础召回量通常设置为最终返回结果的30倍**（即 `recallK = topK * 30`），具体流程如下： ### 1. **语义搜索阶段（大规模召回）** - 将用户查询转换为向量（2048维）。 - 在ElasticSearch的`vector`字段上执行k-NN搜索，**初始召回约300条**（假设`topK=10`，则`recallK=300`）。 - 目标：覆盖所有语义相关的文档，避免遗漏。 ### 2. **关键词过滤阶段（精排筛选）** - 对召回的300条文档，在`textContent`字段上应用**关键词匹配**（如`must match "训练" AND "效率"`）。 - 剔除语义相关但未包含核心关键词的文档（如仅含“模型收敛”但不含“训练效率”的内容）。 ### 3. **综合排序阶段（最终输出）** - 对通过筛选的文档，结合**BM25关键词分**（权重1.0）和**余弦相似度向量分**（权重0.2）重新排序。 - 最终返回用户**前10条**（`topK=10`）最精准的结果。 ### 关键参数说明： | **阶段** | **操作** | **数量** | **目的** | |----------------|--------------------------|---------------|-----------------------------| | 语义召回 | k-NN向量搜索 | 300条 | 广泛覆盖语义相关内容 | | 关键词过滤 | BM25匹配+过滤 | 300条→缩减至~50条 | 排除伪相关，聚焦核心关键词 | | 最终输出 | 综合排序 | 前10条 | 平衡语义与关键词精准度 | ### 为什么是30倍？ - **平衡效率与召回率**：30倍基础量（如300条）能覆盖大部分语义相关结果，同时避免因召回不足导致关键信息遗漏。 - **过滤后剩余量充足**：关键词过滤后通常剩余50-100条，确保排序有足够候选，避免因过度筛选导致结果质量下降。 > 实际值可根据数据分布调整：若文档质量高且语义明确，可降低倍数（如20倍）；若领域复杂或同义词多，需提高倍数（如50倍）。

专一的鲜花 2026年03月04日 15:23

引用原文：语义搜索的结果有时不够聚焦。它可能返回一篇语义高度相关、但恰恰缺少了用户最关心的某个核心关键词的文档，导致结果“看似相关，实则无用”。

这对吗？类似transformer，会计算它们之间的相似度，会出现“看似相关，实则无用"吗？

专一的鲜花 2026年03月05日 13:50

@派聪明你觉得呢？

喜 2026年02月10日 21:19

引用原文：是 BM25 算

重排序的算法：BM25

一、关键词搜索和语义搜索

热门评论

10 条评论

目录

划词评论