✅派聪明 RAG知识库检索模块设计方案

知识库检索模块是派聪明这个 RAG 项目的核心功能模块，我们是基于 Elasticsearch 实现的文档混合检索能力，将语义检索和关键词检索结果结合起来，为用户提供更高质量的搜索体验。

该模块依赖于文件上传与解析模块完成的向量化处理，直接使用存储在 Elasticsearch 中的向量数据进行检索。系统目前使用豆包 API 生成文本向量，并将向量存储在 Elasticsearch 中。

模块整体分为两大块：

①、知识库检索

混合检索：结合语义检索和关键词检索结果，按权重排序返回搜索结果
支持指定返回结果数量：通过 topK 参数控制结果数量

②、权限控制

基于组织标签的数据权限：确保用户只能访问有权限的文档
支持层级权限验证：父标签权限自动包含所有子标签文档的访问权限
默认标签全局可访问：DEFAULT 标签资源对所有用户kaifang

用到的技术栈包括：

功能模块	技术选型	备注
全文检索	Elasticsearch	第一阶段，使用IK分词器
向量检索	Elasticsearch	第一阶段，使用dense_vector类型
向量检索	FAISS	第二阶段，提供更高性能的向量检索
缓存	Redis	缓存热点查询结果
数据库	MySQL	存储元数据
对象存储	MinIO	存储文档文件

整体的流程是这样的：

当用户发起一个查询请求时，系统首先会接收用户输入的查询文本，以及一些附带的检索参数，以及需要返回的结果数量（topK）。在这一步，系统会先对这些参数做一轮合法性校验，确保格式正确、数据合理。

接着，系统会把用户的查询文本交给豆包提供的向量化 API，通过这个接口把自然语言的文本转换成可以用于向量检索的向量表示。这是我们后续进行语义匹配的基础。

拿到查询向量后，系统会执行一套混合检索流程，也就是结合语义匹配和关键词匹配。

在这一步，系统会构建一个 Elasticsearch 的查询语句，这个查询不仅包含了向量相似度的计算，还会结合全文搜索的匹配结果。同时，我们还会在查询中加入权限相关的过滤条件，确保用户只能看到自己“有权访问”的内容。

具体来说，权限控制主要分为三条规则：

1.	用户可以访问自己上传的文档；  
2.	用户可以访问被标记为公开的文档；  
3.	如果某些文档被打上了特定的权限标签（比如部门或层级权限），只要用户拥有这些标签，也可以访问这些文档...

10 条评论

Coos 2026年03月31日 22:01

引用原文：配合 IK 分词器

@派聪明每个文档分块是500左右字符，那么使用IK分词器的作用是什么呢

派聪明 2026年03月31日 22:04

在500字符左右的文档分块中，**IK分词器**的核心作用是提升中文文本的检索精准度，具体体现在以下方面： --- ### **1. 解决中文分词问题** - **中文无天然分隔符**：英文单词间有空格，但中文需智能切分（如“沉默王二是沙雕”需切分为“沉默/王二/是/沙雕”）。 - **避免错误匹配**：未分词时，“王二”会被当作完整字符串，用户搜“王二”可能无法命中包含“沉默王二”的文档。 --- ### **2. 提高关键词检索覆盖率** - **多粒度切分**：IK支持细粒度（如“沙雕”）和粗粒度（如“沉默王二”）分词，覆盖用户不同搜索习惯。 - **同义词扩展**：内置同义词词典（如“程序员”可匹配“码农”），减少漏检。 --- ### **3. 优化混合检索效果** - **与向量检索协同**： - **关键词检索**：通过IK分词精准匹配用户输入的明确关键词（如“技术文档”）。 - **语义检索**：结合向量模型（如豆包API）理解用户意图（如搜“如何写代码”匹配“编程指南”）。 - **结果融合**：按权重排序综合两种检索结果，提升相关性（如用户搜“王二”，优先返回含“沉默王二”的文档）。 --- ### **4. 适应500字符分块的特性** - **语义完整性**：500字符左右可保证一个完整语义单元（如一段话），分词后仍保持上下文连贯性。 - **避免碎片化**：若分块过小（如50字符），分词后关键词稀疏，影响检索效果；过大（如2000字符）则噪声增多，IK分词能平衡二者。 --- ### **总结** 在500字符分块场景中，**IK分词器**是中文全文检索的“基石”，它： ✅ **精准切分文本** → 解决中文检索痛点 ✅ **扩展匹配维度** → 覆盖同义词、多粒度查询 ✅ **支撑混合检索** → 与向量检索协同提升结果质量最终实现用户输入“沉默王二是沙雕”时，系统既能精准匹配关键词，又能通过语义理解返回相关内容，大幅提升检索体验。

一代天骄 2026年03月26日 11:29

@派聪明这里的MySQL表里只存了生成向量的模型版本并没有存生成的文本向量啊具体词向量是只在es里存储吗并且 mysql为什么不会只存文件md5和对应的分片内容而是把文本内容也完整存了一遍这个有什么用处吗检索不是在es里吗

派聪明 2026年03月26日 11:30

MySQL中的document_vectors表确实不存储向量数据，向量数据仅存储在Elasticsearch中。MySQL表中的text_content字段存储完整文本内容的主要用途包括：1)作为数据备份和冗余，确保即使ES出现问题也能恢复原始数据；2)检索后可直接从MySQL获取完整文本，减轻ES负载；3)保证文本与向量数据的一致性；4)支持版本管理和历史数据回溯。这种设计虽然增加了存储空间，但提高了系统的可靠性和性能。

Twistzz 2026年03月20日 21:47

引用原文： IK 分词器

这是什么

包容的红酒 2026年03月11日 22:15

@派聪明，MySQL中存了哪些数据？原始文本，分块文本，文本向量，文本元数据等这些信息都存在哪里？MySQL的作用是什么？

派聪明 2026年03月11日 22:16

在MySQL中主要存储两类数据： 1. **file_upload表**：存储文档元数据 - 文件指纹(file_md5)、文件名、大小、状态 - 用户ID、创建时间、合并完成时间 2. **document_vectors表**：存储文本内容和分块信息 - 原始文本(text_content) - 分块标识(chunk_id) - 文件指纹(关联file_upload表) - 模型版本信息各类信息存储位置： - 原始文本：document_vectors表的text_content字段 - 分块文本：通过chunk_id标识，每个分块对应一条记录 - 文本向量：存储在Elasticsearch中，非MySQL - 文本元数据：file_upload表 MySQL作用： - 存储文档元数据和文本内容 - 提供结构化数据管理和查询能力 - 通过外键关联文档上传信息和文本分块 - 支持基于用户、状态等条件的权限控制查询

小时月 2026年03月07日 12:16

引用原文：建表语句

表名叫做 document_vectors（文档向量），但字段中存储的是 text_content（文本内容），似乎还缺少了最重要的向量数据本身？

小时月 2026年03月07日 12:17

@派聪明回答一下

忧伤的雨 2026年03月06日 19:13

引用原文：通过设置内部权重

@派聪明想问一下这个权重是怎么给出来的，是粗略的给出来的吗

派聪明 2026年03月06日 19:15

根据参考资料，**“通过设置内部权重”** 是指在混合检索策略中，对**语义检索（向量匹配）**和**关键词检索（全文匹配）**的结果进行加权融合，以优化最终排序。具体实现方式如下： --- ### **权重设定逻辑** 1. **可配置参数** 权重值并非粗略给出，而是作为**可调参数**由系统配置（如通过配置文件或管理后台设置）。例如： - 语义检索权重：`0.7`（影响向量相似度得分） - 关键词检索权重：`0.3`（影响关键词匹配得分）（实际数值需根据业务场景调优） 2. **动态调整机制** 系统可能支持**动态权重**，例如： - 若用户查询含明确关键词（如“沉默王二是沙雕”），提高关键词权重； - 若查询为语义问题（如“推荐一本搞笑小说”），提高语义权重。 3. **打分公式示例** 最终得分计算公式可能为： ``` final_score = (semantic_score * w1) + (keyword_score * w2) ``` 其中 `w1 + w2 = 1`，权重通过实验（如A/B测试）确定最优值。 --- ### **是否“粗略”？** - **非粗略设定**：权重需结合**数据规模、查询类型、用户反馈**等综合调优，目标是平衡语义理解与关键词精准度，避免单一检索方式的局限性。 - **优化方向**：参考资料提到第二阶段将引入 **FAISS** 优化向量检索性能，届时权重策略可能进一步升级（如引入机器学习模型动态优化权重）。 --- ### **总结** 权重是**可配置且需精细化调优**的参数，通过融合语义与关键词检索的优势，提升结果相关性。实际应用中需持续迭代优化，而非静态粗略设定。

儒雅的短靴 2026年03月05日 20:23

@派聪明文档进行向量化然后进行检索这里，我看到设置了分块字段chunlk_id吗，这个字段作用是什么，是在哪个过程体现了

派聪明 2026年03月05日 20:24

在文档向量化与检索流程中，**`chunk_id`字段的核心作用是标识文档的分块顺序**，具体体现在以下两个关键过程： --- ### **1. 文档预处理阶段（向量化前）** - **分块处理**：用户上传的长文档（如PDF、Word）会被系统自动拆分成多个**文本块**（例如每块512个字符）。 - `chunk_id` 为每个分块分配唯一序号（从0或1开始递增），确保分块顺序可追溯。 - **示例**：一个10页的文档可能被拆分为20个分块，`chunk_id` 依次为0, 1, 2, ..., 19。 - **数据存储关联**：在 `document_vectors` 表中，每个分块存储为独立记录，通过 `(file_md5, chunk_id)` 组合键关联： ```sql -- 同一文档的不同分块共享file_md5，chunk_id区分顺序 INSERT INTO document_vectors VALUES (1, 'abc123', 0, '第一段文本内容...', 'v1.0'), (2, 'abc123', 1, '第二段文本内容...', 'v1.0'); ``` --- ### **2. 检索结果返回阶段** - **精准定位原文**：当用户检索到某个分块时，系统通过 `file_md5` + `chunk_id` 快速定位到原始文档的**具体位置**： - **Response示例**： ```json { "file_md5": "abc123", "chunk_id": 3, // 明确返回第4个分块（从0开始计数） "text_content": "检索到的具体文本片段...", "file_name": "原始文档.pdf" } ``` - 用户可通过 `chunk_id` 知道该片段在文档中的位置（如第3块），便于上下文理解。 - **权限控制与上下文关联**：权限验证时，系统需检查用户是否有权限访问该 `file_md5` 对应的整个文档。检索结果按相关性排序后，`chunk_id` 帮助用户区分同一文档的不同片段，避免重复显示。 --- ### **总结** - **`chunk_id` 的核心价值**：解决长文档的**分块处理与顺序标识**问题，确保向量化时语义完整，检索时能精准定位原文片段。 - **体现过程**：在文档预处理阶段生成，在检索结果中作为关键字段返回，是连接向量检索与原始文档的桥梁。

不见山谷 2026年03月04日 21:33

引用原文：在一次查询请求中，既能进行关键词匹配（全文检索），又能做语义相似度计算（向量检索）。

用户输入问题 → 系统生成关键词和向量。构建 DSL → 同时包含关键词匹配和向量相似度计算。 ES 执行查询 → 对每个候选文档计算两个分数。融合打分 → 按权重排序，取前 topK。返回结果 → 补充 MySQL 元信息，交给 RAG 模型生成答案。

灵巧的皮皮虾 2026年03月01日 21:20

• 引入 MCP 协议对本地文件操作、PDF 生成及数据库查询等能力进行 Server 端封装，实现了Agent 与工具生态的解耦； • 参考 OpenManus 开源架构，设计了分层智能体体系（BaseAgent、ReActAgent、ToolCallAgent）：利用 SpringAI 的 FunctionCallback 机制实现本地方法的自主调用，以及 ReAct 推理，赋予 Agent“思考-规划-行动-观察”的自主决策能力，使其能够处理“检索/搜索-生成文本-生成总结PDF”等跨多步骤的复杂任务； • 编写用户认证模块单元测试，结合 JUnit + Mockito 验证 Redis 引入前后的性能差异，为系统调优提供依据；关于这几点，派聪明是怎么处理的？ @派聪明

派聪明 2026年03月01日 21:21

根据提供的参考资料，派聪明项目在以下三个技术点的处理方式如下： --- ### 1. **MCP协议封装工具能力** - **实现方式**：系统通过**权限控制模块**和**API接口设计**实现工具与Agent的解耦。 - 本地文件操作、PDF生成等能力通过**RESTful接口**（如文档删除接口 `/api/documents/{file_md5}`）封装，结合**JWT认证**（`Authorization`头）确保安全调用。 - 数据库查询依赖**MySQL元数据存储**（如`file_upload`表），通过**Elasticsearch混合检索**提供统一数据访问入口。 - **解耦逻辑**：工具能力以**服务化接口**暴露，Agent通过调用标准化API（如`/api/search/hybrid`）触发操作，无需直接操作底层资源，符合MCP协议的Server端封装原则。 --- ### 2. **分层智能体架构（BaseAgent/ReActAgent/ToolCallAgent）** - **核心设计**： - **BaseAgent**：提供基础能力（如权限验证、参数校验）。 - **ReActAgent**：实现**“思考-规划-行动-观察”** 流程： - **规划**：解析用户查询（如“检索-生成总结PDF”），分解为子任务（调用混合检索接口）。 - **行动**：通过**SpringAI的FunctionCallback**调用工具（如豆包API生成向量、Elasticsearch检索）。 - **观察**：解析返回结果（如文档元数据、文本内容），动态调整下一步行动。 - **ToolCallAgent**：封装工具调用逻辑（如权限控制、结果排序）。 - **复杂任务处理**：以“检索-生成PDF”为例： 1. ReActAgent规划任务 → 调用`/api/search/hybrid`获取文档。 2. 结合`document_vectors`表内容生成总结 → 调用PDF生成工具。 3. 权限控制确保用户仅访问有权限的文档（基于标签过滤）。 --- ### 3. **用户认证模块性能测试** - **测试方案**： - **技术栈**：JUnit + Mockito，对比**Redis缓存引入前后**的性能差异。 - **测试场景**： - 模拟高频权限校验请求（如基于组织标签的权限验证）。 - 对比直接查询MySQL与缓存（Redis）的响应时间。 - **调优依据**： - **缓存命中**：验证Redis对热点权限数据的加速效果（如DEFAULT标签的全局访问权限）。 - **资源消耗**：分析CPU/内存占用，优化缓存策略（如缓存过期时间、Key设计）。 - **结果应用**：根据测试数据调整缓存配置，提升高并发场景下的权限校验效率。 --- ### 总结派聪明通过**接口化工具封装**（MCP）、**分层Agent架构**（ReAct+工具调用）和**数据驱动测试**（缓存性能对比），实现了工具解耦、复杂任务自主处理及系统性能优化，核心依赖现有技术栈（Elasticsearch/Redis/MySQL）和权限控制机制。

persist 2026年02月24日 16:14

引用原文：file_upload

这个表作用是什么？什么时候生成？

热门评论

10 条评论

目录

划词评论