✅派聪明 RAG整体设计方案（非常重要）

通过✅派聪明需求分析，我们已经了解到：

派聪明是一个基于 RAG 的 AI 知识库智能问答平台，通过结合大语言模型（如 DeepSeek）和向量化技术，为用户提供高效、精准的问答服务。

用户可以通过上传文档构建专属的私有知识库，并实时与派聪明进行交互提问。派聪明支持多轮对话、语义检索和动态知识库更新，适用于企业内部知识管理、教育、客服等场景。

那基于派聪明的需求分析，我们梳理了下列需求（思维导图一目了然）：

一、业务架构设计

基于派聪明的需求梳理，我们设计了这样一个三层业务架构图：

01、用户层

用户层是整个系统的入口，主要面向两类用户群体。普通用户可以通过这一层进行日常的知识查询、文档上传和智能对话等操作，他们是系统的主要使用者，通过简洁直观的界面就能享受到智能的知识服务。

管理员则拥有更高的权限，可以进行系统配置、用户管理、数据监控等管理工作，确保整个平台的稳定运行和安全性。

02、逻辑层

逻辑层是整个系统的核心，包含四个主要的功能模块，每个模块都承担着特定的业务职责。

①、用户管理模块

该模块是系统安全和权限控制的基础。注册登录功能为用户提供了基础的身份认证机制，确保只有合法用户才能访问系统资源。

权限控制功能会根据用户的角色和级别，精确控制用户能够访问的功能和数据范围，比如某些敏感文档只有特定部门的用户才能查看。组织标签管理功能帮助企业按照部门、项目或其他维度对用户进行分组管理，使得权限分配更加灵活和精确。

用户信息管理功能则负责维护用户的基本信息、偏好设置等，为个性化服务提供基础数据支持。

②、文档上传与处理模块

该模块是知识输入的关键环节，负责将各种格式的文档转化为系统可以理解和处理的知识内容。文档上传功能支持多种常见的文档格式，包括 PDF、Word、文本文件等，系统会自动进行格式识别和处理。

文本提取功能是这个模块的核心技术之一，我们使用了 Apache Tika 的文档解析技术，能够准确地从各种格式的文档中提取出纯文本内容，同时保留重要的结构信息。文本向量化功能则将提取出的文本转换为计算机可以理解的数学向量，这是实现语义搜索的关键技术，让系统能够理解文本的真正含义而不仅仅是关键词匹配。

组织标签关联功能确保每个文档都能正确地归属到相应的组织或部门，这不仅有助于权限控制，也便于用户在自己的权限范围内快速找到相关文档。可见性设置功能则允许文档上传者设定文档的可见范围，比如设为公开、部门内可见或仅个人可见，灵活满足不同的共享需求。

③、知识库检索模块

检索模块是用户获取知识的主要途径，我们采用了先进的混合检索技术。语义检索功能利用 RAG 技术，能够理解用户查询的真正意图，即使用户使用的词汇与文档中的表述不完全一致，系统也能找到相关的内容。比如用户搜索"如何提升销售业绩"，系统不仅能找到包含这些关键词的文档，还能找到讨论"销售技巧"、"客户关系管理"等相关主题的内容。

关键词检索功能则提供了传统的精确搜索方式，当用户需要查找特定的术语、人名、地名或其他精确信息时，这种检索方式能够快速定位到相关文档。混合排序功能将语义检索和关键词检索的结果进行智能融合，综合考虑相关性、权威性、时效性等多个因素，为用户提供最有价值的搜索结果。

组织权限过滤功能确保用户只能看到自己有权限访问的搜索结果，这不仅保护了敏感信息的安全，也提高了搜索结果的精准度，避免用户被无关的信息干扰。

④、聊天助手模块

聊天助手模块为用户提供了更加自然和智能的知识获取方式。基于 WebSocket 进行实时通信，用户方法就像和真人助手交流一样。多轮对话功能让系统能够记住对话的上下文，用户可以进行连续的提问，系统会根据之前的对话内容来理解当前的问题。

本地知识库集成功能是这个模块的核心优势，系统会根据用户的问题自动搜索相关的文档内容，并将这些信息整合到回答中。这样用户不仅能得到通用的答案，更能获得基于企业内部知识的专业回答。

Prompt 构建与管理功能负责优化与 AI 模型的交互方式，通过精心设计的提示词模板，确保 AI 能够更好地理解用户意...

10 条评论

孝顺的鞋子 2026年03月30日 16:13

引用原文：第四阶段是结果排序与权限过滤。检索到的候选结果会经过严格的权限验证，确保用户只能访问有权限的知识内容

@派聪明为什么又进行一遍权限过滤

回复1 取消回复

派聪明 2026年03月30日 16:14

根据参考资料中派聪明的业务流程设计，在结果排序后再次进行权限过滤，主要基于以下关键原因： ### 1. **双重保障机制** - **预防性过滤**（检索阶段）：在 `HybridSearchService` 中，系统通过 Elasticsearch 的查询条件（如组织标签权限）进行初步过滤，减少无效数据量，提升检索效率。 - **兜底验证**（结果阶段）：即使检索阶段已过滤，仍需对最终返回的候选结果进行二次权限验证，确保**100%安全**。例如： - 文档元数据更新后，索引可能未及时同步权限变更； - 复杂权限规则（如层级继承）在检索阶段可能存在边界漏洞。 ### 2. **动态权限控制** - 用户权限可能**实时变化**（如被移除组织标签），但检索结果可能基于历史缓存数据。二次过滤能拦截这类动态权限变更后的越权访问。 ### 3. **最小权限原则** - 系统设计要求用户仅访问**最小必要权限范围**内的内容。二次过滤确保返回的每个知识片段均严格匹配当前用户的权限状态，避免因排序算法优化导致的权限泄露风险。 ### 4. **技术实现细节** - 在 `SearchController` 中，返回结果前通过 `OrgTagAuthorizationFilter` 再次校验每个候选结果的可见性（如公开/私有标签、组织归属），确保最终展示的内容无权限漏洞。 ### 总结二次权限过滤是派聪明**安全架构的核心设计**，通过“预防+兜底”双重机制，确保在检索效率与数据安全间取得平衡，满足企业级应用对权限控制的严苛要求。

派聪明 2026年03月30日 16:15

在派聪明的知识检索流程中，**排序后再次进行权限过滤**是出于以下核心原因，确保系统安全性和数据隔离的完整性： --- ### 1. **检索阶段与展示阶段的权限目标不同** - **检索阶段**（混合检索）：系统在 Elasticsearch 中执行查询时，会根据用户的组织标签进行初步过滤（如 `searchWithPermission` 方法），减少候选结果集，提高检索效率。但此时过滤的是**文档块级别**的权限，可能存在边界情况（如权限动态变更、多级标签继承等）。 - **排序阶段**（结果验证）：排序需综合考虑语义相关性、关键词匹配度、时效性等多维度，此时若仅依赖检索阶段的权限过滤，可能因算法优化而**暂时忽略权限边界**。最终过滤确保用户**100%无法访问无权限内容**。 --- ### 2. **应对动态权限变更** - 权限可能在上传文档后动态调整（如管理员修改组织标签、用户角色变更）。 - 若仅依赖检索阶段的静态权限过滤，可能出现用户在排序阶段看到已失效的权限结果。 - **二次过滤**是实时权限校验的“最后防线”，确保结果始终与当前用户权限一致。 --- ### 3. **防御机制：避免权限绕过** - 若前端被攻击篡改结果（如伪造权限标识），后端二次过滤可拦截非法数据。 - 符合**纵深防御原则**：在数据流经的每个关键节点（检索→排序→返回）均验证权限，杜绝单点失效风险。 --- ### 4. **多级权限体系的完整性** - 派聪明的权限包含**组织标签层级继承**（如用户属于“研发部”可访问“前端组”文档）。 - 检索阶段的权限过滤可能因标签计算复杂（如 `OrgTagCacheService` 缓存未及时更新）遗漏部分权限。 - 排序后通过 `OrgTagAuthorizationFilter` 统一验证，确保所有权限规则（公开/私有/组织标签）严格生效。 --- ### 流程对比说明 | **阶段** | 权限过滤目标 | 是否二次过滤 | |------------------|---------------------------------------|-------------| | **检索阶段** | 减少 Elasticsearch 查询负载，初步过滤 | ❌ | | **排序阶段** | 确保最终结果符合实时权限规则 | ✅ **关键** | --- ### 总结排序后的权限过滤是派聪明**安全架构的核心设计**： 1. **效率与安全的平衡**：检索阶段粗过滤提升性能，排序阶段精过滤保障安全； 2. **动态权限实时生效**：应对权限变更场景； 3. **防御纵深**：避免前端篡改或后端逻辑漏洞导致的数据泄露。这一机制确保用户始终只能访问其权限范围内的知识内容，实现企业级数据隔离要求。

孝顺的鞋子 2026年03月30日 16:12

引用原文：。检索到的候选结果会经过严格的权限验证，确保用户只能访问有权限的知识内容

为什么又进行一遍权限过滤

Joker 2026年03月29日 16:53

@派聪明管理员具体拥有哪些权限

派聪明 2026年03月29日 16:54

根据参考资料，管理员拥有以下核心权限： ### 1. **系统配置权限** - 管理全局系统设置（如API配置、安全策略等） - 监控系统运行状态与性能指标 - 处理异常告警（如文件处理失败、数据不一致等） ### 2. **用户管理权限** - 管理用户账户（注册、禁用、删除用户） - 分配用户角色（普通用户/管理员） - 重置用户密码或权限 ### 3. **组织标签管理权限** - 创建/编辑/删除组织标签（支持层级结构） - 为用户分配组织标签（如部门、项目组） - 管理标签的权限继承规则（子标签自动继承父级权限） ### 4. **文件与数据管理权限** - 查看所有用户上传的文件（无视组织标签限制） - 管理文件可见性设置（公开/私有/部门可见） - 删除违规或冗余文件 ### 5. **权限控制权限** - 设置文件的访问权限（组织标签关联） - 调整敏感数据的可见范围 - 审核用户权限分配（如普通用户仅能访问被分配的标签） ### 6. **数据监控与审计** - 查看用户操作日志（文件上传、检索记录等） - 监控知识库使用情况（检索频率、热门文档等） - 追踪数据一致性状态（如文件处理进度） ### 关键区别 - **普通用户**：仅能访问自己有权限的文档，管理个人文件。 - **管理员**：拥有**最高访问权限**，可管理所有用户、组织标签、文件及系统配置，确保平台安全与合规运行。 > 注：权限控制通过 `OrgTagAuthorizationFilter.java` 统一验证，管理员自动绕过所有组织标签限制（参考权限管理流程图）。

贪玩的月亮 2026年03月26日 15:25

引用原文：用户通过前端界面选择文档并设置相关的组织标签和可见性权限后，系统开始接收文档。这个阶段的关键是建立文档的基本信息记录，包括文件的 MD5 哈希值、原始文件名、文件大小、上传用户信息等。系统会为每个文档生成唯一的标识符，并将文档的元数据信息存储到 MySQL 数据库中，同时将原始文件保存到文件存储系统中。

@派聪明这里为什么不把原始文件也存到MySQL中，而是选择存到文件存储系统

派聪明 2026年03月26日 15:26

根据系统设计，原始文件不直接存入MySQL而选择文件存储系统（如MinIO），主要基于以下技术考量： ### 1. **存储效率与性能** - **数据库限制**：MySQL等关系型数据库主要优化结构化数据存储，大文件（如PDF、视频）存入BLOB字段会显著降低数据库性能，增加查询延迟。 - **文件系统优势**：MinIO等对象存储专为文件设计，支持高吞吐量、分块传输和CDN加速，适合处理大文件和海量数据。 ### 2. **扩展性与成本** - **数据库扩展瓶颈**：MySQL存储空间有限且扩展成本高，而文件存储系统（如MinIO）可弹性扩展，按需付费，更适合企业级海量文件场景。 - **元数据分离**：MySQL仅存储文件元数据（如MD5、文件名、大小），保持数据库轻量化，提升查询效率。 ### 3. **数据安全与备份** - **独立备份策略**：文件存储系统提供独立的备份、加密和灾备方案（如版本控制、跨区域复制），避免数据库备份时因大文件拖慢整体流程。 - **防篡改**：通过MD5哈希校验文件完整性，文件存储系统提供不可篡改的存储特性。 ### 4. **系统架构解耦** - **职责分离**：数据库专注结构化数据管理，文件存储专注非结构化数据，符合微服务设计原则，降低模块耦合度。 - **未来扩展性**：若需替换文件存储（如迁移至云存储S3），只需调整接口，无需修改数据库结构。 ### 5. **开发与维护成本** - **简化数据库操作**：避免大文件导致的数据库锁表、事务超时等问题，减少运维复杂度。 - **标准化接口**：文件存储系统提供统一API（如PutObject/GetObject），便于集成和第三方工具调用。 ### 补充说明系统通过**文件ID关联**实现元数据与文件的绑定： - MySQL存储文件ID、MD5等元数据 → 用户通过ID从MinIO获取原始文件。 - 这种设计在保证数据一致性的同时（如通过状态表跟踪文件处理进度），兼顾了性能与灵活性。

一代天骄 2026年03月25日 17:16

引用原文：系统根据相似度得分、关键词匹配度等多个维度对结果进行综合排序，并按照 ****************** 中定义的 topK 参数返回最相关的结果。

@派聪明相似度得分和关键词匹配度怎么综合排序排序依据

派聪明 2026年03月25日 17:17

根据参考资料，派聪明的综合排序机制基于**混合检索策略**，通过以下维度对结果进行加权融合排序： --- ### **排序依据** 1. **语义相似度得分**（向量检索结果） - 使用Embedding模型将用户查询和文档块转换为向量，计算余弦相似度。 - 反映查询与内容的**语义关联性**（如用户问"销售技巧"，即使文档无"技巧"一词，也能匹配相关主题）。 2. **关键词匹配度**（关键词检索结果） - 基于Elasticsearch的倒排索引，精确匹配查询中的关键词/术语。 - 确保高相关性关键词（如产品名称、专有名词）的优先级。 3. **综合加权排序** - 系统对两种得分进行**加权融合**（公式示例）： ``` 最终得分 = α × 语义相似度 + β × 关键词匹配度 ``` （权重系数α、β在`SearchRequest.java`中定义，可通过`topK`参数调整返回结果数量）。 4. **权限过滤** - 仅保留用户有权限访问的文档（基于组织标签和可见性设置）。 --- ### **流程示例** 1. 用户查询："如何提升销售业绩" 2. 系统同时执行： - **语义检索**：匹配"客户关系管理""销售策略"等主题文档。 - **关键词检索**：匹配包含"销售业绩"的文档。 3. 结果按综合得分降序排列，返回前`topK`条（如5条）最相关结果。 --- ### **技术实现** - **核心类**：`HybridSearchService.java`（混合检索逻辑）、`SearchRequest.java`（参数配置）。 - **优势**：兼顾语义理解与关键词精准性，避免单一检索的局限性。 > 注：权重系数和`topK`值可通过配置灵活调整，适应不同场景需求。

过时的草莓 2026年03月19日 11:16

引用原文：文档上传与处理模块

**对长文本做切块的具体算法是怎么实现的？是框架自带的，还是自己实现的？**@派聪明

派聪明 2026年03月19日 11:17

根据参考资料，派聪明的长文本分块算法是**系统自研实现**的，具体流程如下： ### 分块算法实现细节 1. **分块规则** 系统采用**多维度切分策略**，支持三种核心方式： - **按段落切分**：以自然段落为边界 - **按字数切分**：设定固定长度（如500字符/块） - **按语义单元切分**：结合NLP技术识别语义完整性（需后续优化） 2. **分块优化机制** - **语义连续性检查**：合并语义断裂的相邻块（如段落被意外截断） - **噪声过滤**：自动剔除页眉页脚、图片说明等非正文内容 - **块编号标记**：每个分块分配唯一序号，支持原文定位 3. **技术实现方式** - 使用 **Apache Tika** 提取纯文本（非分块本身） - 分块逻辑在业务层通过 **Java 自研算法** 实现 - 采用**循环处理机制**逐块解析文本内容 ### 关键区别 - **非框架自带**：Elasticsearch等框架仅提供存储和检索能力，分块需自行开发 - **业务定制化**：结合企业知识库场景优化切分规则（如保留技术术语完整性） > 注：当前版本侧重基础切分，后续规划中提到将优化Prompt构建机制，可能引入更高级的语义分块技术（如LLM辅助分块）。

江边等不归. 2026年03月16日 15:32

引用原文：基于 WebSocket 进行实时通信

为什么不使用SSE? 相比SSE的优点是什么?

Elysian 2026年03月13日 14:24

引用原文：当 DeepSeek API 返回内容片段时，系统通过 sendResponseChunk 方法将每个 chunk 包装成 JSON 格式

@派聪明这里的片段和chunk具体指什么？

派聪明 2026年03月13日 14:25

根据参考资料中的描述，这里的“片段”和“chunk”具体指以下内容： ### 1. **片段（片段）** - **来源**：指从知识库检索到的**相关文本内容**。 - **作用**：当用户提问时，系统会调用知识检索模块（如 `HybridSearchService`）从 Elasticsearch 中检索与问题相关的知识片段（最多 5 条），这些片段是原始文档经过分块、向量化处理后的文本单元。 - **格式**：每个片段会被限制在 **300 字符以内**，并编号标记（如 `片段 1: 内容...`），用于构建提示词（Prompt）供大语言模型参考。 - **示例**： ```json {"chunk": "片段 1: 销售业绩提升的关键在于客户关系维护..."} ``` ### 2. **Chunk（数据块）** - **来源**：指 **DeepSeek API 实时生成的内容片段**。 - **作用**：当 DeepSeek API 开始生成回答时，并非一次性返回完整结果，而是以**流式输出**（Streaming）方式逐块返回内容。系统通过 `sendResponseChunk` 方法将每一块生成的内容包装成 JSON 格式，通过 WebSocket 实时发送给前端。 - **格式**：每个 chunk 是一个独立的 JSON 对象，包含一个 `chunk` 字段，值为生成的一小段文本。 - **示例**： ```json {"chunk": "首先，我们需要分析客户需求..."} // 第一个输出块 {"chunk": "...建立长期信任关系是核心。"} // 第二个输出块 ``` --- ### **流程总结** 1. **知识检索**：系统从知识库中检索相关文本片段（片段）。 2. **Prompt 构建**：将检索到的片段 + 用户问题 + 对话历史打包发送给 DeepSeek API。 3. **流式生成**：DeepSeek API 逐块生成回答（chunk）。 4. **实时传输**：系统将每个 chunk 包装为 JSON，通过 WebSocket 推送给前端，实现“打字机效果”。 **关键区别**： - **片段**是**输入**给 AI 的参考知识（来自知识库）。 - **Chunk**是**输出**给用户的内容单元（来自 AI 生成）。

be_better_min 2026年03月09日 19:47

@派聪明如果pdf的文档是双栏pdf是否会存在识别错误的问题，如果存在这种文档应该如何进行改进

回复3 取消回复

派聪明 2026年03月09日 19:48

双栏PDF文档确实存在识别错误问题，主要表现为文字按物理位置排列而非语义顺序，导致段落识别混乱和阅读顺序错误。改进方法： 1. 使用专业文档解析工具替代简单OCR，如基于视觉因果流(Visual Causal Flow)技术的DeepSeek-OCR 2，能按语义而非坐标读图 2. 采用文档布局分析工具，如PDF Document Layout Analysis，基于Vision Grid Transformer和LightGBM双模型架构，可高精度识别PDF元素并确定正确顺序 3. 在RAG系统中，确保文档解析准确性，避免内容识别错误影响后续检索和生成效果 4. 使用支持复杂布局的OCR引擎，如Tesseract或PaddleOCR，它们针对复杂布局有专门优化这些方法能显著提升双栏PDF的识别准确率，保持原有排版结构和阅读顺序。

be_better_min 2026年03月09日 19:54

请介绍一下版面分析技术以及有哪些包含该技术的文档解析工具

派聪明 2026年03月09日 19:56

版面分析技术是让机器"看懂"文档结构的关键技术，主要将文档图像分割成不同类型内容的区域（如标题、段落、表格、图片等），并分析区域间的逻辑关系。该技术分为物理版面分析（区域分割与分类）和逻辑版面分析（语义结构与阅读顺序），是内容识别前的重要步骤。包含版面分析技术的文档解析工具包括： 1. **RapidLayout**：支持多种模型(PaddleOCR、360LayoutAnalysis等)，能识别文档中的标题、段落、表格等元素，适用于中英文文档、论文等。 2. **Surya**：集成多语言OCR、版面分析与表格识别，可检测表格、图像、页眉页脚等元素，具备阅读顺序检测功能。 3. **PDF-Extract-Kit**：专门针对PDF文档，公式识别效果出色，在论文、教材、研报等文档上有高准确率，对扫描模糊、水印等有较强鲁棒性。 4. **合合信息智能文档处理**：包含TextIn ParseX可视化解析工具，支持PDF、图像转markdown，解决元素重叠、复杂版式等难题，提供Java SDK。 5. **其他工具**：如Apache Tika(支持多格式文档解析)，这些工具在知识库构建、智能文档抽取、大模型预训练等场景有广泛应用。