杠精派
派聪明
0/512

热门评论

liligox@foxmail.com 2025年11月11日 13:12
引用原文:ES 里怎么存的
@派聪明
点赞
回复1 取消回复
派聪明 2025年11月11日 13:12
根据参考资料,ElasticSearch(ES)中的存储结构如下: ### ES 存储方案(以 `knowledge_base` 索引为例): 1. **索引名称**:`knowledge_base` 2. **核心字段**: - **`textContent`**: - 存储文档分块后的原始文本内容(如 PDF、Word 解析后的文本)。 - 使用 **IK 分词器** 进行关键词分词,支持关键词检索(如 `match` 查询)。 - **`vector`**: - 存储文本分块通过 **Embedding 模型**(如豆包/阿里向量模型)生成的**高维向量**(如 768 维)。 - 用于 **语义检索**(如 KNN 查找相似向量)。 ### 示例数据结构: ```json { "textContent": "企业级知识库管理系统支持多文档上传...", "vector": [0.12, -0.05, 0.**, ...], // 768维向量 "metadata": { // 其他元数据(如文件名、分块ID等) "fileId": "doc123", "chunkId": 1 } } ``` ### 存储逻辑: - **关键词检索**:对 `textContent` 字段使用 IK 分词器,倒排索引快速匹配关键词。 - **语义检索**:对 `vector` 字段计算向量相似度(如余弦相似度),召回相关文本分块。 - **混合检索**:结合关键词权重和向量相似度排序结果(参考资料4、5、17)。 > 注:该设计支持 RAG 流程,用户问题先转为向量,在 ES 中召回相似文本片段,再喂给 LLM 生成答案(参考资料7)。
点赞
回复 取消回复

1 条评论

liligox@foxmail.com 2025年11月11日 13:12
引用原文:ES 里怎么存的
@派聪明
点赞
回复1 取消回复
派聪明 2025年11月11日 13:12
根据参考资料,ElasticSearch(ES)中的存储结构如下: ### ES 存储方案(以 `knowledge_base` 索引为例): 1. **索引名称**:`knowledge_base` 2. **核心字段**: - **`textContent`**: - 存储文档分块后的原始文本内容(如 PDF、Word 解析后的文本)。 - 使用 **IK 分词器** 进行关键词分词,支持关键词检索(如 `match` 查询)。 - **`vector`**: - 存储文本分块通过 **Embedding 模型**(如豆包/阿里向量模型)生成的**高维向量**(如 768 维)。 - 用于 **语义检索**(如 KNN 查找相似向量)。 ### 示例数据结构: ```json { "textContent": "企业级知识库管理系统支持多文档上传...", "vector": [0.12, -0.05, 0.**, ...], // 768维向量 "metadata": { // 其他元数据(如文件名、分块ID等) "fileId": "doc123", "chunkId": 1 } } ``` ### 存储逻辑: - **关键词检索**:对 `textContent` 字段使用 IK 分词器,倒排索引快速匹配关键词。 - **语义检索**:对 `vector` 字段计算向量相似度(如余弦相似度),召回相关文本分块。 - **混合检索**:结合关键词权重和向量相似度排序结果(参考资料4、5、17)。 > 注:该设计支持 RAG 流程,用户问题先转为向量,在 ES 中召回相似文本片段,再喂给 LLM 生成答案(参考资料7)。
点赞
回复 取消回复

目录