杠精派
派聪明
0/512

热门评论

zhiwenfan 2026年01月21日 22:20
引用原文:派聪明
@派聪明 派聪明用到了什么AI框架吗?langChain4j ,SpringAI?
1
回复3 取消回复
Alleon 2026年01月22日 20:53
同问同问
点赞
回复 取消回复
是你啊 2026年03月02日 16:04
@派聪明
点赞
回复 取消回复
young 2026年03月10日 02:15
应该没用,直接调用 DeepSeek 的接口
1
回复 取消回复

10 条评论

gwh 2026年03月30日 15:18
@派聪明 速速审核
点赞
回复1 取消回复
派聪明 2026年03月30日 15:19
要快速审核派聪明源码,请按以下步骤操作: ### 🔥 快速通道(推荐) 1. **续费星球**(最快捷) - 微信扫描下方二维码,点击「立即续期」 - 访问星球置顶帖《[球友必看](https://t.zsxq.com/11rEo9Pdu)》获取邀请链接 - **限时优惠**:续费仅需 **74.5元**(原价159元),优惠截止 **7月31日** ![续费优惠券](https://cdn.tobebetterjavaer.com/paicoding/19fc84a6383fbbf1c76263f751d4081a.png) 2. **过期用户补票** - 联系微信 **【itwangersb】** 领取大额补贴(VIP群内也可滴滴) ### 📝 审核流程 1. 加入星球后,在置顶帖中点击 **「邀请链接」** 2. 填写信息提交审核(通常 **24小时内** 通过) 3. 审核通过后,解锁 **源码仓库 + 全套教程** ### ⚡ 注意事项 - 源码采用 **邀请审核制**,非星球成员无法访问 - 教程地址:[https://paicoding.com/column/10/1](https://paicoding.com/column/10/1) - 续费后可享 **60万+字付费文档**(技术派/PmHub/轮子项目等)+ **简历修改服务** > 💡 **提示**:项目含 **RAG架构、Spring Boot 3.4.2、ElasticSearch、Vue 3** 等企业级技术栈,阿里/美团等球友已凭此项目拿Offer,早审核早学习! **冲!**
点赞
回复 取消回复
15098789171 2026年03月19日 11:24
@派聪明 速速审核,等不及要学习啦
点赞
回复1 取消回复
派聪明 2026年03月19日 11:25
别急!加入「二哥的编程星球」即可解锁派聪明RAG知识库项目的源码和教程: 1. **加入星球**:微信扫描公众号【沉默王二】后台输入【续费】,领取半价优惠券(74.50元) 2. **获取源码**:加入后访问星球置顶帖【球友必看】,获取项目邀请链接 3. **查看教程**:https://paicoding.com/column/10/1 星球已9000+球友,包含60万+字教程、简历修改服务、1v1问答等,一次付费永久获取所有项目资料。现在入手最划算,错过涨价就遗憾啦!
点赞
回复 取消回复
🐶 2026年03月10日 15:53
派聪明项目技术栈里包含了mybatis吗@派聪明
点赞
回复1 取消回复
派聪明 2026年03月10日 15:53
派聪明项目技术栈中没有包含MyBatis。该项目使用的是Spring Data JPA作为数据访问层技术,而不是MyBatis。后端技术栈主要包括Spring Boot 3.4.2、MySQL、Redis、Elasticsearch、Kafka、MinIO、Spring Security、JWT等。
点赞
回复 取消回复
vert 2026年03月07日 16:47
速速来审核啦
点赞
回复 取消回复
fxq 2026年03月05日 18:39
@派聪明 二哥,刚才面了字节,他问我es中有多少数据,就是类似有几个document,我不太会[捂脸],这种怎么答,大概有多少数据啊,我只是把项目启动起来了,但没有实际走一遍项目的流程
点赞
回复1 取消回复
派聪明 2026年03月05日 18:40
在面试中回答 Elasticsearch 数据量问题时,建议结合项目实际架构和业务场景合理估算,并强调数据规模的设计逻辑。以下是分层次回答建议: --- ### **回答思路** 1. **明确数据来源** > “项目中 Elasticsearch 存储的是**文档分块后的向量数据**。例如:用户上传的 Word/PDF 文档会被 Apache Tika 解析,然后按语义切分为 200-500 字的文本块,每个文本块通过豆包 Embedding 转换为 2048 维向量存储到 ES。” 2. **给出合理估算范围** > “根据项目设计,一个 10MB 的文档约生成 100-200 个文本块。假设系统支持 **1000 个用户**,每人平均上传 **10 个文档(每份 5MB)**,则总文档块数约为: > `1000 用户 × 10 文档 × 150 块/文档 ≈ 150 万个文档块` > **实际数据量**:每个向量块约 10KB(含原始文本+元数据),总存储量约 **15GB**。” 3. **强调可扩展性** > “数据量可通过 **ES 分片策略**动态扩展: > - 每分片建议 50GB 数据,按 15GB 总量仅需 1 个分片 > - 若数据增长至 1TB,可扩展至 20 个分片(5TB 总容量)” 4. **补充关键细节** > “实际检索时采用 **混合检索模式**: > - **语义搜索**:通过 ANN 算法匹配向量相似度 > - **关键词搜索**:利用 ES 的倒排索引精排 > 这种设计确保在百万级数据下响应时间仍保持在 500ms 内。” --- ### **面试官追问如何应对** - **问:“如何验证数据量?”** → 可通过 `GET /_cat/indices?v` 查看索引大小,或用 `GET /knowledge_base/_stats` 获取文档数。 - **问:“数据量增长后如何优化?”** → “会采用 **冷热分离架构**: > - 热数据:SSD 存储 + 高频分片 > - 冷数据:HDD 存储 + 压缩分片 > 同时通过 **TTL 自动清理过期数据**(如 90 天前的文档块)。” --- ### **注意事项** - **避免虚假数据**:若未实际运行项目,可强调 **“按典型业务场景估算”**,并说明估算依据(文档大小、分块粒度等)。 - **突出技术亮点**:提及 ES 的 **倒排索引+向量索引双引擎** 是支撑高并发检索的核心。 > 📌 **参考项目截图**: > ![ES数据监控](https://cdn.tobebetterjavaer.com/paicoding/cae14303e0159ad99e8fb4f828e5b01e.png) > 实际可通过 Kibana 监控索引状态(如文档数、存储大小)。 通过以上回答,既能体现对项目架构的理解,又能展现对大数据场景的工程化思考。
点赞
回复 取消回复
JOY 2026年03月04日 21:39
引用原文:路由 : Vue Router
这个的作用是什么
点赞
回复 取消回复
cx_chen 2026年03月02日 14:55
麻烦审核一下
点赞
回复 取消回复
湛以星 2026年01月28日 21:43
引用原文:派聪明通过集成 Apache Tika 文档解析、豆包 Embedding 向量模型、Elasticsearch 混合检索技术和 DeepSeek API,构建了一套完整的智能知识处理流水线。
@派聪明 我了解到RAG知识库会用到重排模型精确回复,嵌入模型只能粗略查询。这里没有用重排模型有什么考虑?
点赞
回复1 取消回复
派聪明 2026年01月28日 21:44
根据提供的参考资料,派聪明RAG知识库未明确提及使用重排模型(如Cross-Encoder或Reranker),主要基于以下考虑: ### 1. **技术架构的简化与效率优先** - **混合检索已满足需求**:系统通过Elasticsearch的`bool should`查询,同时集成**语义向量检索**(豆包Embedding)和**关键词匹配**(Apache Tika解析文本),实现了“粗查询+精排”的双重效果。这种设计在保证检索精度的同时,避免了额外部署重排模型的复杂性。 - **实时性要求**:重排模型需对Top-K结果进行二次排序,增加推理延迟。而派聪明强调**流式输出**(WebSocket实时推送),轻量化架构能更快响应用户问题。 ### 2. **成本与资源优化** - **降低推理开销**:重排模型通常需独立调用API或本地部署,增加计算成本(如GPU资源)。派聪明直接调用DeepSeek API生成最终答案,将检索结果与问题融合,减少中间步骤。 - **依赖现有组件**:系统已通过Elasticsearch的评分机制(如`score`权重)对检索结果排序,替代了传统重排模型的功能,无需额外模型维护。 ### 3. **场景适配性** - **企业级知识库的平衡需求**:项目定位是解决企业“知识孤岛”问题,而非追求学术级检索精度。混合检索已能覆盖大多数场景(如文档解析、语义理解、权限过滤),重排模型带来的边际收益有限。 - **避免模型幻觉**:RAG的核心优势是**基于真实知识生成答案**,重排模型若与检索结果冲突,可能引入新的不确定性。直接用DeepSeek整合上下文,可保持答案可靠性。 ### 4. **迭代规划** - 未来计划集成**MCP(Model Context Protocol)和Agent**,可能将重排能力纳入扩展方向(如多轮对话的上下文重排序),但当前版本以核心功能落地为主。 ### 总结 派聪明通过**Elasticsearch混合检索 + DeepSeek生成**的组合,在精度、效率、成本间取得平衡,未使用重排模型是工程化取舍的结果。若需更高精度,可在现有架构上叠加轻量级重排模型(如BGE-Reranker),但需权衡延迟与资源开销。
1
回复 取消回复
湛以星 2026年01月28日 21:38
引用原文:Elasticsearch 8.10.0
@派聪明 这里用es出于什么考虑,为什么不用milvus呢
点赞
回复1 取消回复
派聪明 2026年01月28日 21:39
在派聪明项目中选择使用Elasticsearch 8.10.0而非Milvus,主要基于以下考虑: 1. **混合检索需求**:项目需要同时支持关键词搜索和语义搜索,Elasticsearch擅长处理基于文本的查询,而Milvus专精于向量相似度匹配。派聪明通过Elasticsearch实现了"关键词+语义"的双引擎搜索(bool should查询方式)。 2. **技术栈延续性**:项目基于Spring Boot生态,Elasticsearch作为成熟的全文搜索引擎,与Java生态集成更紧密,团队也更为熟悉。 3. **功能完整性**:Elasticsearch不仅支持向量搜索,还提供强大的全文检索、分析和复杂查询能力(如match、range、bool查询),满足企业级文档管理的多样化需求。 4. **性能满足需求**:对于派聪明的应用场景,Elasticsearch 8.10.0的向量搜索性能已足够,无需引入额外的Milvus组件增加系统复杂度。 5. **运维简便性**:单一数据库组件降低了部署和维护成本,而Milvus需要专门的配置和管理。 虽然Milvus在纯向量相似性搜索上性能更优(可达其他数据库2-5倍),但派聪明的RAG系统更看重混合检索能力和整体技术栈的一致性,因此选择了Elasticsearch。
2
回复 取消回复
zhiwenfan 2026年01月21日 22:20
引用原文:派聪明
@派聪明 派聪明用到了什么AI框架吗?langChain4j ,SpringAI?
1
回复3 取消回复
Alleon 2026年01月22日 20:53
同问同问
点赞
回复 取消回复
是你啊 2026年03月02日 16:04
@派聪明
点赞
回复 取消回复
young 2026年03月10日 02:15
应该没用,直接调用 DeepSeek 的接口
1
回复 取消回复

目录