✅派聪明 RAG 聊天助手面试题预测，针对 WebSocket 和 prompt

1.我们来聊聊这个聊天助手。它最吸引人的特点之一就是像真人聊天一样，答案一个字一个字地蹦出来。这种‘流式响应’或‘打字机效果’，在技术上是如何实现的？

我先从整体的流程说起：当前端用户开始一次对话时，浏览器会通过 WebSocket 与后端建立一个长连接。这是一种双向的、长时间保持的连接，非常适合实时交互的场景，比如流式响应、打字机效果。

一旦用户在前端发出提问，这个消息就会通过 WebSocket 通道发送到后端。后端接收到消息后会去调用知识库去做一次混合检索，找出相关的文本内容后，再拼接上用户的历史上下文，构建一个完整的 Prompt。

接着去调用 DeepSeek，我们调用的是流式响应的 API。这一步是实现打字机效果的关键：我们用 Spring WebFlux 的 WebClient 作为 HTTP 客户端，在请求 LLM 的时候也以流式的方式订阅返回的数据流。也就是说，LLM 一边生成内容，一边把内容分成一小段一小段地推给我们，我们这边就一边接收一边处理。

每接收一段内容，就通过 WebSocket 立刻推送给前端。前端收到一小段字符后，就直接追加到聊天窗口中，给用户的感觉就是“打字机一点一点显示”的效果。

2.既然用到了WebSocket，那它和我们更常用的HTTP请求相比，有什么本质区别？为什么在这个场景下，必须用WebSocket？

WebSocket 能够支持服务端主动、实时地向客户端推送数据，而 HTTP 不具备这个能力。

具体来说，HTTP 是一种无状态、单向的请求-响应协议，它的工作机制决定了只能由客户端发起请求，服务端只是被动响应。哪怕我们用长轮询等手段模拟实时性，本质上还是客户端不断地问“有没有新的消息”，服务器无法主动发“有了”。

WebSocket 是一种有状态、全双工的协议，一旦连接建立，前后端就可以随时互相发送消息。在派聪明中，前端发起 WebSocket 请求建立连接后，后端就会一直监听前端的请求并保持连接。用户一旦发送请求，派聪明就会实时将 DeepSeek 返回的是流式数据通过 WebSocket 传回给前端。

总的来说，WebSocket 是我们实现流式响应和打字机效果的最佳选择，它解决了 HTTP 无法实时双向通信的问题，真正做到了后端一边接收大模型响应、一边实时推送给前端的效果。

3.WebSocket连接是长连接，它比HTTP要脆弱。如果用户的网络抖动一下，连接断了，会发生什么？你们有什么异常处理和重连机制吗？

考虑到用户可能在使用过程中遇到网络波动或者临时断网的情况...

热门评论

阿白 2026年01月26日 22:30

引用原文：我们可以把每一轮的对话都转成向量并存到向量数据库中。用户每增加一次对话，我们就将最新的这句话也转成向量，然后去 ES 中查找之前最相关的几轮历史，再把它们拉出来放入 Prompt。这种方式的优点是，能够“按需召回”，不用记住整个历史对话，效率高，成本也更可控。

@派聪明每一轮对话都转成向量，就说记住整个**对话吧？是不是矛盾了？

回复1 取消回复

派聪明 2026年01月26日 22:31

您观察得很仔细！这段话确实存在表述上的矛盾，需要澄清技术实现的本质差异： **核心矛盾点：** “把每一轮对话转成向量存入数据库” ≠ “记住整个**对话”。这里的关键区别在于 **存储形式** 和 **调用机制**： --- ### 1. **向量存储 ≠ 原始文本存储** - **传统方式（如Redis）**：存储原始对话文本（如JSON），调用时需加载全部**记录。 - **向量存储**：将对话内容转化为**语义向量**（数字表示），仅存储压缩后的语义信息，而非原始文本。 ✅ **本质区别**：向量是“语义指纹”，体积远小于原始文本，且无法直接还原完整对话。 --- ### 2. **“按需召回”的真正含义** - **过程**： 1. 用户新增一句话 → 转为向量。 2. 在向量数据库中搜索**与当前问题最相似的**向量**（如通过余弦相似度）。 3. **仅检索出最相关的几轮对话**（如Top 3），而非全部**。 - **结果**： - 效率：避免加载冗余数据，检索速度更快。 - 成本：向量数据库（如Milvus）比Redis更适合高维向量搜索。 - 效果：通过语义匹配精准关联上下文，避免无关**干扰。 --- ### 3. **与传统方式的对比** | **方式** | 存储内容 | 调用机制 | 局限性 | |------------------|------------------|-----------------------|------------------------| | **Redis存储** | 原始对话文本 | 加载全部**记录 | 上下文膨胀、Token超限风险 | | **向量数据库** | 语义向量 | 按需检索相似**片段 | 依赖向量质量，可能丢失细节 | --- ### 结论： **“向量存储”是“按需召回”的技术基础**，它通过语义相似度筛选**，而非机械记忆全部对话。因此： - **不矛盾**：向量存储的是语义的“压缩包”，调用时只解压最相关部分。 - **优势**：在保证上下文连贯性的同时，解决了长对话的效率与成本问题。 - **未来方向**：结合摘要机制（压缩早期对话）和向量检索（精准关联），可进一步优化长上下文处理。

回复取消回复

5 条评论

小叮当 2026年02月06日 10:16

引用原文：前端这边，我们使用了 @vueuse 库来管理 WebSocket 连接，它内置了强大的心跳重连机制。

@派聪明详细介绍一下@vueuse是什么，是如何实现心跳重连的

派聪明 2026年02月06日 10:16

@vueuse是一个基于Vue 3 Composition API的工具库，它提供了许多实用的工具函数，用于简化Vue应用的开发。其中，useWebSocket是@vueuse提供的一个专门用于管理WebSocket连接的函数。在心跳重连方面，@vueuse的useWebSocket实现了以下机制： 1. **自动重连配置**：通过设置autoReconnect: true启用自动重连功能。 2. **指数退避策略**：重连不是立即重试，而是采用"失败后等待时间逐渐增长"的策略，避免高频重试对服务器造成压力。 3. **心跳检测**：内置心跳机制，定期发送ping消息检测连接是否健康。如果连接"*死"（长时间无响应），会主动触发重连。 4. **连接状态管理**：自动管理连接状态，开发者可以轻松获取连接状态、错误信息等。使用示例： ```typescript const { data, status, error } = useWebSocket(`/proxy-ws/chat/${token}`, { autoReconnect: true, // 启用自动重连 heartbeat: { // 心跳配置 interval: 5000, // 每5秒发送一次心跳 message: 'ping' // 心跳消息内容 } }); ``` 这种设计使得WebSocket连接更加健壮，能够有效应对网络波动和临时断网的情况，确保用户体验的连续性。

. 2026年02月02日 00:14

引用原文：我们首先会构建一个 system 指令，然后将检索到的知识片段包裹在引用开始/结束符中，并且要求模型遵守我们自定义的规则。

这个方法在哪个文件中

. 2026年02月02日 00:15

@派聪明

阿白 2026年01月27日 10:18

引用原文：.当检索到的知识和用户问题不完全匹配，甚至完全不相关时，系统是如何处理的？有什么策略来避免LLM‘一本正经地胡说八道’？

@派聪明这个0.3的阈值好像只在textonlysearch的降级搜索有，普通的searchwithpermission没有呀？

派聪明 2026年01月27日 10:18

参考资料中确实提到了0.3的相关性评分阈值，用于在检索层过滤相关性不足的结果。这个阈值的设计目的是确保只有相关性足够高的文档才会进入后续的上下文构建，从而避免LLM基于低质量或无关信息生成不准确的内容。关于您提到的textonlysearch和searchwithpermission两种搜索场景中的阈值差异，参考资料中并未明确说明0.3阈值仅适用于降级搜索。系统整体采用了一致的相关性评估标准，通过设置评分门槛来控制检索质量，无论在哪种搜索模式下，都会过滤掉低于0.3分的结果，确保提供给LLM的上下文信息具有较高的相关性。

阿白 2026年01月27日 09:54

引用原文：首先，在检索这层，我们会给 Elasticsearch 设置一个相关性评分的门槛。比如我们会把低于 0.3 分的结果全部过滤掉。也就是说，如果一个文档跟用户的问题只有一点点关联关系，分数达不到要求，它就根本不会进入到下一步的上下文构建中。

@派聪明我们不是相似性检索和关键词检索综合评分吗？这个最后的0.3过滤是根据什么分数过滤的？

派聪明 2026年01月27日 09:54

根据参考资料，系统在Elasticsearch检索层采用**混合检索策略**（结合相似性检索和关键词检索），最终生成的相关性评分是一个**综合得分**。0.3分是系统设定的**最低相关性阈值**，具体依据如下： --- ### 1. **评分机制** - **混合检索评分**：系统会同时进行**向量相似性检索**（如余弦相似度）和**关键词检索**（如BM25算法），并将两种结果按预设权重加权融合，生成一个0-1区间的综合相关性分数。 - **阈值过滤**：低于0.3分的文档被视为与用户问题关联度不足，直接排除，避免低质量信息进入后续上下文构建。 --- ### 2. **0.3阈值的设定依据** - **经验性平衡**： 0.3是系统通过多轮测试确定的平衡点： - **查全率 vs. 查准率**：过低阈值（如0.1）可能召回过多无关文档，导致LLM混淆；过高阈值（如0.5）可能遗漏有效信息，降低回答覆盖率。 - **业务场景需求**：专业领域（如技术文档）要求更高相关性，而通用场景可适当放宽阈值。 - **动态调整可能性**：阈值可根据不同知识库特性或用户反馈微调（如高敏感领域采用更高阈值）。 --- ### 3. **为什么过滤低分文档？** - **避免LLM“胡说八道”**：参考资料明确要求，若上下文无足够信息，LLM需回答“无法回答”。低分文档可能包含错误或无关信息，干扰模型判断。 - **优化性能**：减少冗余数据传递，降低大模型处理负担和响应延迟。 --- ### 总结： 0.3分是**混合检索后的综合相关性阈值**，用于筛选与问题强相关的文档。这一数值通过平衡查全率、查准率及业务需求确定，确保进入LLM的上下文信息既相关又可*。

1.我们来聊聊这个聊天助手。它最吸引人的特点之一就是像真人聊天一样，答案一个字一个字地蹦出来。这种‘流式响应’或‘打字机效果’，在技术上是如何实现的？

2.既然用到了WebSocket，那它和我们更常用的HTTP请求相比，有什么本质区别？为什么在这个场景下，必须用WebSocket？

3.WebSocket连接是长连接，它比HTTP要脆弱。如果用户的网络抖动一下，连接断了，会发生什么？你们有什么异常处理和重连机制吗？

热门评论

5 条评论

目录

划词评论