大家好,我是二哥呀。
作为一名兢兢业业、诚心诚意的求职工具人,我平常最大的乐趣就是搜集各种对大家求职有帮助的信息(我认为)。
真不是我给自己戴高帽子,我贴个球友在简历修改邮件中给出的真实评价:真的非常感谢二哥在我迷茫求职路上的帮助!
这两年我越来越喜欢看 APP 月活榜,不是为了看谁第一,而是看谁还活着,毕竟 AI 时代变化真的太快了。
因为流量这东西真诚实,它不讲情怀,不讲故事,它只回答一个问题,这家公司现在还有没有人在用。
如果一个 APP 的月活在不断下跌,那背后的业务、团队、预算、HC,大概率不会太好看。
职业发展这件事,除了我们自身的实力外,平台至关重要。
有不少同学在选择 offer 的时候会问我,这家公司值得不得加入,那来看看这家公司的业务是不是在一线梯队就是一个很重要的参考指标。
坊间之所以都在传“有鹅选鹅”这下原因找到了,鹅厂的微信、QQ、腾讯视频、腾讯音乐都在榜单上,并且都很顶。
接着是阿里系,淘宝、支付宝(隶属蚂蚁,姑且也算吧)、高德地图也都在榜单上。
其次是字节,抖音、今日头条都在。至于 AI 产品,如豆包、元宝,没上榜不知道是不是统计的时候漏掉了,我感觉应该榜上有名才对。
同学们可能觉得有点意外的是百度这家公司的产品,但百度搜索、百度地图都在榜单上,包括他们投资的爱奇艺也在。所以网上的声音,有时候左耳朵进右耳朵出就行,别影响自己求职的判断。
选择公司这件事,真不能只看网评。
从 2024 年开始,大家应该也能明显的感觉到,项目经历中只有 RPC、点评外卖商城在求职大厂时非常难。到了 2025 年,如果你项目经历中没有 AI 的开发经验,简历这关都很难过。
所以 2025 年一整年,我都在折腾 AI 项目落地,7 月底上架了派聪明 RAG 这个项目,一是为了追 AI 的热度,二是很多公司在面试中确实会不停地问 AI。
就像这位球友说得:终于找到日常实习了,派聪明起到了很大作用,特意来感谢二哥,真的一次次的碰壁一次次的怀疑自己,终于也是做到了。
除了给大家提供求职信息,我这个求职工具人还要能给大家提供更多选择。让更多同学知道派聪明 RAG 这个项目。
我必须诚恳的告诉大家,我也憋着口气,钱不能让那些坏人都赚了,还学不到东西(😄)。
接下来,再给大家分享一道派聪明 RAG 项目中很大概率会被问到的面试题:为什么向量检索的时候不做权限过滤?混合检索的时候为什么不同时进行?
复制到浏览器打开:https://t.zsxq.com/P0GBc
相信大家看完后会更有底气,会对 RAG 和混合检索有更深的理解,拥抱 AI 不能只停留在工具上,还要从真实的项目经验着手。
派聪明面试题详解
派聪明 RAG 已经沉淀了非常多公司的真实面试题:https://paicoding.com/column/10/25,并且还可以划线@派聪明问答,做文章层面的 RAG。
答:
面试官你好:这里有这样的考量,如果向量检索的时候就考虑权限,那么需要在向量化的时候就充分考虑权限的问题,会增加向量的难度。
比如说 a 文档,对用户 1 有权限,或者对组织桃花岛有权限,那在存储向量的时候,就要考虑的非常复杂。
我们现在的做法,就相对明确很多,向量只向量文档,然后再去校验权限。彼此是解耦的,分离的,权限的变更不会影响到向量的结果。
这是一种设计选择,目的是为了区分“找不到”和“没权限”,从而提供更智能的用户体验。
就像你去找一个初级图书管理员,他只能进入“公共阅览区”。你问他:“有《凤凰项目技术架构》这本书吗?”。这本书其实在“内部资料室”里,但他进不去,所以他只能在公共区找一圈,然后告诉你:“对不起,我们图书馆没有这本书。”
你得到的反馈是“没有”,你以为是图书馆没收藏,然后就放弃了。
后置过滤的好处是,你去找图书馆的馆长(拥有特权的服务),他能进入所有区域。你问他同样的问题。
馆长先在所有书架 (包括公共区和内部资料室)上寻找,很快,他在内部资料室找到了这本书。
然后,他再看你的借书证,发现你的权限不够,不能进入内部资料室。
最后,他会告诉你:“这本书我们有 ,但它在内部资料室,需要特殊权限。你可以去某某部门申请。”
你得到了明确的反馈,你知道书是存在的,只是你权限不够,并且你还得到了下一步的行动指引。
所以, 在检索阶段不过滤权限,是为了获取一个“全集”的候选列表。然后,在应用层对这个全集进行权限校验,我们才能准确地知道哪些是“有权限看到的”,哪些是“没权限看到的”。
混合检索也可以分为两种路径,看你怎么选择了。
两阶段式(先向量召回,后关键词精排/过滤)。
第一阶段(召回):对用户的查询进行向量化,然后在整个索引中进行向量相似度搜索,召回 recall_k 个(比如 100 个)最相似的文档。
第二阶段(精排/过滤): 只在这 100 个结果的范围内 ,再进行关键词匹配,或者使用更复杂的模型(如 Cross-Encoder)进行重新排序。
第二种方式,并行式一体化混合搜索。
用户的查询被发送到搜索引擎(如 Elasticsearch 8.x+ 或其他现代向量数据库)。搜索引擎同时在内部执行两个并行的任务:任务A 在整个索引上进行向量相似度搜索。任务B在整个索引上进行 BM25 关键词搜索。
搜索引擎拿到两路召回的结果后,使用 RRF (Reciprocal Rank Fusion, 倒数排名融合) 的算法,将两个排名列表智能地合并成一个最终的、唯一的排名列表。
对于 27 届的同学来说,一个半月后暑期实习要开始了。
对于跳槽/26 届的同学来说,一个半月后春招要开始了。
技术傍身,天下我有!
榜单上的这些公司,你值得拥有,值得去冲!
我等大家的喜报!
ending
一个人可以走得很快,但一群人才能走得更远。二哥的编程星球已经有 11200 多名球友加入了,如果你也需要一个优质的学习环境,戳链接 🔗 加入我们吧。这是一个 简历精修 + 编程项目实战(RAG 派聪明 Java 版/Go 版本、技术派、微服务 PmHub)+ Java 面试指南的私密圈子,你可以阅读星球专栏、向二哥提问、帮你制定学习计划、和球友一起打卡成长。
最后,把二哥的座右铭送给大家:没有什么使我停留——除了目的,纵然岸旁有玫瑰、有绿荫、有宁静的港湾,我是不系之舟。共勉 💪。
回复