@_avichawla: 面向AI工程师的8种RAG架构:(用法说明)1)Naive RAG——纯粹基于向量相似度检索文档…
摘要
一个推文串,解释了8种不同的RAG架构(Naive、Multimodal、HyDE、Corrective、Graph、Hybrid、Adaptive、Agentic)及其使用场景,并暗示了一种改进的索引技术。
查看缓存全文
缓存时间: 2026/06/22 05:38
8 种面向 AI 工程师的 RAG 架构:
(附用法说明)
- 朴素 RAG
- 完全基于查询嵌入与存储嵌入之间的向量相似度来检索文档。
- 最适合简单、基于事实的查询,直接语义匹配即可满足需求。
- 多模态 RAG
- 处理多种数据类型(文本、图像、音频等),通过跨模态嵌入和检索来工作。
- 适用于跨模态检索任务,例如用文本查询同时获取文本和图像上下文。
- HyDE(假设文档嵌入)
- 查询与文档在语义上并不相似。
- 该技术会在检索前根据查询生成一个假设的答案文档。
- 使用这个生成文档的嵌入来找到更相关的真实文档。
- 纠正型 RAG
- 通过将检索结果与可信来源(如网络搜索)进行对比来验证。
- 确保信息的时效性和准确性,在将内容传递给 LLM 之前过滤或纠正检索到的内容。
- 图 RAG
- 将检索到的内容转换为知识图谱,以捕捉关系和实体。
- 通过向 LLM 提供结构化上下文和原始文本,增强推理能力。
- 混合 RAG
- 在同一管道中结合稠密向量检索与基于图的检索。
- 当任务同时需要非结构化文本和结构化关系数据来生成更丰富的答案时尤其有用。
- 自适应 RAG
- 动态判断查询是需要简单的直接检索,还是需要多步推理链。
- 将复杂查询拆分为更小的子查询,以获得更好的覆盖率和准确性。
- 智能体 RAG
- 使用具有规划、推理(ReAct、CoT)和记忆能力的 AI 智能体,协调来自多个来源的检索。
- 最适合需要工具使用、外部 API,或结合多种 RAG 技术的复杂工作流。
以上大多数架构都涉及某种检索时的决策。但它们都运行在已经索引好的内容之上。
如果索引步骤输出了混乱的文本块,那么每个架构都会继承这些问题。改进索引本身是与上述 8 种架构无关的独立问题。
我的联合创始人写了一篇关于索引步骤中更优单元的文章。该技术:
- 将语料库大小削减了 40 倍。
- 将每次查询的 token 数减少了 3 倍。
- 将向量搜索相关性提升了 2.3 倍。
而且它不改变检索算法、重排序器或嵌入模型。
查看下方内容。
向量搜索并不总是答案。
一个已有 30 年历史的算法,无需训练、无需嵌入、无需微调,至今仍然为 Elasticsearch、OpenSearch 以及大多数生产级搜索系统提供动力。
它就是 BM25,值得理解为什么它至今依然重要。
假设你在一个机器学习论文库中搜索 “transformer attention mechanism”。
BM25 使用三个核心思想对文档打分:
-
单词的稀有性比频率更重要
每篇论文都包含 “the” 和 “is”,因此这些词不携带任何信号。
但 “transformer” 是具体且信息量大的词,所以 BM25 给它的权重高得多。在公式中,这由 IDF(qi) 体现。 -
重复有帮助,但收益递减
如果 “attention” 在一篇论文中出现 10 次,这是很强的相关性信号。但从 10 次增加到 100 次几乎不会提高分数。
BM25 应用了一条由 f(qi, D) 和参数 k1 控制的饱和曲线,防止关键词堆砌操纵结果。 -
文档长度被归一化
一篇 50 页的论文自然比一篇 5 页的论文包含更多关键词命中。
BM25 使用 |D|/avgdl 进行调整,由参数 b 控制,这样较长的文档不会仅仅因为文本更多而主导排名。
三个想法。没有神经网络。没有训练数据。只有经得起时间考验的优雅数学。
以下是大多数人忽略的部分:BM25 擅长精确关键词匹配,而这正是嵌入真正难以做到的。
当用户搜索 “error code 5012” 时,向量搜索可能会返回语义相似的错误码。而 BM25 每次都会显示精确匹配。
这正是混合搜索成为顶级 RAG 系统默认方案的原因。
将 BM25 与向量搜索结合,你可以在同一个管道中获得语义理解和精确关键词匹配。
因此,在把 GPU 扔向每个搜索问题之前,请考虑一下 BM25 是否已经能解决它,或者至少通过结合两者能让你的语义搜索变得更好。
不过,当你这样做时,一个经常出问题的地方是展示结果为何匹配。
对于 BM25,匹配的 token 就是查询词,所以你可以直接高亮那些得分项。
但向量部分是基于嵌入相似度排名的,没有词汇重叠,因此段落中没有可标记的查询 token。
退而求其次地高亮整个检索块并不理想,因为一个块可能有数千个 token,而只有几个句子回答了查询。
这一点很难做到,但却是不可让步的,尤其是在医疗、法律和金融等领域,用户必须看到某个主张所源自的确切句子,而不是整页或整个块。
我的联合创始人写了一篇关于一种强大技术的文章,该技术能获取查询和段落,并返回实际驱动语义匹配的文本片段。
查看下方内容。
相似文章
@TheTuringPost:2026年需了解的20种高级RAG类型 - 思维场景感知RAG (MiA-RAG)、基于超图记忆的多步RAG (HGMem)……
本文概述了预计在2026年具有相关性的20种高级RAG(检索增强生成)类型,涵盖长文档记忆、自适应检索、多模态接地、多语言问答、图推理以及安全导向的RAG方法。
@LearnWithBrij:别再像2022年那样构建RAG了。分块→嵌入→检索→生成 这条流水线能用……直到你尝试上线……
一个帖子解释了构建生产级RAG超越简单分块-嵌入-检索-生成所需的四个关键层次:智能查询路由、高级索引、多类型检索和持续评估。
RAG-Anything:全能型 RAG 框架
RAG-Anything 是一个全新的开源框架,通过整合跨模态关系和语义匹配来增强多模态知识检索,在复杂的基准测试中表现优于现有方法。
@jerryjliu0: 从2023到2026年,RAG、文档上下文与AI智能体的完整之旅 - @hexapode 进行了全面的90分钟工作…
涵盖从2023到2026年RAG、文档上下文与AI智能体演变的全面工作坊幻灯片,涉及痛点、重排序、智能体循环与文档解析挑战。
@akshay_pachaar: RAG vs. CAG,清晰解释!RAG 很棒,但有一个主要问题:每次查询都命中向量数据库,即使是静态数据也是如此……
解释了缓存增强生成(CAG)作为一种将静态知识直接缓存到模型 KV 内存中的方法,与传统 RAG 相比,可降低延迟和成本,并展示了如何将两者结合以获得最佳性能。