@h100envy:这篇论文彻底改变了我对 RAG 中信任检索的看法:获取文档 -> 评估质量 -> 得…
摘要
本文提出了一种5步蓝图,通过使用轻量级检索评估器来提高 RAG 中的信任度。该评估器对文档质量进行评分,并触发(正确、错误、模糊)三种动作来处理检索失败,具有即插即用的集成特性。
查看缓存全文
缓存时间: 2026/06/30 19:47
这篇论文彻底改变了我对 RAG 中信任检索的看法:
检索文档 -> 评估质量 -> 获得置信度 -> 选择行动 -> 清理上下文 -> 生成
以下是五步蓝图:
检索评估器:一个轻量级模型,根据查询评估已检索文档的质量,并输出置信度。
三种行动:置信度触发 {正确, 错误, 模糊} 三者之一,而不是盲目地把所有内容都塞进去。
失败时进行网络搜索:如果文档质量差,则重写查询,并从大规模网络搜索中获取知识,而非静态语料库。
分解再重组:将每篇文档拆分为最小片段,保留相关片段,丢弃噪声,重建上下文。
即插即用:所有这些都可在不重新训练生成器的情况下,直接嵌入普通 RAG 和 Self-RAG。
关键洞察:RAG 的问题不仅在于何时检索,还在于当检索返回错误结果时该如何处理。
一个轻量级评估器配合三种行动,同时在四个数据集上提升了普通 RAG 和 SOTA Self-RAG 的性能。
阅读本文,然后查看下面的文章。
相似文章
@h100envy: 这篇论文彻底改变了我对RAG中检索循环的看法:分段 -> 判断是否需要检索 -> …
这篇论文提出了一种新颖的RAG检索循环,利用反思标记和按需检索,让模型自行决定何时获取文档或依赖内部知识,并通过批判和树解码提升准确性。
你的RAG因为垃圾检索而出现幻觉——这里有3行代码的修复方案(附真实得分)
针对噪声检索导致的RAG幻觉问题的实用修复方案:使用交叉编码器重新排序,过滤掉得分低于1.5的文本块,平均相关性从-0.28提升至+3.80。
当检索无济于事:一项大规模生物医学 RAG 研究
这项大规模研究涵盖 5 个模型(7B–72B)、10 个生物医学问答数据集、4 种检索方法和 4 个语料库,发现在生物医学问答任务中,RAG 相比无检索基线仅带来微小且不稳定的提升(1–2 个百分点)。研究得出结论:主要瓶颈并非检索质量,而是模型有效利用检索证据的能力有限。
@vintcessun: RAG喂太多文档,检索质量反而从75%掉到40%?向量搜索被大量无关内容稀释,真实部署中命中率暴跌。 问题根源:异构文档混在一起检索,噪声淹没了信号。多智能体编排看似智能,实际引入精度-忠实度悖论——配置稍差就两头不讨好。 论文提出的MA…
This paper identifies 'vector search dilution' in RAG systems when scaling to large heterogeneous document collections, where accuracy dropped from 75% to 40% in a real-world deployment. The proposed MASDR-RAG method uses domain scoping via organizational metadata before retrieval, improving P@10 from 0.77 to 0.86 with low cost and easy deployment.
@omarsar0: 这篇论文很好地结合了 Skills 与 RAG 的优势。大多数 RAG 系统会在每次查询时都进行检索,无论模型是否需要……
该研究提出了 Skill-RAG,一种将 Skills 与检索增强生成(RAG)相结合的新方法,以解决传统 RAG 系统无论模型是否确实需要信息都会在每次查询时进行检索所带来的低效问题。