你的RAG因为垃圾检索而出现幻觉——这里有3行代码的修复方案(附真实得分)
摘要
针对噪声检索导致的RAG幻觉问题的实用修复方案:使用交叉编码器重新排序,过滤掉得分低于1.5的文本块,平均相关性从-0.28提升至+3.80。
相似文章
RAGognizer:通过检测头集成实现幻觉感知微调
RAGognizer 提出了一种幻觉感知微调方法,该方法将轻量级检测头集成到大语言模型(LLMs)中,以实现语言建模与幻觉检测的联合优化,适用于 RAG 系统。论文介绍了 RAGognize,一个包含自然发生的闭域幻觉及其词元级标注的数据集,并展示了在降低幻觉率的同时,实现了最先进的幻觉检测性能,且不损害语言质量。
我见到的大多数智能体RAG问题都是检索问题,而非模型问题
作者认为大多数智能体RAG失败源于检索问题——具体包括分块错误、缺乏新鲜度信号以及依赖纯向量搜索——而非大语言模型本身,并建议采用结构化分块、基于衰减的排序以及BM25+向量的混合搜索。
@vintcessun: RAG喂太多文档,检索质量反而从75%掉到40%?向量搜索被大量无关内容稀释,真实部署中命中率暴跌。 问题根源:异构文档混在一起检索,噪声淹没了信号。多智能体编排看似智能,实际引入精度-忠实度悖论——配置稍差就两头不讨好。 论文提出的MA…
This paper identifies 'vector search dilution' in RAG systems when scaling to large heterogeneous document collections, where accuracy dropped from 75% to 40% in a real-world deployment. The proposed MASDR-RAG method uses domain scoping via organizational metadata before retrieval, improving P@10 from 0.77 to 0.86 with low cost and easy deployment.
当检索无济于事:一项大规模生物医学 RAG 研究
这项大规模研究涵盖 5 个模型(7B–72B)、10 个生物医学问答数据集、4 种检索方法和 4 个语料库,发现在生物医学问答任务中,RAG 相比无检索基线仅带来微小且不稳定的提升(1–2 个百分点)。研究得出结论:主要瓶颈并非检索质量,而是模型有效利用检索证据的能力有限。
"大多数 RAG 基准测试对真实世界的语料库存在误导" 来自3个生产网站的测试数据。
本文认为,大多数 RAG 基准测试具有误导性,因为它们假设语料库质量均匀,而真实世界的语料库在内容密度上差异很大。利用来自三个生产网站的数据,本文展示了一种分层方法和“产出分数”可以更好地预测检索效果。