你的RAG因为垃圾检索而出现幻觉——这里有3行代码的修复方案(附真实得分)

Reddit r/AI_Agents 工具

摘要

针对噪声检索导致的RAG幻觉问题的实用修复方案:使用交叉编码器重新排序,过滤掉得分低于1.5的文本块,平均相关性从-0.28提升至+3.80。

我的RAG代理出现了幻觉。不是因为LLM不好——而是因为检索系统给它喂了噪声。查询:"什么是Python装饰器?" 我的检索器在修复前返回的内容: | 排名 | 得分 | 内容 | 是否相关? | |---|---|---|---| | 1 | +5.80 | 装饰器定义 | 是 | | 2 | +1.40 | 致谢页面 | 否 | | 3 | +1.13 | u/staticmethod示例 | 是 | | 4 | -4.69 | 类练习 | 否 | | 5 | -11.0 | Monty Python引用 | 否 | LLM接收了全部5个文本块。它之所以产生幻觉,是因为它相信了噪声。修复方案——交叉编码器重新排序(3行代码): scores = cross_encoder.score(pairs) ranked = sorted(zip(scores, candidates), reverse=True) filtered = [doc for score, doc in ranked if score > 1.5] 修复后:只有得分超过1.5的文本块才能到达LLM。整体结果(10次查询):平均相关性从-0.28提升至+3.80。胜率80%。模型:cross-encoder/ms-marco-MiniLM-L-6-v2(免费,本地,HuggingFace)。如果你的聊天机器人出现幻觉,检查你的检索系统,不要先责怪LLM。你的重排序器使用的阈值是多少?
查看原文

相似文章

RAGognizer:通过检测头集成实现幻觉感知微调

arXiv cs.CL

RAGognizer 提出了一种幻觉感知微调方法,该方法将轻量级检测头集成到大语言模型(LLMs)中,以实现语言建模与幻觉检测的联合优化,适用于 RAG 系统。论文介绍了 RAGognize,一个包含自然发生的闭域幻觉及其词元级标注的数据集,并展示了在降低幻觉率的同时,实现了最先进的幻觉检测性能,且不损害语言质量。

@vintcessun: RAG喂太多文档,检索质量反而从75%掉到40%?向量搜索被大量无关内容稀释,真实部署中命中率暴跌。 问题根源:异构文档混在一起检索,噪声淹没了信号。多智能体编排看似智能,实际引入精度-忠实度悖论——配置稍差就两头不讨好。 论文提出的MA…

X AI KOLs Timeline

This paper identifies 'vector search dilution' in RAG systems when scaling to large heterogeneous document collections, where accuracy dropped from 75% to 40% in a real-world deployment. The proposed MASDR-RAG method uses domain scoping via organizational metadata before retrieval, improving P@10 from 0.77 to 0.86 with low cost and easy deployment.

当检索无济于事:一项大规模生物医学 RAG 研究

arXiv cs.CL

这项大规模研究涵盖 5 个模型(7B–72B)、10 个生物医学问答数据集、4 种检索方法和 4 个语料库,发现在生物医学问答任务中,RAG 相比无检索基线仅带来微小且不稳定的提升(1–2 个百分点)。研究得出结论:主要瓶颈并非检索质量,而是模型有效利用检索证据的能力有限。