你的RAG因为垃圾检索而出现幻觉——这里有3行代码的修复方案（附真实得分）

Reddit r/AI_Agents 2026/05/25 04:13 工具

rag hallucination retrieval cross-encoder reranking llm

摘要

针对噪声检索导致的RAG幻觉问题的实用修复方案：使用交叉编码器重新排序，过滤掉得分低于1.5的文本块，平均相关性从-0.28提升至+3.80。

我的RAG代理出现了幻觉。不是因为LLM不好——而是因为检索系统给它喂了噪声。查询："什么是Python装饰器？" 我的检索器在修复前返回的内容： | 排名 | 得分 | 内容 | 是否相关？ | |---|---|---|---| | 1 | +5.80 | 装饰器定义 | 是 | | 2 | +1.40 | 致谢页面 | 否 | | 3 | +1.13 | u/staticmethod示例 | 是 | | 4 | -4.69 | 类练习 | 否 | | 5 | -11.0 | Monty Python引用 | 否 | LLM接收了全部5个文本块。它之所以产生幻觉，是因为它相信了噪声。修复方案——交叉编码器重新排序（3行代码）： scores = cross_encoder.score(pairs) ranked = sorted(zip(scores, candidates), reverse=True) filtered = [doc for score, doc in ranked if score > 1.5] 修复后：只有得分超过1.5的文本块才能到达LLM。整体结果（10次查询）：平均相关性从-0.28提升至+3.80。胜率80%。模型：cross-encoder/ms-marco-MiniLM-L-6-v2（免费，本地，HuggingFace）。如果你的聊天机器人出现幻觉，检查你的检索系统，不要先责怪LLM。你的重排序器使用的阈值是多少？

查看原文

相似文章

RAGognizer：通过检测头集成实现幻觉感知微调

arXiv cs.CL

RAGognizer 提出了一种幻觉感知微调方法，该方法将轻量级检测头集成到大语言模型（LLMs）中，以实现语言建模与幻觉检测的联合优化，适用于 RAG 系统。论文介绍了 RAGognize，一个包含自然发生的闭域幻觉及其词元级标注的数据集，并展示了在降低幻觉率的同时，实现了最先进的幻觉检测性能，且不损害语言质量。

我见到的大多数智能体RAG问题都是检索问题，而非模型问题

Reddit r/AI_Agents

作者认为大多数智能体RAG失败源于检索问题——具体包括分块错误、缺乏新鲜度信号以及依赖纯向量搜索——而非大语言模型本身，并建议采用结构化分块、基于衰减的排序以及BM25+向量的混合搜索。

@vintcessun: RAG喂太多文档，检索质量反而从75%掉到40%？向量搜索被大量无关内容稀释，真实部署中命中率暴跌。问题根源：异构文档混在一起检索，噪声淹没了信号。多智能体编排看似智能，实际引入精度-忠实度悖论——配置稍差就两头不讨好。论文提出的MA…

X AI KOLs Timeline

This paper identifies 'vector search dilution' in RAG systems when scaling to large heterogeneous document collections, where accuracy dropped from 75% to 40% in a real-world deployment. The proposed MASDR-RAG method uses domain scoping via organizational metadata before retrieval, improving P@10 from 0.77 to 0.86 with low cost and easy deployment.

当检索无济于事：一项大规模生物医学 RAG 研究

arXiv cs.CL

这项大规模研究涵盖 5 个模型（7B–72B）、10 个生物医学问答数据集、4 种检索方法和 4 个语料库，发现在生物医学问答任务中，RAG 相比无检索基线仅带来微小且不稳定的提升（1–2 个百分点）。研究得出结论：主要瓶颈并非检索质量，而是模型有效利用检索证据的能力有限。

"大多数 RAG 基准测试对真实世界的语料库存在误导" 来自3个生产网站的测试数据。