我在一个合成的医疗保健数据库上对RAG技术进行了基准测试。最大的收益来自文档结构,而不是模型调整。

Reddit r/LocalLLaMA 论文

摘要

一项使用合成医疗保健数据库对RAG技术进行的基准测试研究发现,优化文档结构比调整模型参数能带来更大的性能提升。

暂无内容
查看原文

相似文章

当检索无济于事:一项大规模生物医学 RAG 研究

arXiv cs.CL

这项大规模研究涵盖 5 个模型(7B–72B)、10 个生物医学问答数据集、4 种检索方法和 4 个语料库,发现在生物医学问答任务中,RAG 相比无检索基线仅带来微小且不稳定的提升(1–2 个百分点)。研究得出结论:主要瓶颈并非检索质量,而是模型有效利用检索证据的能力有限。

@vintcessun: RAG喂太多文档,检索质量反而从75%掉到40%?向量搜索被大量无关内容稀释,真实部署中命中率暴跌。 问题根源:异构文档混在一起检索,噪声淹没了信号。多智能体编排看似智能,实际引入精度-忠实度悖论——配置稍差就两头不讨好。 论文提出的MA…

X AI KOLs Timeline

This paper identifies 'vector search dilution' in RAG systems when scaling to large heterogeneous document collections, where accuracy dropped from 75% to 40% in a real-world deployment. The proposed MASDR-RAG method uses domain scoping via organizational metadata before retrieval, improving P@10 from 0.77 to 0.86 with low cost and easy deployment.