我在一个合成的医疗保健数据库上对RAG技术进行了基准测试。最大的收益来自文档结构,而不是模型调整。
摘要
一项使用合成医疗保健数据库对RAG技术进行的基准测试研究发现,优化文档结构比调整模型参数能带来更大的性能提升。
相似文章
当检索无济于事:一项大规模生物医学 RAG 研究
这项大规模研究涵盖 5 个模型(7B–72B)、10 个生物医学问答数据集、4 种检索方法和 4 个语料库,发现在生物医学问答任务中,RAG 相比无检索基线仅带来微小且不稳定的提升(1–2 个百分点)。研究得出结论:主要瓶颈并非检索质量,而是模型有效利用检索证据的能力有限。
"大多数 RAG 基准测试对真实世界的语料库存在误导" 来自3个生产网站的测试数据。
本文认为,大多数 RAG 基准测试具有误导性,因为它们假设语料库质量均匀,而真实世界的语料库在内容密度上差异很大。利用来自三个生产网站的数据,本文展示了一种分层方法和“产出分数”可以更好地预测检索效果。
RAG基准应精细到何种程度?一种层次化合成问题生成框架
本文介绍了HieraRAG,这是一种用于确定RAG基准最优粒度的层次化框架。它生成了跨三个维度的5,872个合成问答对,并发现理想粒度因维度而异,为从业者提供了一种可移植的程序。
@vintcessun: RAG喂太多文档,检索质量反而从75%掉到40%?向量搜索被大量无关内容稀释,真实部署中命中率暴跌。 问题根源:异构文档混在一起检索,噪声淹没了信号。多智能体编排看似智能,实际引入精度-忠实度悖论——配置稍差就两头不讨好。 论文提出的MA…
This paper identifies 'vector search dilution' in RAG systems when scaling to large heterogeneous document collections, where accuracy dropped from 75% to 40% in a real-world deployment. The proposed MASDR-RAG method uses domain scoping via organizational metadata before retrieval, improving P@10 from 0.77 to 0.86 with low cost and easy deployment.
@h100envy:这篇论文彻底改变了我对 RAG 中信任检索的看法:获取文档 -> 评估质量 -> 得…
本文提出了一种5步蓝图,通过使用轻量级检索评估器来提高 RAG 中的信任度。该评估器对文档质量进行评分,并触发(正确、错误、模糊)三种动作来处理检索失败,具有即插即用的集成特性。