我在一个合成的医疗保健数据库上对RAG技术进行了基准测试。最大的收益来自文档结构，而不是模型调整。

Reddit r/LocalLLaMA 2026/07/03 02:28 论文

rag benchmarking synthetic-data healthcare document-shape retrieval-augmented-generation

摘要

一项使用合成医疗保健数据库对RAG技术进行的基准测试研究发现，优化文档结构比调整模型参数能带来更大的性能提升。

暂无内容

查看原文

相似文章

当检索无济于事：一项大规模生物医学 RAG 研究

arXiv cs.CL

这项大规模研究涵盖 5 个模型（7B–72B）、10 个生物医学问答数据集、4 种检索方法和 4 个语料库，发现在生物医学问答任务中，RAG 相比无检索基线仅带来微小且不稳定的提升（1–2 个百分点）。研究得出结论：主要瓶颈并非检索质量，而是模型有效利用检索证据的能力有限。

"大多数 RAG 基准测试对真实世界的语料库存在误导" 来自3个生产网站的测试数据。

Reddit r/AI_Agents

本文认为，大多数 RAG 基准测试具有误导性，因为它们假设语料库质量均匀，而真实世界的语料库在内容密度上差异很大。利用来自三个生产网站的数据，本文展示了一种分层方法和“产出分数”可以更好地预测检索效果。

RAG基准应精细到何种程度？一种层次化合成问题生成框架

arXiv cs.CL

本文介绍了HieraRAG，这是一种用于确定RAG基准最优粒度的层次化框架。它生成了跨三个维度的5,872个合成问答对，并发现理想粒度因维度而异，为从业者提供了一种可移植的程序。

@vintcessun: RAG喂太多文档，检索质量反而从75%掉到40%？向量搜索被大量无关内容稀释，真实部署中命中率暴跌。问题根源：异构文档混在一起检索，噪声淹没了信号。多智能体编排看似智能，实际引入精度-忠实度悖论——配置稍差就两头不讨好。论文提出的MA…

X AI KOLs Timeline

This paper identifies 'vector search dilution' in RAG systems when scaling to large heterogeneous document collections, where accuracy dropped from 75% to 40% in a real-world deployment. The proposed MASDR-RAG method uses domain scoping via organizational metadata before retrieval, improving P@10 from 0.77 to 0.86 with low cost and easy deployment.

@h100envy：这篇论文彻底改变了我对 RAG 中信任检索的看法：获取文档 -> 评估质量 -> 得…