标签
本文提出了一个用于审计医疗多源RAG系统中来源依赖性的框架,发布了TransplantQA基准、HERO-QA检索策略以及一个结构化输出裁判,用于衡量跨来源答案关系。研究表明,更好的检索揭示出比先前估计更多的分歧,并主张将NLP评估从答案正确性转向跨来源关系分析。