CanLegalRAGBench: 评估加拿大判例法上的检索增强生成

arXiv cs.CL 论文

摘要

介绍了CanLegalRAGBench,这是一个基于真实查询和专家标注答案来评估加拿大判例法上检索增强生成的基准。评估显示对设计选择敏感、开源嵌入模型具有竞争力,以及生成答案中持续存在的幻觉问题。

arXiv:2605.30497v1 公告类型:新 摘要:基于RAG的法律助手越来越受欢迎,但LLM的幻觉问题仍然是一个关键问题,可能损害司法公正。尽管已经开发了基准来评估进展,但许多基准依赖于合成查询而非真实的法律场景。此外,加拿大法律在现有评估中代表性不足。为了解决这一差距,我们引入了CanLegalRAGBench,这是一个基于真实查询和专家标注答案、以判例法为依据的加拿大法律问答基准。我们的评估表明,检索性能对设计选择敏感,并且开源嵌入模型与闭源模型具有竞争力。然而,它也揭示了自动评估的局限性,即惩罚那些检索了其他相关文档的系统。我们还发现,生成的答案往往与黄金标准答案存在偏差,要么出现幻觉,要么产生过于详细或无关的内容,8%-29%的主张无法得到检索文档的支持。我们希望这个基准能推动法律RAG系统局限性的持续改进。
查看原文
查看缓存全文

缓存时间: 2026/06/01 09:24

# CanLegalRAGBench: Evaluating Retrieval-Augmented Generation on Canadian Case Law
来源:https://arxiv.org/abs/2605.30497
查看 PDF (https://arxiv.org/pdf/2605.30497)

> 摘要:基于RAG的法律助手越来越受欢迎,但大语言模型的幻觉问题仍然是一个关键隐患,可能损害司法公正。虽然已有基准测试用于评估进展,但许多测试依赖于合成查询,而非真实的法律场景。此外,加拿大法律在现有评估中的代表性不足。为填补这一空白,我们提出了CanLegalRAGBench,这是一个基于真实查询和专家标注答案(以判例法为依据)的加拿大法律问答基准。我们的评估表明,检索性能对设计选择敏感,且开源嵌入模型与闭源模型相比具有竞争力。然而,评估也揭示了自动评估的局限性:检索到其他相关文档的系统会受到惩罚。我们还发现,生成的答案常常偏离黄金标准答案,要么存在幻觉,要么产生过于详细或无关的内容,其中8-29%的陈述无法得到检索文档的支持。我们希望该基准有助于推动法律RAG系统局限性的持续改进。

## 提交历史

来自:Vered Shwartz [查看邮件 (https://arxiv.org/show-email/adc9a0dd/2605.30497)] **[v1]**2026年5月28日星期四 19:24:23 UTC (2,761 KB)

相似文章

当病例罕见时:面向非指南临床问答的检索基准

arXiv cs.CL

介绍 OGCaReBench,这是一个自由形式的检索基准,用于评估 LLM 在需要超越标准指南推理的临床问题上的表现。实验表明,即使是最好的模型也仅能达到 56% 的准确率,但检索增强将性能提升至 82%。

MM-BizRAG:重新思考面向通用企业问答的多模态检索增强生成

arXiv cs.CL

MM-BizRAG 是一个面向企业问答的多模态检索增强生成系统,通过文档结构感知分割和版式感知解析,在异构企业文档上的表现比以视觉为中心的基线方法最高提升 32%。该论文还提出了 FastRAGEval——一种基于 LLM 的高效评估指标,其与人类判断的对齐程度优于 RAGChecker,且成本更低。

为什么检索增强生成会失败:图视角

arXiv cs.CL

本文探讨了检索增强生成(RAG)系统即使在获取到正确证据的情况下仍然失败的原因。通过电路追踪和归因图,作者发现正确的预测展现出更深的推理路径和更分散的证据流,而失败则表现为浅层、碎片化的模式。他们提出了一个基于图的错误检测框架和有针对性的干预措施,以提高RAG的可靠性。