CanLegalRAGBench: 评估加拿大判例法上的检索增强生成

arXiv cs.CL 2026/06/01 04:00 论文

rag legal-ai benchmark canadian-law llm-evaluation retrieval-augmented-generation hallucinations

摘要

介绍了CanLegalRAGBench，这是一个基于真实查询和专家标注答案来评估加拿大判例法上检索增强生成的基准。评估显示对设计选择敏感、开源嵌入模型具有竞争力，以及生成答案中持续存在的幻觉问题。

arXiv:2605.30497v1 公告类型：新摘要：基于RAG的法律助手越来越受欢迎，但LLM的幻觉问题仍然是一个关键问题，可能损害司法公正。尽管已经开发了基准来评估进展，但许多基准依赖于合成查询而非真实的法律场景。此外，加拿大法律在现有评估中代表性不足。为了解决这一差距，我们引入了CanLegalRAGBench，这是一个基于真实查询和专家标注答案、以判例法为依据的加拿大法律问答基准。我们的评估表明，检索性能对设计选择敏感，并且开源嵌入模型与闭源模型具有竞争力。然而，它也揭示了自动评估的局限性，即惩罚那些检索了其他相关文档的系统。我们还发现，生成的答案往往与黄金标准答案存在偏差，要么出现幻觉，要么产生过于详细或无关的内容，8%-29%的主张无法得到检索文档的支持。我们希望这个基准能推动法律RAG系统局限性的持续改进。

查看原文

查看缓存全文

缓存时间: 2026/06/01 09:24

# CanLegalRAGBench: Evaluating Retrieval-Augmented Generation on Canadian Case Law
来源：https://arxiv.org/abs/2605.30497
查看 PDF (https://arxiv.org/pdf/2605.30497)

> 摘要：基于RAG的法律助手越来越受欢迎，但大语言模型的幻觉问题仍然是一个关键隐患，可能损害司法公正。虽然已有基准测试用于评估进展，但许多测试依赖于合成查询，而非真实的法律场景。此外，加拿大法律在现有评估中的代表性不足。为填补这一空白，我们提出了CanLegalRAGBench，这是一个基于真实查询和专家标注答案（以判例法为依据）的加拿大法律问答基准。我们的评估表明，检索性能对设计选择敏感，且开源嵌入模型与闭源模型相比具有竞争力。然而，评估也揭示了自动评估的局限性：检索到其他相关文档的系统会受到惩罚。我们还发现，生成的答案常常偏离黄金标准答案，要么存在幻觉，要么产生过于详细或无关的内容，其中8-29%的陈述无法得到检索文档的支持。我们希望该基准有助于推动法律RAG系统局限性的持续改进。

## 提交历史

来自：Vered Shwartz [查看邮件 (https://arxiv.org/show-email/adc9a0dd/2605.30497)] **[v1]**2026年5月28日星期四 19:24:23 UTC (2,761 KB)

CanLegalRAGBench: 评估加拿大判例法上的检索增强生成

相似文章

当病例罕见时：面向非指南临床问答的检索基准

为稳健的 RAG 评估生成无知识泄露的基准测试

MM-BizRAG：重新思考面向通用企业问答的多模态检索增强生成

为什么检索增强生成会失败：图视角

LightRAG：简单高效的检索增强生成框架

提交意见反馈