从规范到指标(N2I-RAG):一种用于法律指标计算的智能检索增强生成框架

arXiv cs.AI 论文

摘要

N2I-RAG是一个结合自适应检索、LLM智能体和验证的框架,用于从规范性文本中计算法律指标,注重透明度和可追溯性。它在法国海洋环境法语料库上优于基线。

arXiv:2605.26926v1 Announce Type: new 摘要:从规范性文本中计算法律指标是法律监测和政策评估中的关键任务,但由于法律语言的复杂性、规模性和解释性,以及可用文档质量的差异,带来了重大挑战。现有的自然语言处理技术和生成模型可以辅助法律分析,但往往存在高幻觉风险,且缺乏可靠指标计算所需的可解释性和证据基础。本文提出N2I-RAG(从规范到指标),这是一种智能检索增强生成框架,旨在以透明和可追溯的方式自动化法律指标计算。我们整合了自适应检索、基于LLM的智能体和验证机制,形成一个模块化流水线,每个组件在过滤、检索和评估证据,以及生成与可识别法律条款相关的二元法律结果中发挥明确定义的作用。该框架通过要求对中间决策和最终指标分配进行明确解释来强调可追溯性。我们使用一个包含扫描和数字来源的内部构建的法国海洋环境法语料库评估N2I-RAG。与多个语言模型家族的比较实验表明,所提出的方法始终优于基线系统,并在两个不同禁令测试中表现出良好的泛化能力。结果表明,智能检索增强生成可以桥接开放文本法律语言和标准化指标计算,为透明且可扩展的法律观察平台奠定基础。
查看原文
查看缓存全文

缓存时间: 2026/05/27 09:09

# 从规范到指标 (N2I-RAG):一种用于法律指标计算的智能检索增强生成框架
来源:https://arxiv.org/html/2605.26926
\[1,2\]\fnm优素福\sur阿尔·穆阿塔米德

1\]\orgdivLISI实验室,\orgname卡迪·阿亚德大学,\orgaddress\city马拉喀什,\postcode40000,\country摩洛哥

2\]\orgdivLEMAR,\orgname布雷斯特大学,\orgaddress\city普卢扎内,\postcodeF-29280,\country法国

3\]\orgname法国发展研究院,布雷斯特大学,法国国家科学研究中心,法国海洋开发研究院,LEMAR,\orgaddress\city普卢扎内,\postcodeF-29280,\country法国

4\]\orgdivUMMISCO,\orgname法国发展研究院法国北部,\orgaddress\city邦迪,\postcodeF-93143,\country法国

###### 摘要

从规范性文本中计算法律指标是法律监测和政策评估中的一项关键任务,但由于法律语言的复杂性、规模性和解释性特征,以及可用文档质量的可变性,这一任务面临着重大挑战。现有的自然语言处理技术和生成模型可以辅助法律分析,但在可靠指标计算所需的可解释性和证据溯源方面,往往存在严重的幻觉风险且缺乏可信度。本文提出了N2I-RAG(从规范到指标),一个旨在以透明且可追溯的方式自动化计算法律指标的智能检索增强生成框架。我们将自适应检索、基于大语言模型的智能体和验证机制集成在一个模块化流水线中,每个组件在过滤、检索和评估证据,以及生成与可识别法律条款相关联的二元法律结果方面都执行明确的角色。该框架强调可追溯性,要求对中间决策和最终指标分配提供明确的解释。我们使用内部构建的法语海洋环境法律语料库评估了N2I-RAG,该语料库包含扫描和数字两种来源。与多个大语言模型系列的对比实验表明,所提出的方法始终优于基线系统,并且在2种不同禁令的测试中表现出良好的泛化能力。结果表明,智能检索增强生成能够弥合开放式法律语言与标准化指标计算之间的鸿沟,为透明且可扩展的法律观测站奠定了基础。

###### 关键词:

生成式AI,检索增强生成(RAG),法律指标计算,多智能体系统,可解释法律AI

## 1 引言

法律指标是量化法律实施、合规性或绩效的结构化度量,是监测治理和政策结果的分析工具。在海洋环境法等领域,法律指标为评估监管框架是否能有效应对从污染到生物多样性丧失等生态挑战提供了关键证据。它们将通常以复杂和定性术语表达的法律义务转化为标准化、可比较的指标,供政策制定者和研究人员使用。多项举措已经证明了法律指标在环境治理中的价值。例如,Michel Prieur 等人【Measuring the Effectivity of Environmental Law】基于专家调查提取的变量开发了一个环境法应用指标。然而,这些指标的构建仍然劳动密集,依赖于专家解读和广泛的文档分析。随着法律体系在范围和复杂性上的扩展,这些实践在可扩展性、一致性和透明度方面面临越来越大的局限性。这产生了对可靠且可复现的方法来大规模计算法律指标的需求。设计相关的法律指标不仅需要清晰的概念框架,还需要可复现的方法论和结果。Odeline Billant的论文【billant2023】提供了一个全面的法律指标构建框架,强调了法律规范、经验观察和操作指标之间的一致性。该框架突出了可追溯性的重要性,因为每个指标都必须有明确的文本证据支持。然而,在实践中实施该框架颇具挑战,原因在于法律文本规模庞大、异构且语言复杂。手动识别相关规范和规则既耗时又容易受到主观解读的影响。因此,通过自然语言处理技术和生成式AI自动化法律指标构建,是实现对复杂法律系统进行一致、大规模且可理解监测的关键要素。自然语言处理(NLP)在自动化法律分析方面取得了一定进展。早期工作集中在命名实体识别、文档分类和信息检索等任务上,这些任务在一定程度上实现了法律分析工作流程的部分自动化【chalkidis-etal-2020-legal, oliveira2025, wang2025, costa2025, 10.3233/FAIA230972, 10.1007/978-3-319-99722-3_32, chen-etal-2020-joint-entity, pais-etal-2021-named】。虽然这些方法支持特定的子任务,但它们通常依赖于有限的标注数据集和特定领域的规则,这限制了它们在面对新主题或语言时的泛化能力。此外,它们的系统通常作为“黑箱”运行,对其产生输出的推理过程几乎没有或完全没有提供见解。这种缺乏可解释性对于法律指标计算尤其成问题,因为透明度和论证是必不可少的。在实践中,基于法庭判决或一般立法训练的模型在应用于环境法时往往表现不佳。因此,传统的NLP在满足本语境所需的一致性、可解释性和精确性方面仍然不够充分。大型语言模型(LLMs)通过实现通用语言理解和生成,将自然语言处理提升到了另一个水平,提高了它们对法律分析的潜在贡献的期望。它们进行零样本和少样本推理的能力使其对标注数据稀缺的法律文本处理特别有吸引力【Breton2025】。然而,LLMs仍然受到其冻结训练知识、对领域特定查询泛化能力差,以及最重要的是,倾向于产生幻觉(即模型输出事实不正确的答案的现象)的限制【hal_surv, Huang_2025】。LLMs可能会自信地产生事实上不正确的陈述,缺乏最新的法律知识,或者对管辖范围的细微差别不敏感。最近的研究【RibeirodeFaria2025, youssef-llm】表明,虽然LLMs可以成为信息提取的宝贵工具,但其输出通常缺乏事实基础。这些研究表明,尽管LLMs具有卓越的语言能力,但其缺乏事实基础的性质限制了它们在计算法律指标时的可靠性,因为每个结论都必须能够追溯并由可验证的证据证明。检索增强生成(RAG)通过将模型输出建立在外部文档中来解决部分问题【rag_ref】。RAG系统不直接将事实编码到模型参数中,而是检索相关的文本片段以支持生成。然而,标准的RAG流水线遵循固定的检索和生成步骤序列【gao2024retrievalaugmentedgenerationlargelanguage】。这种僵化限制了它们动态调整查询、优化检索策略或评估中间结果可靠性的能力。因此,尽管有潜力,传统的RAG系统仍然缺乏在法律领域有效运作所需的灵活性和自适应性。这类方法在选择和评估法律文本的原因和方式方面提供了有限的控制,这限制了其对法律指标构建的适用性。基于智能体的系统的最新进展通过在这些框架中引入多个推理步骤、循环和工作流,扩展了RAG。这些增强使得智能体能够审查和优化其自身的输出。在医学领域,智能体RAG提高了事实可靠性和可解释性【zhao2025medragenhancingretrievalaugmentedgeneration】。然而,在法律领域,特别是在法律指标计算方面,尽管需要明确的证据追踪,这些方法仍然探索不足。将智能体RAG扩展到法律语境,是构建能够支持可信、可解释和自适应法律分析的AI系统的关键一步。为了解决这些局限性,本文专注于从法律规范中自动化构建法律指标。我们引入了N2I-RAG(从规范到指标),这是一个设计用于从数字化法律文档集合中计算法律指标的智能检索增强框架。它结合了多智能体协调、语义嵌入和自适应检索机制,以生成情境化和可追踪的结果。N2I-RAG将指标计算形式化为一个结构化信息提取问题,在该问题中,识别相关文本,然后将其与指标查询进行语义对齐,最后基于上下文相关性进行验证。这些信息随后以结构化和可追溯的形式综合起来,允许专家检查每个指标是如何推导出来的。这种方法旨在使法律指标计算既可自动化又可解释,弥合定性法律分析与定量监测之间的鸿沟。其架构在设计上是可解释的,其输出在操作意义上也是可解释的。系统中的每个智能体在生成输出的同时,都会提供一个明确的解释,描述获得结果所依据的推理过程,包括所使用的来源和应用的标准。在这项工作中,可解释性指的是在流水线的每个阶段都能得到解释,从而可以检查中间决策;而可理解性指的是最终输出与指标定义的一致性,以及它们与可识别的法律条款的直接关联。要求智能体产生这样的解释限制了生成过程,并支持一致且基于证据的输出。本文的主要贡献是:

1. 1. **智能体RAG架构**:一个多智能体流水线,执行自适应检索、上下文评估、查询消歧和基于证据的生成。
2. 2. **评估与案例研究**:对N2I-RAG与基线RAG系统在海洋环境法上的性能进行比较研究和分析。
3. 3. **数据集构建**:一个法语的海洋环境法律语料库,包含来自五个文集、涵盖扫描和数字两种来源的立法和法规,共计10,596条法律条款,这些条款经过结构化和索引,以支持基于检索的分析和指标构建。

总之,这些贡献展示了N2I-RAG如何支持跨复杂监管领域进行一致且透明的法律指标计算。

## 2 方法论

N2I-RAG框架将自然语言的法律查询转换为可追踪的二元决策,这些决策填充代表法律指标的评估网格。该系统通过一个结构化的多智能体流水线将文档分析与指标计算连接起来。从文本提取到决策制定的每一步都确保中间推理是可见且可验证的。如图1所示,该过程首先对文档进行OCR(光学字符识别)处理。清洁后的文本被进行语义索引,以支持精确检索。然后,一个智能推理循环处理检索、评分、生成和验证,然后返回一个二元结果。这些输出填充评估网格,其中每个条目对应一个不同的法律指标。这种设计确保了每个计算步骤保持可解释、可追踪,并满足政策和合规分析所需的法律可靠性标准。

参照图释图1:N2I-RAG框架概述### 2.1 视觉-语言处理

精确的文本提取对于下游法律分析至关重要,尤其是在源文档包含扫描件和劣质文档的情况下。许多立法文件,特别是在发展中国家,仅以低质量的扫描件形式存在,带有印章、签名或不一致的布局。传统的OCR在这些材料上通常失败,导致文本缺失或损坏。为解决此问题,N2I-RAG采用了一种基于视觉-语言模型(VLM)的混合OCR策略,该模型集成了视觉编码器与语言解码器。这使得系统能够捕获文本和视觉元素(布局、格式和内嵌元素),以便恢复完整的法律文本。该模型纠正噪声片段,忽略无关的视觉特征,并生成缺失文本。然后,每个文档被分割成法律条款,并附带一组标准化的元数据进行增强,例如司法管辖区、发布日期、修订日期、机构来源和文本类型(法律、法规、指令等)。这些条款使用BGE-M3模型【11】(一个多语言、多功能、多粒度的嵌入模型)进行编码,并在ChromaDB中进行索引以支持语义搜索。这种方法保证了即使是质量不佳的文档也能提供可用的数据,从而生成一个全面、连贯且可搜索的数据库,适用于指标生成。

### 2.2 多智能体框架

多智能体流水线将N2I-RAG的推理过程结构化为可验证的阶段。将任务分配给专门的智能体可以提高透明度并减少累积错误。每个智能体扮演一个专门且互补的角色,同时记录其推理过程,以便识别和解决错误和偏差。这种模块化结构防止了信息丢失,并降低了幻觉风险。该流水线包含八个不同的专门智能体。表1提供了这些智能体的概述、它们的作用及其交互。总的来说,这些智能体将复杂的自然语言推理转变为透明的工作流,具有事实一致性和可解释性控制。在以下小节中,我们将详细说明每个智能体如何独立工作,强调它们在控制幻觉和提高响应质量方面的具体贡献。

表1:架构中使用的智能体描述#### 2.2.1 元数据检索器

元数据检索是丰富查询和提高结果准确性的关键步骤。诸如日期、司法管辖区或主题等元数据提供了补充纯文本信息的上下文维度,并能够实现更有针对性的搜索。在我们的框架中,该模块自动识别与查询关联的元数据并将其转换为JSON格式,便于后续智能体使用。这种标准化结构确保了系统内的一致性和互操作性。因此,元数据的集成提高了检索过程的准确性和上下文相关性,为生成更合适的响应铺平了道路。

#### 2.2.2 上下文检索器

余弦相似度是自然语言处理应用中检索相关文档的一种特别合适的方法。当与ChromaDB及其HNSW(分层可导航小世界)索引结合使用时,它提供了高语义准确性和大规模优化性能的组合,从而显著提高了搜索系统的效率。该度量评估语义空间中向量的方向一致性,而不考虑其大小。

相似文章

CanLegalRAGBench: 评估加拿大判例法上的检索增强生成

arXiv cs.CL

介绍了CanLegalRAGBench,这是一个基于真实查询和专家标注答案来评估加拿大判例法上检索增强生成的基准。评估显示对设计选择敏感、开源嵌入模型具有竞争力,以及生成答案中持续存在的幻觉问题。

AgenticRAG:面向企业知识库的代理检索

arXiv cs.AI

本文介绍了 AgenticRAG,这是一个来自微软的框架,通过为大型语言模型(LLM)配备迭代搜索、文档导航和分析工具,增强了企业知识库的检索能力。它在多个基准测试中展示了相比标准 RAG 流水线在召回率和事实准确性方面的显著提升。