德国法律法规的分块策略
摘要
本文评估了针对德国法律法规的检索增强生成中的多种分块策略,发现与结构对齐的方法(如基于章节的检索)优于更复杂的方案。
arXiv:2605.19806v1 Announce Type: new
摘要:本文研究了针对德国成文法的检索增强生成中的分块策略,以德国民法典作为结构化基准语料库。我们实现并比较了一系列分割方法,包括结构单元(章节、小节、句子、命题)、固定大小窗口、上下文分块、语义聚类、Lumber式分块以及基于RAPTOR的层次化检索。所有方法均在具有章节级别标准答案的法律问答数据集上进行了评估,衡量了召回率、查询延迟、索引构建时间和存储需求。结果表明,与法律固有结构对齐的分块策略——尤其是基于章节和小节的检索——实现了最高的召回率,而覆盖这种结构的更复杂方法表现更差。这些较简单的方法在计算效率上也优于依赖大语言模型的技术(如上下文分块、RAPTOR和Lumber)。研究结果凸显了语义增强与运营成本之间的关键权衡,并表明保留领域特定结构对于有效的法律信息检索至关重要。
查看缓存全文
缓存时间: 2026/05/20 08:27
# 德国法律文本的分块 来源:https://arxiv.org/html/2605.19806 \copyrightclause 本文版权归作者所有。根据知识共享署名4.0国际许可协议(CC BY 4.0)允许使用。 \conference ASAIL 2026:第8届法律文本信息自动语义分析研讨会,2026年6月8日至12日,新加坡 [orcid=0009-0005-7066-996X, [email protected], ] [orcid=0009-0003-5644-6466, [email protected], ] [orcid=0009-0002-2893-748X, [email protected], ] Natalia MilanovaAndreas Schultz (2022) ###### 摘要 本文研究了针对德国成文法进行检索增强生成的分块策略,以德国民法典作为结构化的基准语料库。我们实现并比较了一系列分割方法,包括结构单元(节、小节、句子、命题)、固定大小窗口、上下文分块、语义聚类、Lumber风格分块以及基于RAPTOR的分层检索。所有方法均在一个带有节级黄金标签的法律问答数据集上进行了评估,衡量了召回率、查询延迟、索引构建时间和存储需求。结果表明,与法律固有结构对齐的分块策略——尤其是基于节和小节的检索——实现了最高的召回率,而覆盖这种结构的更复杂方法表现更差。与上下文分块、RAPTOR和Lumber等重度依赖LLM的技术相比,这些更简单的方法还具有更好的计算效率。研究结果突显了语义丰富性与操作成本之间的关键权衡,并表明保留领域特定结构对于有效的法律信息检索至关重要。 ###### 关键词: 大型语言模型\sep分块\sep排序\sep检索\sep法律问答 ## 1 引言 大型语言模型(LLM)在法律服务中的应用越来越广泛。根据2025年汤森路透关于生成式AI的报告[thomsonreuters2025genai_profservices],法律实务中采用LLM驱动工具的比例几乎翻了一番,从2024年的14%增长到2025年的26%。在活跃用户中,40%每天依赖这些工具,且主要应用于法律研究(73%)等领域。 这种日益增长的采用率促使人们研究如何优化LLM用户体验,特别是减少幻觉。检索增强生成(RAG)系统通过向模型提供相关的支持文档来解决这一问题[gao2024retrievalaugmentedgenerationlargelanguage]。冗余的信息会挤占有限的上下文窗口并分散模型注意力。此外,过载的上下文常常导致“中间迷失”现象[liu2024lost],即模型不成比例地关注提示的开头和结尾,而部分忽略中间细节。保持检索到的上下文既小又相关有助于缓解这个问题。 有效的分块为这一检索挑战提供了解决方案。通过将文档分割成更小、可嵌入的片段,这些分块作为键来检索完整、相关的上下文以用于生成。为了评估对德国法律法典的分块,我们使用了德国民法典(Bürgerliches Gesetzbuch, BGB)。BGB是德国民法的核心法典,自1900年起生效,涵盖合同法、财产法、家庭法和继承法等核心领域。其长期存在的结构、广泛的范围以及在法律实践中的核心地位,使其成为评估成文法分块策略的代表性语料库。我们将BGB语料库划分为节单元,作为检索的目标文档,并将这些节进一步细分为更细的索引分块。索引是一个可搜索的密集向量嵌入数据库,代表分割后的法律文本。它使检索系统能够通过相似性搜索高效地识别和提取给定查询最语义相关的文本单元。我们针对一个德国法律问答数据集[buttner-habernal-2024-answering]评估了最先进的分块方法。 分块引入了权衡。与依赖模型的参数化知识相比,集成检索过程增加了延迟,对在线用户体验产生负面影响。此外,这些索引的离线构建计算耗时较长,并且在不同分块方法间差异很大。除了延迟和构建时间之外,生成的索引还需要持久的内存存储。鉴于近期磁盘存储价格飙升[james2025ai],最小化这些检索索引的空间消耗已成为一个关键的操作因素。因此,我们评估了每种分块方法相关的检索正确性、延迟和存储需求。 ### 贡献 首先,我们实现并调整了针对德国法律定制的最先进分块方法。其次,我们进行了测量检索正确性、查询延迟和空间消耗的实验。我们的分析揭示了检索性能的显著差异,为在法律检索架构中平衡准确性和效率提供了见解。 ## 2 背景 ### 2.1 检索增强生成 在检索增强生成中,输入被编码,通过最大内积搜索从密集向量索引中检索出前k个固定分块,这意味着索引和检索的单元是相同的[NEURIPS2020_6b493230]。超越传统的固定大小分割,[duarte2024lumberchunkerlongformnarrativedocument]引入了LumberChunker,它使用LLM动态识别语义边界,生成可变长度的分块,这些分块能更好地捕捉连贯、上下文完整的想法。虽然LumberChunker优化了分块边界,但[chen-etal-2024-dense]研究了检索粒度本身,证明索引更细粒度的原子单元(如句子和命题)通过提供更高的信息密度,提高了检索准确性和下游问答性能。为了管理由此产生的多样化或细粒度分块的搜索空间,密集分层检索(DHR)引入了一个两阶段流水线,其中文档级检索器先修剪不相关的文档,然后段落级检索器对证据进行重新排序[liu-etal-2021-dense-hierarchical]。为了推广这种分层方法,RAPTOR递归地聚类和总结语义相关的分块,自底向上构建成一棵树,从而实现从细粒度叶子节点到高层次摘要的多个抽象级别的检索——这对于长文档和复杂的全局查询尤其有效[sarthi2024raptorrecursiveabstractiveprocessing]。 ### 2.2 计算和存储权衡 虽然高级分割方法,如上下文分块[anthropic_contextual_retrieval_2024]和动态边界检测[duarte2024lumberchunkerlongformnarrativedocument],提高了检索准确性,但引入了大量的计算开销。在离线索引阶段,使用LLM处理大型法律语料库会显著增加构建时间和空间消耗。在处理查询时,与平面最大内积搜索相比,多阶段检索流水线和分层树遍历可能会提高在线查询延迟。因此,评估检索系统需要在索引的语义丰富性与其操作效率和存储占用之间取得平衡。 ### 2.3 法律信息检索中的挑战 成文法,如BGB,与通用领域语料库不同,其方式给标准检索系统带来了结构和语义上的挑战。 首先,成文法文本按照有意的层级结构组织。具体结构因语料库而异。BGB分为编(Bücher)、章(Abschnitte)、节(Titel)和子节(Untertitel)。它包含大约2,400条(Paragraphen),每条用“§”表示。每一条通常由一个或多个款(Absätze)和句子(Sätze)组成。为简化起见,我们不再进一步分解条的结构(如子句、编号、文字)。一条通常包含一个或多个法律规范,结构为一组条件(Tatbestand)导致一个法律后果(Rechtsfolge)。例如,§ 433 BGB将买卖合同产生的义务分配在两个款中:第1款中的卖方义务和第2款中的买方义务。一条内的款也常常将基本规则与例外、限定或程序变体分开。例如,§ 122 BGB第1款规定,成功撤销意思表示的人必须赔偿另一方信赖损失,而第2款则排除了在受害方知道或应当知道撤销理由的情况下的责任。 其次,法律规定存在密集的交叉引用,并且引用有多种形式。显式引用直接指明目标条款,如§ 437 BGB,它通过引用——包括——§§ 439、440、441、323和326 BGB来列举买方在瑕疵情况下的救济措施。隐式引用通过法律术语而非引用条款来调用目标条款。例如,对“消费者”的引用预设了§ 13 BGB中的法律定义而不提及它。引用还可以是内部的,指向同一语料库(此处为BGB)中的其他条款,或是外部的,指向其他语料库中的条款。条内引用也很常见,即一个款引用同一条的另一款。 第三,法律规定使用特征密集且高度具体的语言。单个词可能具有决定性的法律分量。例如,``unverzüglich''(“毫不迟延”)和`sofort`(“立即”)的区别改变了像§ 121 BGB这样的条款关于撤销某些——否则具有法律约束力的——意思表示的期限的法律后果。 传统的固定大小分块常常切断这些精确的法律边界,导致关键上下文的丢失。因此,需要尊重自然法律边界的专门分割策略,如款和单个法律命题,以尽可能多地保留法律含义,从而进行准确的下游问答。 ## 3 分块策略 本节描述我们在实验中评估的分块策略。我们首先介绍保留结构的基线方法,将BGB分割成节、小节、句子或命题。然后,我们将这些基线方法与修改或聚合这些单元的方法进行比较,包括固定大小窗口、Lumber风格、上下文分块、语义聚类和基于RAPTOR的分层检索。在所有策略中,索引的单元可能不同,但评估始终在父节级别进行:检索到的分块、聚类或摘要节点被映射回它们来源的BGB条。 #### 小节、句子和固定大小分割 以下展示了§ 535 BGB(租赁协议的内容和主要义务)在固定大小、小节和句子级别上的分解。(1)和(2)表示小节的开始;S标记句子分块。与传统的德国法律引用风格不同,我们在整个条中连续编号句子,以反映分块系统的内部表示。 > (1)S1 租赁协议赋予出租人一项义务,即在租赁期内授予承租人使用租赁财产的权利。S2 出租人应当将租赁财产提供给承租人,使其处于符合合同约定的适用状态,并在租赁期内保持该状态。S3 出租人应承担与租赁财产相关的所有费用。(2)S4 承租人有义务向出租人支付约定的租金。 小节分块正好返回两个块。句子分块返回四个带标签的单元S1–S4。固定大小分块忽略这些法律边界。在固定大小设置中,相同的规定被示意性地捕捉为重叠的固定长度窗口F1-F2: > F1 (1)S1 租赁协议赋予出租人一项义务,即在租赁期内授予承租人使用租赁财产的权利。S2 出租人应当将租赁财产提供给承租人,使其处于符合合同约定的适用状态,并在租赁期内保持此 F2 处于符合合同约定的适用状态,并在租赁期内保持此状态。S3 出租人应承担与租赁财产相关的所有费用。(2)S4 承租人有义务向出租人支付约定的租金。 这种分割方法保证了统一的分块大小,但经常在句子中间切断法律上下文,迫使检索系统依赖滑动重叠来捕捉跨相邻窗口的完整陈述。 #### 命题分块 命题分块[chen-etal-2024-dense]尽可能地将一个小节或句子分解成更小的、独立的陈述。以下示例取自§ 433 (1) S1 BGB(买卖合同典型的合同义务)。如果无法进一步分解,则句子或小节保持不变。 > 原句:根据买卖合同,物的卖方有义务将物交付给买方,并为买方取得物的所有权。 > 命题1:根据买卖合同,物的卖方有义务将物交付给买方。 > 命题2:根据买卖合同,物的卖方有义务为买方取得物的所有权。 该句子被分割成两个命题,每个命题表达一个单一的法律义务。一般来说,每个命题保留原规范的条件,并分离出其法律后果之一。如果句子只表达一个独立的陈述,则保持原样,生成的命题与句子本身一致。所有实验均使用三种索引粒度进行:小节、句子和命题。除非另有说明,每种方法都分别对这三种粒度进行评估。在下文中,我们将这些称为*基本单元*。 #### Lumber风格分块 Lumber风格分块[duarte2024lumberchunkerlongformnarrativedocument]将文本转换为基本单元(例如,命题)的连续流。从当前位置开始,单元被累积到固定的令牌数上限,并传递给LLM,该LLM预测第一节开始位置,*下一个*分块应从此开始。所有前面的单元形成一个分块;如果没有预测到更早的分割,则保留整个组。结果是动态的多单元分块,而检索则扩展回其父节。由于这些分块可能跨越多个检索单元,单个检索到的单元可能映射到多个不同的父节。 取自§§ 111–113 BGB的一个示例产生了两个分块,边界跨越了§ 112: > Lumber分块 L1 § 111 BGB(单方法律行为)S1 未成年人在没有法定代理人必要同意的情况下进行的单方法律行为无效。S2 如果未成年人就他人进行此类法律行为并征得此同意,如果未成年人未以书面形式出示同意,并且他人因此理由无
相似文章
通过检索、聚类和生成从案例数据库生成法律评注
本文提出了一种完全自动化的流程,通过提取、聚类和总结段落级块(使用LLM),将法院判决转化为法律评注,并在德国民法典案例上进行了评估。
低资源语言农业文档中有效文本嵌入的分块策略评估
本文评估了四种用于高棉语农业文档检索增强生成(RAG)的文本分块策略,发现基于字符的递归分块(300字符)在检索和相关性方面表现最佳。
面向检索增强生成的查询自适应语义分块:一种结合上下文窗口扩展的动态策略
提出了一种面向检索增强生成的查询自适应语义分块方法,通过上下文窗口扩展动态调整分块边界,以提升检索精度。
Adaptive Chunking:为RAG优化分块方法选择
介绍Adaptive Chunking,一个利用五项文档内在指标为RAG选择最佳分块策略的框架,将答案正确率从62-64%提升至72%,并将问题解决率提高超过30%。
Web Retrieval-Aware Chunking (W-RAC):高效且经济高效的检索增强生成系统分块方法
W-RAC 提出了一种针对 RAG 系统中网页文档处理的经济高效的分块框架,通过结构化内容表示和检索感知的分组决策,将 LLM 令牌使用量降低一个数量级。该方法将文本提取与语义分块规划解耦,在实现与传统分块方法相当或更好的检索性能的同时,最大限度地降低了幻觉风险。