从一亿乌克兰法院判决自动构建法律引用图:大规模提取、拓扑分析与本体驱动聚类
摘要
本文从1.007亿份乌克兰法院判决中构建了首个大规模引用图,提取了超过5亿条引用链接。研究表明,引用结构能够自动恢复法律领域边界,并以接近完美的准确度预测立法重要性。此外,本文将处理流程和数据作为开放资源发布。
arXiv:2605.15362v1 Announce Type: new
摘要:从1.007亿份乌克兰法院判决中提取的5亿条引用边表明,司法引用结构在无监督条件下编码了法律领域边界,并以接近完美的准确度预测未来立法重要性。我们从完整的EDRSR注册库(9950万篇全文,1.1 TB)构建了首个大规模引用图,通过正则表达式在商用硬件上约5小时内提取了502百万条六种类型的引用链接,在200份判决的验证样本上精确度为1.00(95% Wilson CI:[0.982, 1.000])。
三个主要发现如下:(1)度分布遵循幂律(alpha = 1.57 ± 0.008),使乌克兰法院网络接近欧盟法院,低于美国最高法院,枢纽文章被数百万判决引用。(2)在共引投影上使用Louvain社区检测恢复了法律领域边界(民事、刑事、行政、商事),模块度Q = 0.44-0.55,时间稳定性(跨时期的NMI = 0.83-0.86),构成了一个基于司法实践自动构建的法律本体。(3)引用特征预测前1000篇文章的AUC = 0.9984,显著优于朴素频率基线(P@1000 = 0.655);时间动态检测到立法制度变化作为相变,2022年入侵作为引用熵峰值(H:11.02 -> 13.49),并出现战时立法节点。
该引用衍生的本体被实现为用于LLM辅助法律分析的工作流记忆系统的领域层,连接至本体控制范式。提取流程、分析代码和聚合统计数据已作为开放数据发布。
查看缓存全文
缓存时间: 2026/05/18 06:30
# 从1亿乌克兰法院判决自动构建法律引用图:大规模提取、拓扑分析与本体驱动的聚类 来源:https://arxiv.org/html/2605.15362 ###### 摘要 从1.007亿份乌克兰法院判决中提取的5亿条引用边表明,司法引用结构可以在无监督条件下编码法律领域边界,并以接近完美的准确率预测未来的立法重要性。我们首次从完整的EDRSR登记簿(9950万份全文,1.1TB)构建大规模引用图,在普通硬件上通过正则表达式在约5小时内提取了5.02亿条六种类型的引用链接,在200份判决的验证样本上精确度为1.00。 出现了三个主要发现。(1) 度分布遵循幂律(α=1.57),将乌克兰法院网络置于印度最高法院和欧盟法院之间,枢纽文章被数百万份判决引用。(2) 在共引投影上进行的Louvain社区检测恢复了法律领域边界(民事、刑事、行政、商业),模块度Q=0.44–0.55,且时间稳定性高(跨时期的NMI=0.83–0.86),构成了一个基于司法实践的自动构建法律本体。(3) 引用特征预测前1000篇文章的AUC=0.9984;时间动态将立法制度变迁检测为相变,并将2022年入侵检测为引用熵峰值(H:11.02→13.49),伴随战时立法节点的涌现。 引用衍生的本体被实例化为用于LLM辅助法律分析的工作流记忆系统的领域层[14 (https://arxiv.org/html/2605.15362#bib.bib5)],连接到本体控制范式[16 (https://arxiv.org/html/2605.15362#bib.bib1),17 (https://arxiv.org/html/2605.15362#bib.bib4)]。提取管道、分析代码和聚合统计数据作为开放数据发布。 关键词:法律引用图,法院判决,乌克兰法律,本体构建,知识抽取,EDRSR,网络分析,法律NLP ## 1 引言 统一国家法院判决登记册(EDRSR, *Єдиний державний реєстр судових рішень*)是欧洲大陆最大的开放司法语料库。它根据2006年乌克兰法律建立,要求所有法院判决在作出后五天内公布。截至2026年5月,该登记册包含1.014亿份判决记录,其中1.007亿份包含全文,涵盖所有司法审级和所有司法分支——民事、刑事、商业、行政和宪法。 这个语料库在计算法律分析方面基本上未被开发。先前关于法律引用网络的工作主要集中在普通法和北欧司法管辖区——美国最高法院[6 (https://arxiv.org/html/2605.15362#bib.bib9)]、荷兰判例法[21 (https://arxiv.org/html/2605.15362#bib.bib12)]、丹麦法院[11 (https://arxiv.org/html/2605.15362#bib.bib11)]——在这些地方,明确的引用惯例(案件名称、判例汇编卷号)使提取变得简单。大陆法系,包括乌克兰,提出了不同的挑战:引用是针对立法条文而非先例,引用格式不一致(缩写、乌克兰语形态、各种法典名称),而且判决数量庞大(自2017年以来每年超过800万份)需要工业规模的处理。 以前没有工作尝试在1亿判决的规模上为任何司法管辖区进行引用提取。 本文做出三项贡献: 1. 1. 大规模引用提取。一个基于正则表达式的管道,识别乌克兰法律文本中的六种引用类型,在单个16核生产服务器上约5小时内处理1.007亿份判决(1.1TB全文)。该管道产生5.02亿条引用边,在200份手动标注的判决样本上精确度为100%。 2. 2. 引用图的拓扑分析。我们分析生成的双部图(判决↔立法)及其投影。立法侧投影揭示了与已建立的法律领域相对应的社区结构,无需监督。时间分析显示引用密度变化与重大立法改革(2004年民法典通过、2012年刑事诉讼法典、2017年司法改革)相一致。 3. 3. 引用衍生的法律本体。共引聚类产生了一个自动构建的法律本体:一组立法条文,由于法院一起引用它们而在语义上相关。该本体被部署为配套论文[14 (https://arxiv.org/html/2605.15362#bib.bib5)]中描述的工作流记忆系统的领域层,实现了Palagin [16 (https://arxiv.org/html/2605.15362#bib.bib1)]的本体控制范式,使用的是数据派生而非手动策划的结构。 这项工作延续了两条研究路线。首先,Palagin等人的知识提取计划[15 (https://arxiv.org/html/2605.15362#bib.bib2)],该计划提出了从自然语言文本中提取结构化知识的方法——这里应用于1亿份法律文本,规模是乌克兰NLP社区以前从未尝试过的。其次,Palagin等人的分布语义建模方法[18 (https://arxiv.org/html/2605.15362#bib.bib3)],该方法使用共现模式训练术语向量空间——这里实例化为共引模式,这些模式定义了立法相似性,无需嵌入模型或标注数据。 与本体控制系统范式的连接[16 (https://arxiv.org/html/2605.15362#bib.bib1),17 (https://arxiv.org/html/2605.15362#bib.bib4)]是结构性的:引用图提供了本体控制LLM系统所需的、将其法律推理扎根于法令结构的数据层。关于监督控制系统的配套论文[13 (https://arxiv.org/html/2605.15362#bib.bib6)]形式化了人类对LLM输出的校正构成有效训练信号的条件;引用图提供了使这些校正有根据而非任意的领域知识。 ## 2 相关工作 ### 2.1 法律引用网络分析 Fowler等人[6 (https://arxiv.org/html/2605.15362#bib.bib9)]开创了法律引用网络分析,构建了美国最高法院判决(1791–2005年,约30,000份判决)的引用图,并展示了网络中心性度量(PageRank、枢纽/权威分数)比简单的引用计数更好地预测法律重要性。随后的工作将这种方法扩展到荷兰法律体系[21 (https://arxiv.org/html/2605.15362#bib.bib12),7 (https://arxiv.org/html/2605.15362#bib.bib10)]和丹麦法院[11 (https://arxiv.org/html/2605.15362#bib.bib11)]。时间法律网络分析已由Coupette等人[5 (https://arxiv.org/html/2605.15362#bib.bib20)]探索,他们测量了美国和德国法令网络中的监管演化。Mazzega等人[9 (https://arxiv.org/html/2605.15362#bib.bib21)]构建了法国法典网络,为我们的工作提供了大陆法系先例。 所有先前的工作都在10^3到10^5份判决的规模上进行。EDRSR语料库大三个数量级(10^8),需要不同的工程方法:分区并行处理、服务器端游标和流式聚合。更根本的是,乌克兰法律体系是大陆法系(民法法系),其中主要的引用关系是判决→立法,而不是普通法系中的判决→判决。这产生了一个双部图而不是单部图,具有不同的拓扑性质。 ### 2.2 从法律文本中提取知识 Palagin等人[15 (https://arxiv.org/html/2605.15362#bib.bib2)]提出一个从乌克兰语文本中提取结构化知识的框架,结合了形态分析和领域特定本体。该框架在科学和技术语料库上得到了展示,但未在大规模法律文本上应用。Palagin等人[18 (https://arxiv.org/html/2605.15362#bib.bib3)]通过分布语义建模扩展了这一路线,从领域特定语料库中的共现模式训练术语向量空间。 我们的方法是将这一计划直接应用于法律领域:1亿份法院判决中的共引模式定义了立法条文的分布语义,其中如果法院在同一判决中引用两条条文,则它们“相似”。这不需要标注数据、嵌入模型或形态分析——引用结构本身编码了语义关系。 ### 2.3 法律NLP与信息提取 现代法律NLP主要集中在基于transformer的模型:LEGAL-BERT[3 (https://arxiv.org/html/2605.15362#bib.bib7)]和LexNLP[2 (https://arxiv.org/html/2605.15362#bib.bib8)]。这些方法需要标注的训练数据,是语言特定的,并且操作于单个文档而非语料库范围的结构。 我们的基于正则表达式的方法故意简单:它以召回率换取精确度和可解释性,并且随语料库大小线性扩展。对于乌克兰法律文本中立法引用提取的特定任务,引用的结构化格式(“ст. 625 ЦК України”,“стаття 3 Закону України «Про ...»”)使得正则表达式提取与学习模型相比具有竞争力,同时速度快几个数量级。 ### 2.4 从文本构建本体 本体控制系统范式[16 (https://arxiv.org/html/2605.15362#bib.bib1)]需要一个领域本体来结构化系统行为。传统的本体构建是手动且昂贵的。Palagin等人[17 (https://arxiv.org/html/2605.15362#bib.bib4)]表明,本体控制提示提高了LLM在领域特定任务上的输出质量,但假设存在预先存在的本体。 引用图聚类提供了一种替代方案:本体是从使用数据中*派生*的,而不是由专家构建的。这类似于语义学中的分布假说——“从与其相伴的词了解一个词”[18 (https://arxiv.org/html/2605.15362#bib.bib3)]——应用于法令层面:*从引用它的判决了解一部法律*。 ## 3 数据 ### 3.1 EDRSR语料库 统一国家法院判决登记册[19 (https://arxiv.org/html/2605.15362#bib.bib15)]根据乌克兰法律第3262-IV号(2005年12月22日)建立,自2006年6月1日起运行。乌克兰所有法院都必须提交判决以供发布。 表1:截至2026年5月13日的EDRSR语料库统计。数据存储在PostgreSQL 15数据库中,按判决年份分区(edrsr_fulltext_p_YYYY)。单个分区大小从443 MB(2009年)到116 GB(2024年)。通过tsvector列支持全文搜索;justice_kind列编码司法分支(1=民事,2=刑事,3=商业,4=行政,5=宪法)。 ### 3.2 立法语料库 引用图的立法侧来自两个来源:最高拉达(议会)立法数据库[20 (https://arxiv.org/html/2605.15362#bib.bib16)](通过API at zakon.rada.gov.ua访问),以及包含来自主要法典和法律的13,616条解析条文的本地legislation_articles表。 18部法典(民法典、刑法典、商业法典等)构成了最密集的引用目标。命名法律(“Закон України «Про ...»”)形成一个更长的尾部分布。 ## 4 方法 ### 4.1 引用提取管道 提取管道逐个分区处理edrsr_fulltext表,使用Python多进程和服务器端PostgreSQL游标。 通过编译的正则表达式提取六种引用类型: 1. 1. 法典条文引用(例如,“ст. 625 ЦК України”,“частина 1 статті 3 КАС України”)。识别18种法典缩写(ЦК, КК, ГК, ГПК, КПК, КАС, ЦПК, КЗпП, СК, ЗК, ПК, МК, БК, ВК, ЛК, ЖК, КУпАП, КАСУ),可选“України”后缀。条文编号范围(“статті 3, 5, 7–9 та 12”)展开为单个引用。 2. 2. 命名法律引用(例如,“стаття 3 Закону України «Про ринок електричної енергії»”)。从乌克兰语引号或法律编号中捕获法律名称。 3. 3. 宪法引用(例如,“стаття 124 Конституції України”)。由于宪法的独特结构作用而单独处理。 4. 4. 跨案件引用(例如,“справа No 200/1234/24”)。捕获标准乌克兰格式NNN/NNNNN/YY的案件编号。 5. 5. 按编号法律引用(例如,“Закон України від 01.01.2020 No 123-IX”)。捕获法律注册编号,可选罗马数字后缀。 6. 6. 最高法院裁决引用(例如,“постанова Великої Палати ВС”,“постанова Пленуму Верховного Суду”)。二进制检测,无条文级别粒度。 图1 (https://arxiv.org/html/2605.15362#S4.F1)显示了所有5.02亿条边在六种引用类型中的分布。 78.86% 13.15% 5.79% 1.11% 0.6% 0.49% 按编号法律 最高法院裁决 宪法 法律条文 案件引用 法典条文 0M 100M 200M 300M 400M 引用边(百万) 图1:5.02亿条引用边按类型分布。法典条文占主导(78.9%);跨案件引用占13.2%。 管道架构: - • 分区:每个年份分区独立处理。最大分区(2024年,116 GB,约800万行)分为50,000行块。 - • 并行性:ProcessPoolExecutor,2个工作进程(为生产工作负载保留2个CPU)。每个工作进程打开自己的数据库连接,使用命名的服务器端游标。 - • 写入路径:提取的引用通过psycopg2.extras.execute_values批量插入,使用ON CONFLICT DO NOTHING实现幂等性。 - • 优先级:进程以nice -n 10运行,将CPU让给生产查询。 图2 (https://arxiv.org/html/2605.15362#S4.F2)显示提取吞吐量随语料库大小线性扩展:管道在16核服务器(AMD Ryzen, 128 GB RAM)上跨分区一致地处理200,000行/秒,总提取在大约5小时内完成。每判决引用比从1.04(2007年)缓慢增加到1.42(2025年),反映了法律论证日益增长的复杂性。 2007 2008 2009 2010 2011 2012 2013 2014 2015 2016 2017 2018 2019 2020 2021 2022 2023 2024 2025 0M 20M 40M 60M 0M 2.5M 5M 7.5M 每年判决数 每年引用数 图2:每年提取的引用数与处理的判决数。接近线性的关系证实提取吞吐量随语料库大小可预测地扩展。异常值(2007年,2016年)反映数字化批量导入。 ### 4.2 图构建 原始提取输出是一组四元组 (decision_id, citation_type, law_ref, article_ref)。我们构建三种图表示: #### 双部引用图 G_B = (D ∪ L, E)。 节点是判决 (D) 和立法条文 (L)。如果判决 d 引用立法条文 l,则存在边 (d, l) ∈ E。边权重为 l 在 d 中被引用的次数(通常为1,但条文可能在判决的不同部分被多次引用)。 #### 立法共引投影 G_L = (L, E_L)。 两条立法条文 l1, l2 ∈ L 由一条边连接,边权重等于同时引用它们的判决数。形式化地:w(l1, l2) = |N(l1) ∩ N(l2)|
相似文章
UA-Legal-Bench:评估大语言模型在乌克兰法律推理能力的基准
介绍了UA-Legal-Bench,这是一个基于统一国家法院判决登记册构建的、用于评估大语言模型在乌克兰法律推理能力的五项任务基准。评估了11个LLM,揭示了任务相关的少样本效应以及在不平衡法律任务中准确率的误导性。
通过检索、聚类和生成从案例数据库生成法律评注
本文提出了一种完全自动化的流程,通过提取、聚类和总结段落级块(使用LLM),将法院判决转化为法律评注,并在德国民法典案例上进行了评估。
研究图谱:引文演化图作为研究想法生成的监督信号
提出研究图谱(GoR),一种监督微调方法,利用引文演化图作为监督信号,用于基于大语言模型的研究想法生成,在基于gpt-4o的基线上取得了最先进的结果。
LLM如何决定引用哪些页面——以及如何优化
本文阐述了 ChatGPT 和 Perplexity 等模型如何选择引用来源,并指出结构化标记(JSON-LD)能够通过提升信息提取效率,将引用率从 16% 大幅跃升至 54%。
法律判决预测中的时间概念漂移:基于乌克兰法院判决三个时期的神经基线
本文通过在地缘政治动荡定义的三个时期的乌克兰法院判决上微调Transformer模型,研究法律判决预测中的时间概念漂移。发现显示严重的前向退化、反向迁移的不对称性,以及按时间顺序的持续学习有效缓解遗忘,而领域预训练降低退化幅度。