从一亿乌克兰法院判决自动构建法律引用图：大规模提取、拓扑分析与本体驱动聚类

arXiv cs.CL 2026/05/18 04:00 论文

摘要

本文从1.007亿份乌克兰法院判决中构建了首个大规模引用图，提取了超过5亿条引用链接。研究表明，引用结构能够自动恢复法律领域边界，并以接近完美的准确度预测立法重要性。此外，本文将处理流程和数据作为开放资源发布。

arXiv:2605.15362v1 Announce Type: new 摘要：从1.007亿份乌克兰法院判决中提取的5亿条引用边表明，司法引用结构在无监督条件下编码了法律领域边界，并以接近完美的准确度预测未来立法重要性。我们从完整的EDRSR注册库（9950万篇全文，1.1 TB）构建了首个大规模引用图，通过正则表达式在商用硬件上约5小时内提取了502百万条六种类型的引用链接，在200份判决的验证样本上精确度为1.00（95% Wilson CI：[0.982, 1.000]）。三个主要发现如下：（1）度分布遵循幂律（alpha = 1.57 ± 0.008），使乌克兰法院网络接近欧盟法院，低于美国最高法院，枢纽文章被数百万判决引用。（2）在共引投影上使用Louvain社区检测恢复了法律领域边界（民事、刑事、行政、商事），模块度Q = 0.44-0.55，时间稳定性（跨时期的NMI = 0.83-0.86），构成了一个基于司法实践自动构建的法律本体。（3）引用特征预测前1000篇文章的AUC = 0.9984，显著优于朴素频率基线（P@1000 = 0.655）；时间动态检测到立法制度变化作为相变，2022年入侵作为引用熵峰值（H：11.02 -> 13.49），并出现战时立法节点。该引用衍生的本体被实现为用于LLM辅助法律分析的工作流记忆系统的领域层，连接至本体控制范式。提取流程、分析代码和聚合统计数据已作为开放数据发布。

查看原文

查看缓存全文

缓存时间: 2026/05/18 06:30

# 从1亿乌克兰法院判决自动构建法律引用图：大规模提取、拓扑分析与本体驱动的聚类
来源：https://arxiv.org/html/2605.15362
###### 摘要

从1.007亿份乌克兰法院判决中提取的5亿条引用边表明，司法引用结构可以在无监督条件下编码法律领域边界，并以接近完美的准确率预测未来的立法重要性。我们首次从完整的EDRSR登记簿（9950万份全文，1.1TB）构建大规模引用图，在普通硬件上通过正则表达式在约5小时内提取了5.02亿条六种类型的引用链接，在200份判决的验证样本上精确度为1.00。

出现了三个主要发现。(1) 度分布遵循幂律（α=1.57），将乌克兰法院网络置于印度最高法院和欧盟法院之间，枢纽文章被数百万份判决引用。(2) 在共引投影上进行的Louvain社区检测恢复了法律领域边界（民事、刑事、行政、商业），模块度Q=0.44–0.55，且时间稳定性高（跨时期的NMI=0.83–0.86），构成了一个基于司法实践的自动构建法律本体。(3) 引用特征预测前1000篇文章的AUC=0.9984；时间动态将立法制度变迁检测为相变，并将2022年入侵检测为引用熵峰值（H:11.02→13.49），伴随战时立法节点的涌现。

引用衍生的本体被实例化为用于LLM辅助法律分析的工作流记忆系统的领域层[14 (https://arxiv.org/html/2605.15362#bib.bib5)]，连接到本体控制范式[16 (https://arxiv.org/html/2605.15362#bib.bib1),17 (https://arxiv.org/html/2605.15362#bib.bib4)]。提取管道、分析代码和聚合统计数据作为开放数据发布。

关键词：法律引用图，法院判决，乌克兰法律，本体构建，知识抽取，EDRSR，网络分析，法律NLP

## 1 引言

统一国家法院判决登记册（EDRSR, *Єдиний державний реєстр судових рішень*）是欧洲大陆最大的开放司法语料库。它根据2006年乌克兰法律建立，要求所有法院判决在作出后五天内公布。截至2026年5月，该登记册包含1.014亿份判决记录，其中1.007亿份包含全文，涵盖所有司法审级和所有司法分支——民事、刑事、商业、行政和宪法。

这个语料库在计算法律分析方面基本上未被开发。先前关于法律引用网络的工作主要集中在普通法和北欧司法管辖区——美国最高法院[6 (https://arxiv.org/html/2605.15362#bib.bib9)]、荷兰判例法[21 (https://arxiv.org/html/2605.15362#bib.bib12)]、丹麦法院[11 (https://arxiv.org/html/2605.15362#bib.bib11)]——在这些地方，明确的引用惯例（案件名称、判例汇编卷号）使提取变得简单。大陆法系，包括乌克兰，提出了不同的挑战：引用是针对立法条文而非先例，引用格式不一致（缩写、乌克兰语形态、各种法典名称），而且判决数量庞大（自2017年以来每年超过800万份）需要工业规模的处理。

以前没有工作尝试在1亿判决的规模上为任何司法管辖区进行引用提取。

本文做出三项贡献：

1. 1. 大规模引用提取。一个基于正则表达式的管道，识别乌克兰法律文本中的六种引用类型，在单个16核生产服务器上约5小时内处理1.007亿份判决（1.1TB全文）。该管道产生5.02亿条引用边，在200份手动标注的判决样本上精确度为100%。
2. 2. 引用图的拓扑分析。我们分析生成的双部图（判决↔立法）及其投影。立法侧投影揭示了与已建立的法律领域相对应的社区结构，无需监督。时间分析显示引用密度变化与重大立法改革（2004年民法典通过、2012年刑事诉讼法典、2017年司法改革）相一致。
3. 3. 引用衍生的法律本体。共引聚类产生了一个自动构建的法律本体：一组立法条文，由于法院一起引用它们而在语义上相关。该本体被部署为配套论文[14 (https://arxiv.org/html/2605.15362#bib.bib5)]中描述的工作流记忆系统的领域层，实现了Palagin [16 (https://arxiv.org/html/2605.15362#bib.bib1)]的本体控制范式，使用的是数据派生而非手动策划的结构。

这项工作延续了两条研究路线。首先，Palagin等人的知识提取计划[15 (https://arxiv.org/html/2605.15362#bib.bib2)]，该计划提出了从自然语言文本中提取结构化知识的方法——这里应用于1亿份法律文本，规模是乌克兰NLP社区以前从未尝试过的。其次，Palagin等人的分布语义建模方法[18 (https://arxiv.org/html/2605.15362#bib.bib3)]，该方法使用共现模式训练术语向量空间——这里实例化为共引模式，这些模式定义了立法相似性，无需嵌入模型或标注数据。

与本体控制系统范式的连接[16 (https://arxiv.org/html/2605.15362#bib.bib1),17 (https://arxiv.org/html/2605.15362#bib.bib4)]是结构性的：引用图提供了本体控制LLM系统所需的、将其法律推理扎根于法令结构的数据层。关于监督控制系统的配套论文[13 (https://arxiv.org/html/2605.15362#bib.bib6)]形式化了人类对LLM输出的校正构成有效训练信号的条件；引用图提供了使这些校正有根据而非任意的领域知识。

## 2 相关工作

### 2.1 法律引用网络分析

Fowler等人[6 (https://arxiv.org/html/2605.15362#bib.bib9)]开创了法律引用网络分析，构建了美国最高法院判决（1791–2005年，约30,000份判决）的引用图，并展示了网络中心性度量（PageRank、枢纽/权威分数）比简单的引用计数更好地预测法律重要性。随后的工作将这种方法扩展到荷兰法律体系[21 (https://arxiv.org/html/2605.15362#bib.bib12),7 (https://arxiv.org/html/2605.15362#bib.bib10)]和丹麦法院[11 (https://arxiv.org/html/2605.15362#bib.bib11)]。时间法律网络分析已由Coupette等人[5 (https://arxiv.org/html/2605.15362#bib.bib20)]探索，他们测量了美国和德国法令网络中的监管演化。Mazzega等人[9 (https://arxiv.org/html/2605.15362#bib.bib21)]构建了法国法典网络，为我们的工作提供了大陆法系先例。

所有先前的工作都在10^3到10^5份判决的规模上进行。EDRSR语料库大三个数量级（10^8），需要不同的工程方法：分区并行处理、服务器端游标和流式聚合。更根本的是，乌克兰法律体系是大陆法系（民法法系），其中主要的引用关系是判决→立法，而不是普通法系中的判决→判决。这产生了一个双部图而不是单部图，具有不同的拓扑性质。

### 2.2 从法律文本中提取知识

Palagin等人[15 (https://arxiv.org/html/2605.15362#bib.bib2)]提出一个从乌克兰语文本中提取结构化知识的框架，结合了形态分析和领域特定本体。该框架在科学和技术语料库上得到了展示，但未在大规模法律文本上应用。Palagin等人[18 (https://arxiv.org/html/2605.15362#bib.bib3)]通过分布语义建模扩展了这一路线，从领域特定语料库中的共现模式训练术语向量空间。

我们的方法是将这一计划直接应用于法律领域：1亿份法院判决中的共引模式定义了立法条文的分布语义，其中如果法院在同一判决中引用两条条文，则它们“相似”。这不需要标注数据、嵌入模型或形态分析——引用结构本身编码了语义关系。

### 2.3 法律NLP与信息提取

现代法律NLP主要集中在基于transformer的模型：LEGAL-BERT[3 (https://arxiv.org/html/2605.15362#bib.bib7)]和LexNLP[2 (https://arxiv.org/html/2605.15362#bib.bib8)]。这些方法需要标注的训练数据，是语言特定的，并且操作于单个文档而非语料库范围的结构。

我们的基于正则表达式的方法故意简单：它以召回率换取精确度和可解释性，并且随语料库大小线性扩展。对于乌克兰法律文本中立法引用提取的特定任务，引用的结构化格式（“ст. 625 ЦК України”，“стаття 3 Закону України «Про ...»”）使得正则表达式提取与学习模型相比具有竞争力，同时速度快几个数量级。

### 2.4 从文本构建本体

本体控制系统范式[16 (https://arxiv.org/html/2605.15362#bib.bib1)]需要一个领域本体来结构化系统行为。传统的本体构建是手动且昂贵的。Palagin等人[17 (https://arxiv.org/html/2605.15362#bib.bib4)]表明，本体控制提示提高了LLM在领域特定任务上的输出质量，但假设存在预先存在的本体。

引用图聚类提供了一种替代方案：本体是从使用数据中*派生*的，而不是由专家构建的。这类似于语义学中的分布假说——“从与其相伴的词了解一个词”[18 (https://arxiv.org/html/2605.15362#bib.bib3)]——应用于法令层面：*从引用它的判决了解一部法律*。

## 3 数据

### 3.1 EDRSR语料库

统一国家法院判决登记册[19 (https://arxiv.org/html/2605.15362#bib.bib15)]根据乌克兰法律第3262-IV号（2005年12月22日）建立，自2006年6月1日起运行。乌克兰所有法院都必须提交判决以供发布。

表1：截至2026年5月13日的EDRSR语料库统计。数据存储在PostgreSQL 15数据库中，按判决年份分区（edrsr_fulltext_p_YYYY）。单个分区大小从443 MB（2009年）到116 GB（2024年）。通过tsvector列支持全文搜索；justice_kind列编码司法分支（1=民事，2=刑事，3=商业，4=行政，5=宪法）。

### 3.2 立法语料库

引用图的立法侧来自两个来源：最高拉达（议会）立法数据库[20 (https://arxiv.org/html/2605.15362#bib.bib16)]（通过API at zakon.rada.gov.ua访问），以及包含来自主要法典和法律的13,616条解析条文的本地legislation_articles表。

18部法典（民法典、刑法典、商业法典等）构成了最密集的引用目标。命名法律（“Закон України «Про ...»”）形成一个更长的尾部分布。

## 4 方法

### 4.1 引用提取管道

提取管道逐个分区处理edrsr_fulltext表，使用Python多进程和服务器端PostgreSQL游标。

通过编译的正则表达式提取六种引用类型：

1. 1. 法典条文引用（例如，“ст. 625 ЦК України”，“частина 1 статті 3 КАС України”）。识别18种法典缩写（ЦК, КК, ГК, ГПК, КПК, КАС, ЦПК, КЗпП, СК, ЗК, ПК, МК, БК, ВК, ЛК, ЖК, КУпАП, КАСУ），可选“України”后缀。条文编号范围（“статті 3, 5, 7–9 та 12”）展开为单个引用。
2. 2. 命名法律引用（例如，“стаття 3 Закону України «Про ринок електричної енергії»”）。从乌克兰语引号或法律编号中捕获法律名称。
3. 3. 宪法引用（例如，“стаття 124 Конституції України”）。由于宪法的独特结构作用而单独处理。
4. 4. 跨案件引用（例如，“справа No 200/1234/24”）。捕获标准乌克兰格式NNN/NNNNN/YY的案件编号。
5. 5. 按编号法律引用（例如，“Закон України від 01.01.2020 No 123-IX”）。捕获法律注册编号，可选罗马数字后缀。
6. 6. 最高法院裁决引用（例如，“постанова Великої Палати ВС”，“постанова Пленуму Верховного Суду”）。二进制检测，无条文级别粒度。

图1 (https://arxiv.org/html/2605.15362#S4.F1)显示了所有5.02亿条边在六种引用类型中的分布。

78.86% 13.15% 5.79% 1.11% 0.6% 0.49% 按编号法律 最高法院裁决 宪法 法律条文 案件引用 法典条文 0M 100M 200M 300M 400M 引用边（百万）

图1：5.02亿条引用边按类型分布。法典条文占主导（78.9%）；跨案件引用占13.2%。

管道架构：

- • 分区：每个年份分区独立处理。最大分区（2024年，116 GB，约800万行）分为50,000行块。
- • 并行性：ProcessPoolExecutor，2个工作进程（为生产工作负载保留2个CPU）。每个工作进程打开自己的数据库连接，使用命名的服务器端游标。
- • 写入路径：提取的引用通过psycopg2.extras.execute_values批量插入，使用ON CONFLICT DO NOTHING实现幂等性。
- • 优先级：进程以nice -n 10运行，将CPU让给生产查询。

图2 (https://arxiv.org/html/2605.15362#S4.F2)显示提取吞吐量随语料库大小线性扩展：管道在16核服务器（AMD Ryzen, 128 GB RAM）上跨分区一致地处理200,000行/秒，总提取在大约5小时内完成。每判决引用比从1.04（2007年）缓慢增加到1.42（2025年），反映了法律论证日益增长的复杂性。

2007 2008 2009 2010 2011 2012 2013 2014 2015 2016 2017 2018 2019 2020 2021 2022 2023 2024 2025 0M 20M 40M 60M 0M 2.5M 5M 7.5M 每年判决数 每年引用数

图2：每年提取的引用数与处理的判决数。接近线性的关系证实提取吞吐量随语料库大小可预测地扩展。异常值（2007年，2016年）反映数字化批量导入。

### 4.2 图构建

原始提取输出是一组四元组 (decision_id, citation_type, law_ref, article_ref)。我们构建三种图表示：

#### 双部引用图 G_B = (D ∪ L, E)。

节点是判决 (D) 和立法条文 (L)。如果判决 d 引用立法条文 l，则存在边 (d, l) ∈ E。边权重为 l 在 d 中被引用的次数（通常为1，但条文可能在判决的不同部分被多次引用）。

#### 立法共引投影 G_L = (L, E_L)。

两条立法条文 l1, l2 ∈ L 由一条边连接，边权重等于同时引用它们的判决数。形式化地：w(l1, l2) = |N(l1) ∩ N(l2)|

从一亿乌克兰法院判决自动构建法律引用图：大规模提取、拓扑分析与本体驱动聚类

相似文章

UA-Legal-Bench：评估大语言模型在乌克兰法律推理能力的基准

通过检索、聚类和生成从案例数据库生成法律评注

研究图谱：引文演化图作为研究想法生成的监督信号

LLM如何决定引用哪些页面——以及如何优化

法律判决预测中的时间概念漂移：基于乌克兰法院判决三个时期的神经基线

提交意见反馈