法律判决预测中的时间概念漂移：基于乌克兰法院判决三个时期的神经基线

arXiv cs.CL 2026/05/26 04:00 论文

legal-nlp concept-drift temporal-robustness ukrainian-courts transformer-models continual-learning benchmark

摘要

本文通过在地缘政治动荡定义的三个时期的乌克兰法院判决上微调Transformer模型，研究法律判决预测中的时间概念漂移。发现显示严重的前向退化、反向迁移的不对称性，以及按时间顺序的持续学习有效缓解遗忘，而领域预训练降低退化幅度。

arXiv:2605.24452v1 公告类型：新论文摘要：法律自然语言处理基准测试在随机分割的数据上评估模型，隐含假设法律语言是静态的。我们通过在地缘政治动荡定义的三个时间时期（战前2008-2013年、混合战争2014-2021年、全面入侵2022-2026年）的乌克兰法院判决上微调四个Transformer编码器——XLM-RoBERTa（base和large）及其法律领域变体——来检验这一假设。每个模型在一个时期上训练，并在所有三个时期上评估，生成3x3跨时间泛化矩阵。四项发现浮现：（1）前向退化严重：在战前数据上训练的模型应用于全面入侵时期的判决时，宏F1分数下降高达27.2个百分点。（2）退化不对称：反向迁移（从全面入侵到战前）比前向迁移稳健得多，与法律语言是累加性的假设一致。（3）法律领域预训练（Legal-XLM-R）并未提升绝对性能，但降低了前向退化的幅度和不对称性。（4）按时间顺序的持续学习消除了通用XLM-R的灾难性遗忘：战前知识完全保留（+1.8至+6.2个百分点），而全面入侵性能提升+16.5至+19.0个百分点；逆时间顺序训练导致严重遗忘。跨司法管辖区预训练（基于瑞士判决预测数据）提高了绝对性能，但并未降低时间退化幅度，确认时间漂移是法律语言演化的内在属性。数据集（三个时期共428K份判决）作为LEXTREME贡献公开提供。

查看原文

查看缓存全文

缓存时间: 2026/05/26 09:03

# 法律判决预测中的时间概念漂移：基于乌克兰法院判决三个时期的神经基线模型

来源：https://arxiv.org/html/2605.24452

###### 摘要

法律 NLP 基准测试在随机分割的数据上评估模型，隐含地假设法律语言是静态的。我们通过微调四种 Transformer 编码器（XLM-RoBERTa（base 和 large）及其法律领域变体）来检验这一假设，所使用的数据是乌克兰法院在由地缘政治剧变定义的三个时期内的判决：战前（2008–2013 年）、混合战争（2014–2021 年）和全面入侵（2022–2026 年）。每个模型在一个时期上训练，并在所有三个时期上评估，生成一个 3×3 的跨时间泛化矩阵。

四项发现浮现出来。 (1) 正向退化严重：在战前数据上训练的模型在应用于全面入侵时期的判决时，宏 F1 值下降高达 27.2 个百分点，确认并扩展了使用经典基线观察到的 27.9 个百分点的差距 [21 (https://arxiv.org/html/2605.24452#bib.bib21)]。 (2) 退化是不对称的：反向迁移（全面入侵 → 战前）比正向迁移稳健得多，这与法律语言是叠加性的假设一致——新的法律框架包含旧的框架，反之则不成立。 (3) 法律领域预训练（Legal-XLM-R）相比于通用 XLM-R 并未提高绝对性能，但减少了正向退化的幅度和不对称性，这表明领域预训练捕获了更具时间稳定性（即使判别性较弱）的表征。 (4) 按时间顺序的持续学习（顺序微调：战前 → 混合战争 → 全面入侵）消除了通用 XLM-R 的灾难性遗忘：战前知识被完全保留（+1.8 到 +6.2 个百分点），而全面入侵的性能提升了 +16.5 到 +19.0 个百分点。然而，逆时间顺序的持续学习会导致严重遗忘（全面入侵上 -12.2 到 -14.3 个百分点），并且 Legal-XLM-R 在两个方向上都出现遗忘。这种持续学习中的方向性不对称从互补角度强化了叠加语言假设。

在瑞士判决预测数据上的跨司法管辖区预训练提高了绝对性能（+3 到 +10 个百分点），但并未减少时间退化的幅度（正向差距分别为 20.3 和 21.3 个百分点），这确认了时间漂移是法律语言演变的内在属性，而非特定司法管辖区的伪影。

这些结果建立了法律 NLP 中首个神经时间鲁棒性基准，并证明时间漂移是性能退化的一个主导且未被充分探索的来源——其影响超过了模型选择、领域预训练和跨司法管辖区迁移。对于通用模型，按时序重新训练被证明是一种有效的缓解策略。该数据集（跨越三个时期的 428K 条判决）作为 LEXTREME 的贡献公开提供。

## 1 引言

当测试数据的时间分布与训练数据不同时，NLP 模型的性能会下降——这一现象称为时间概念漂移 [12 (https://arxiv.org/html/2605.24452#bib.bib12), 14 (https://arxiv.org/html/2605.24452#bib.bib14)]。在通用 NLP 中，这表现为过时的事实知识和变化的语言习惯。在法律领域，三个结构性因素放大了这种效应：立法变革引入了新的法规并修改了现有法规；随着法院解释新立法，司法实践不断演变；外部冲击（改革、冲突）可以改变法院运作的整个程序框架。

尽管如此，主流的法律 NLP 基准——LexGLUE [4 (https://arxiv.org/html/2605.24452#bib.bib4)]、LEXTREME [17 (https://arxiv.org/html/2605.24452#bib.bib17)] 和 SCALE [22 (https://arxiv.org/html/2605.24452#bib.bib22)]——在随机分割的数据上评估模型，将时间变化视为噪声而非信号。对于专注于跨语言比较的基准来说，这种设计选择可以理解，但它掩盖了一个从业者关心的关键问题：一个部署的法律 NLP 模型会多快变得不可靠？

我们利用一个自然实验来解决这个问题。乌克兰的司法系统在 2008–2026 年期间在三种不同的制度下运作：

1. 1. 战前（2008–2013）：和平时期基线。所有 832 个法院运行，程序规则稳定。
2. 2. 混合战争（2014–2021）：克里米亚吞并（2014 年），失去被占领土上的法院，司法改革（2017 年），程序现代化。
3. 3. 全面入侵（2022–2026）：戒严状态，程序时间线改变，新的刑法条文（合作行为、援助侵略国），军事刑事案件激增。

这三个时期并非任意划分——它们对应着引用网络拓扑中的结构性断裂 [19 (https://arxiv.org/html/2605.24452#bib.bib19)]、共引用可预测性 33–47% 的衰退 [20 (https://arxiv.org/html/2605.24452#bib.bib20)]，以及经典（TF-IDF）判决预测中 27.9 个百分点的退化 [21 (https://arxiv.org/html/2605.24452#bib.bib21)]。本研究将这些发现扩展到神经模型，回答以下问题：微调后的 Transformer 性能是否以相同方式退化，法律领域预训练能否减轻这种效应？

#### 贡献。

1. 1. 我们生成了首个用于法律判决预测的神经跨时间泛化矩阵，在三个时期的 428K 乌克兰法院判决上微调了四种 XLM-R 变体。
2. 2. 我们量化了神经时间迁移中的正向-反向不对称性，并测试了法律领域预训练是否能提供时间鲁棒性。
3. 3. 我们评估了跨时间时期的持续学习，表明按时序重新训练可以消除通用模型的灾难性遗忘，而逆时序重新训练则导致严重遗忘——这种方向性不对称强化了叠加语言假设。
4. 4. 我们使用瑞士判决预测 [15 (https://arxiv.org/html/2605.24452#bib.bib15)] 进行了跨司法管辖区时间迁移实验，将 Cross-X 迁移 [16 (https://arxiv.org/html/2605.24452#bib.bib16)] 扩展到时间维度，并表明外国司法管辖区预训练并不能减轻时间退化。
5. 5. 我们发布该数据集（428K 条判决，三个时期，时间分割）作为 LEXTREME 的贡献——首个带有时间注释的西里尔字母子集。

## 2 相关工作

#### 法律 NLP 基准。

LexGLUE [4 (https://arxiv.org/html/2605.24452#bib.bib4)] 为英文法律 NLU 建立了一个多任务基准，包括欧洲人权法院的判例法。LEXTREME [17 (https://arxiv.org/html/2605.24452#bib.bib17)] 将其扩展到 24 种欧盟语言的 11 个数据集，评估了 XLM-R 和领域特定法律模型。两者都使用随机训练/测试分割。SCALE [22 (https://arxiv.org/html/2605.24452#bib.bib22)] 引入了瑞士法律系统中的更长文档任务，FairLex [5 (https://arxiv.org/html/2605.24452#bib.bib5)] 增加了公平性维度。这些基准均未控制时间分布偏移。

#### 法律判决预测。

瑞士判决预测 [15 (https://arxiv.org/html/2605.24452#bib.bib15)] 提供了首个多语言法律判决预测基准，判决时间跨度从 2000 年至 2020 年，但在随机分割上评估。PILOT [2 (https://arxiv.org/html/2605.24452#bib.bib2)] 引入了判例法检索的时间模式处理，但侧重于先例识别而非判决预测。Cross-X 迁移 [16 (https://arxiv.org/html/2605.24452#bib.bib16)] 考察了法律 NLP 中的跨语言、跨领域和跨区域迁移，但未涉及跨时间迁移。我们将 Cross-X 扩展到时间维度，测试跨司法管辖区预训练是否能减轻时间退化。

#### 法律领域语言模型。

LEGAL-BERT [3 (https://arxiv.org/html/2605.24452#bib.bib3)] 展示了领域特定预训练对英文法律文本的价值。MultiLegalPile 语料库 [18 (https://arxiv.org/html/2605.24452#bib.bib18)] 实现了多语言法律模型（Legal-XLM-R）的预训练，该模型在 LEXTREME 上达到了最先进水平。SaulLM [7 (https://arxiv.org/html/2605.24452#bib.bib7)] 将法律领域适应扩展到 54B 和 141B 参数。LeXFiles [6 (https://arxiv.org/html/2605.24452#bib.bib6)] 提供了一个多国英文法律语料库及探测任务。LEMUR [1 (https://arxiv.org/html/2605.24452#bib.bib1)] 引入了用于检索的多语言法律嵌入模型。我们解决的一个关键问题是法律领域预训练是否捕获了时间稳定的表征。

#### NLP 中的时间泛化。

Lazaridou 等人 [12 (https://arxiv.org/html/2605.24452#bib.bib12)] 证明语言模型在时间偏移的数据上性能下降，且性能与时间距离成反比。Luu 等人 [14 (https://arxiv.org/html/2605.24452#bib.bib14)] 表明时间错位影响多项 NLP 任务，不仅仅是语言建模。Dhingra 等人 [9 (https://arxiv.org/html/2605.24452#bib.bib9)] 提出了时间感知语言模型以减轻时间退化。在法律领域，Ovcharov [21 (https://arxiv.org/html/2605.24452#bib.bib21)] 使用 TF-IDF 分类器在乌克兰法院判决上建立了 27.9 个百分点的正向退化差距，但明确指出了缺乏神经基线作为一个限制。

#### 持续学习。

当模型在新数据分布上顺序训练时，灾难性遗忘 [10 (https://arxiv.org/html/2605.24452#bib.bib10)] 是一个基本挑战。在法律领域，时间时期形成了一个自然的课程：每个时期引入的新立法和程序框架都建立在先前框架之上。我们评估这种叠加结构是否允许无灾难性遗忘的顺序微调，测试了按时序（正向）和逆时序（反向）两种训练顺序。

## 3 数据集

### 3.1 来源与提取

我们从统一国家法院判决登记册（EDRSR，ЄДРСР）中提取法院判决，这是一个自 2006 年以来对所有乌克兰法院判决可公开访问的数据库。该登记册包含超过 1 亿份文件。我们专注于民事和商事管辖权，这些领域在时间时期提供了最一致案件结构。

每份文件按以下方式处理：(1) 事实部分（встановив）被提取为模型输入；(2) 主文部分（вирiшив）被解析用于结果分类；(3) 个人身份信息被替换为占位符标记（[PERSON]，[ADDRESS]，[NUMBER]）。文本被截断至 10,000 个字符。

### 3.2 时间时期

判决根据反映主要地缘政治剧变的三个时期进行划分：

- • 战前（2008–2013）：128,075 条判决。和平时期司法基线。
- • 混合战争（2014–2021）：150,000 条判决。克里米亚吞并后，2017 年司法改革。
- • 全面入侵（2022–2026）：150,000 条判决。戒严状态，程序变更。

### 3.3 标签方案

通过从主文部分进行正则表达式提取，将结果分为三类：

- • 支持（задоволено）：诉讼请求完全得到支持。
- • 驳回（вiдмовлено）：诉讼请求被拒绝。
- • 部分支持（частково задоволено）：诉讼请求部分得到支持。

战前时期存在轻微的类别不平衡（50K 支持 / 28K 驳回 / 50K 部分支持）；其他两个时期每个类别平衡为 50K。这种不平衡反映了战前民事案件中结果的自然分布。

### 3.4 按时间顺序分割

在每个时期内，文档按时间顺序分割：最早的 80% 构成训练集，接下来的 10% 构成验证集，最新的 10% 构成测试集。这防止了时期内的泄漏，并确保模型总是在其训练数据之后做出的判决上进行评估。

表 1：数据集统计。每个时期内的所有分割均按时间顺序。

## 4 实验设置

### 4.1 模型

我们评估了四种 XLM-RoBERTa [8 (https://arxiv.org/html/2605.24452#bib.bib8)] 变体，涵盖了模型规模和领域预训练的交互作用：

1. 1. XLM-R Base（278M 参数）——通用多语言基线。
2. 2. XLM-R Large（560M 参数）——规模比较。
3. 3. Legal-XLM-R Base（278M）——在 689GB 的 MultiLegalPile [18 (https://arxiv.org/html/2605.24452#bib.bib18)] 上预训练。
4. 4. Legal-XLM-R Large（560M）——法律领域预训练 + 规模。

这种 2×2 设计（通用 vs. 法律，base  vs. large）分离了领域预训练和模型容量对时间鲁棒性的影响。

### 4.2 训练配置

所有模型使用 HuggingFace Transformers 库 [23 (https://arxiv.org/html/2605.24452#bib.bib23)] 和 AdamW 优化器 [13 (https://arxiv.org/html/2605.24452#bib.bib13)] 进行微调。训练配置：

- • 学习率：2×10⁻⁵（base），1×10⁻⁵（large）
- • 权重衰减：0.01
- • 最大序列长度：512 个标记
- • 训练轮数：5，早停（耐心 2）基于验证宏 F1
- • 热身步数：总步数的 10%
- • 批次大小：每 GPU 16（base），每 GPU 8（large），带梯度累积
- • 硬件：NVIDIA A10G GPU（AWS ml.g5 实例）

每个实验使用三个随机种子（42, 123, 456）运行，结果以均值 ± 标准差报告。

### 4.3 评估协议

#### 实验 1：时期内基线。

每个模型在时期 Eᵢ 上训练，并在同一时期的测试分割上评估。这建立了泛化矩阵的对角线：当训练和测试分布匹配时的最佳性能。

#### 实验 2：跨时期泛化。

每个 12 个已训练模型（4 个模型 × 3 个时期）在所有三个测试分割上评估，为每个模型生成一个 3×3 宏 F1 矩阵。关键派生指标：

- • 正向退化：Δ_前 = F1(E₁→E₁) - F1(E₁→E₃)
- • 反向退化：Δ_后 = F1(E₃→E₃) - F1(E₃→E₁)
- • 不对称差距：Δ_前 - Δ_后

#### 实验 3：跨司法管辖区时间迁移。

我们使用瑞士判决预测（SJP）[15 (https://arxiv.org/html/2605.24452#bib.bib15)] 作为外国司法管辖区来源，将 Cross-X 迁移框架 [16 (https://arxiv.org/html/2605.24452#bib.bib16)] 扩展到时间维度。SJP 包含多语言（德语、法语、意大利语）瑞士联邦最高法院判决（2000–2020 年），带有二元结果标签（支持/驳回）。我们使用 XLM-R Base 评估三种跨司法管辖区设置：

- • 零样本：在 SJP 上训练，在乌克兰语（二元，去掉部分支持类）上测试。
- • 迁移：阶段 1：在 SJP（二元）上微调。阶段 2：在乌克兰战前（3 类）上微调。在所有三个乌克兰时期上测试。
- • 反向：在乌克兰混合战争（二元）上训练，按语言在 SJP 上测试。

迁移设置产生对乌克兰数据的 3 类预测，从而能够与表 3 (https://arxiv.org/html/2605.24452#S5.T3) 直接比较。每个设置使用三个种子（42, 123, 456）运行。

#### 实验 4：持续学习。

每个模型在所有三个时期上按两个方向顺序微调：

- • 正向（按时序）：战前 → 混合战争 → 全面入侵。
- • 反向（逆时序）：全面入侵 → 混合战争 → 战前。

每个阶段之后，模型在所有三个时期的测试分割上进行评估。

法律判决预测中的时间概念漂移：基于乌克兰法院判决三个时期的神经基线

相似文章

时间对比变换器用于金融犯罪检测：通过预测对比编码实现自监督序列嵌入

UA-Legal-Bench：评估大语言模型在乌克兰法律推理能力的基准

预测中期阿尔茨海默病进展：基于ADNI临床和生物标志物历史数据实现24个月CDR-SB变化的残差间隙感知变换器

检索机制在时间序列预测中超越长上下文缩放

评估Transformer和LSTM框架在无资料流域中的预测能力

提交意见反馈