EURO-5K：领域预训练何时重要？面向欧盟报告义务抽取的Transformer基准测试

arXiv cs.CL 2026/06/03 04:00 论文

legal-nlp eu-legislation reporting-obligation benchmark transformer domain-pretraining information-extraction

摘要

本文介绍了EURO-5K，一个用于从欧盟立法中提取报告义务的句子级数据集，并在全微调和参数高效QLoRA下对判别式和生成式Transformer模型进行了基准测试。结果表明，法律预训练主要惠及适应能力有限的模型，且所有方法在大约3000个样本时趋于收敛。

arXiv:2606.02971v1 公告类型：新摘要：从欧盟立法中提取报告义务对于评估和减少监管报告负担至关重要。然而，区分报告要求与结构相似的条款需要专门的法律理解。当前的司法自然语言处理方法缺乏具有明确指南和提取范式及领域适应策略比较评估的专业数据集。我们整理了EURO-5K，一个包含来自136项欧盟立法法案的句子级报告义务和具有挑战性的负面示例的语料库。在此数据集上，我们训练并比较了判别式标记分类模型（BERT风格）和生成式跨度提取模型（LLM），评估了全微调和参数高效QLoRA与基线（基于模式和依赖关系的提取、少样本提示）的效果。结果表明，全微调的通用和法律BERT模型达到了相似性能（F1值0.89），而微调的LLM在句子级提取上达到了编码器的准确度。法律预训练对生成式模型仅带来微小提升。相反，当适应能力受限时，法律预训练明显有益，因为参数高效调优的Legal-BERT优于其通用对应版本。学习曲线分析表明，法律预训练在数据极少时加速了早期学习。所有方法在约3000个样本时趋于收敛，此后收益递减，这验证了数据集的充分性。在两个外部监管语料库上的跨数据集评估显示，我们的模型表现为专门的报告义务提取器，而非通用的监管分类器。我们发布了EURO-5K、训练好的模型以及一个包含可解释性可视化和结构化RDF导出的交互式演示。这些表明，两种范式和参数高效训练都为监管合规自动化提供了实用工具。

查看原文

查看缓存全文

缓存时间: 2026/06/03 09:36

# EURO-5K：何时领域预训练重要？面向欧盟报告义务抽取的Transformer模型基准测试  
来源：https://arxiv.org/html/2606.02971  

\[1\] Marios Koniaris  
\[1\] 计算机科学系，电气与计算机工程学院，希腊国家技术大学，地址：Iroon Polytechniou 9, Zographou Campus, 15780, Athens, Greece  
\[2\] 人文、社会科学与法律系，应用数学与物理科学学院，希腊国家技术大学，地址：Iroon Polytechniou 9, Zographou Campus, 15780, Athens, Greece  

###### 摘要  

从欧盟立法中抽取报告义务对于评估和减轻监管报告负担至关重要。然而，将报告要求与结构相似的条款区分开需要专门的法律理解。当前的法学自然语言处理方法缺乏带有明确指南的专用数据集，以及在抽取范式和领域适应策略方面的比较评估。我们整理了EURO-5K，这是一个包含136部欧盟立法法案中句子级报告义务和具有挑战性的负例的语料库。在此数据集上，我们训练并比较了判别式令牌分类模型（BERT风格）和生成式跨度抽取模型（LLM），评估了全微调和参数高效的QLoRA与基线（基于模式和依赖关系的抽取、少样本提示）的对比。结果表明，全微调的通用BERT和法律BERT模型达到了相似的性能（0.89 F1），而微调的LLM在句子级抽取中与编码器的准确率相当。法律预训练对生成式模型的提升很小。相比之下，当适应能力受限时，法律预训练明显有益，例如参数高效微调的Legal-BERT优于其通用版本。学习曲线分析表明，法律预训练能在极少数据下加速早期学习。所有方法在大约3000个样本时趋于收敛，此后收益递减，验证了数据集的充分性。在两个外部监管语料库上的跨数据集评估表明，我们的模型行为类似于专门的报告义务抽取器，而非通用的监管分类器。我们发布了EURO-5K、训练好的模型以及一个带有可解释性可视化和结构化RDF导出的交互式演示。这些表明，两种范式和参数高效训练都为监管合规自动化提供了实用工具。  

###### 关键词：法学自然语言处理；报告义务；欧盟法律；Transformer模型；QLoRA；信息抽取  

## 1 引言  

欧盟约有18万部法律文件，涵盖多个政策领域。在这些语料中寻找具体义务具有挑战性，因为并非所有义务都要求报告。例如，在饮用水安全领域，一项行为义务可能要求“成员国应确保供人类饮用的水的供应、处理和分配采用基于风险的方法”（(EU) 2020/2184号指令，第7条，CELEX:32020L2184）。尽管具有法律约束力，但这确立的是实质性行为义务，而非数据传输要求。相比之下，同一指令中的报告义务要求成员国“成员国应向委员会通报这些规则和措施，并应通报任何对其产生影响的后续修正案”（第23条）。欧盟政策分析\[MARCUS2025\]区分了三种义务类型：i) 报告义务（例如，向当局提交数据），ii) 行为义务（例如，开展活动），以及iii) 披露义务（例如，公开信息）。以2025年Omnibus简化方案为例，该方案作为(EU) 2025/794号指令（CELEX:32025L0794）颁布。对三个可持续发展框架的手动分析发现了重叠的义务，使得80%的公司被排除在报告范围之外，预计每年可节省44亿欧元\[EC2025Omnibus\]。这既说明了报告负担的规模，也展示了系统优化的潜力。除了减轻负担外，报告义务是执行机构向立法机构提供合规数据的主要反馈机制，使得能够评估法规在实践中的有效性。自动化抽取可以将这种方法扩展到整个欧盟立法语料，解决诸如委员会的25%负担削减目标和减少报告与监测负担（RRMV）计划\[rrmv\]等举措所面临的挑战。  

先前的计算工作针对宽泛的类别，未区分义务类型。我们聚焦于报告义务，即支撑监管监督并影响各行业运营实践的要求。从欧盟立法中抽取报告义务的挑战超出了通用文本分类。立法条款具有深度嵌套的句法结构，义务跨越多个从句和交叉引用。诸如“应提交”之类的道义词不仅出现在报告义务中，也出现在程序性规定和许可中。区分这些需要更深入地理解监管背景，以确定谁向谁报告以及出于何种监督目的。手动注释需要法律专业知识来解读一项条款是要求向上级机关提供信息，还是协调监管机构之间的同级沟通。这种专业知识需求限制了可扩展性，因为手动分析成千上万部法律文件既耗时又昂贵。通过监督学习的自动化可以应对这一挑战。然而，该领域缺乏三个先决条件：专门的标注数据集、针对报告义务抽取的训练模型，以及从法规文本中进行句子级抽取的成熟方法。  

为了支持这一专门任务的监督学习，我们整理了EURO-5K，一个包含5253个来自欧盟立法文件句子的数据集。标注需要制定明确的协议以操作化报告义务的概念，系统地抽样具有挑战性的负例，并通过标注者间一致性验证质量。由此产生的数据集为训练和评估抽取模型奠定了基础。我们在EURO-5K上训练模型，比较通用（BERT-base, Mistral-7B, Llama-3.1-8B）和法律领域（Legal-BERT, Saul-7B）的Transformer，采用判别式令牌分类（BERT）和生成式方法（LLM）。我们评估了BERT模型的全微调和参数高效的LoRA，以及LLM的QLoRA。我们的评估表明，判别式和生成式范式在专门的法律抽取中达到了可比的性能。对于判别式方法，法律预训练带来了适度但一致的收益，而对于7B规模的生成式方法，收益可以忽略不计。数据效率分析表明，虽然法律预训练加速了早期学习，但所有架构的性能在大约3000个样本处收敛，为领域特定标注的收益递减建立了明确的阈值。可解释性分析揭示模型关注机构行为者并评估上下文而非关键词。最后，跨数据集验证确认我们训练的模型专门抽取报告义务，而非宽泛地对监管陈述进行分类。  

本文的贡献如下：(i) 我们构建并发布了EURO-5K，这是最大的报告义务标注语料库（5253个句子，1751个正例，136部欧盟立法文件），具有原则性的标注协议，将报告义务与行为相关和披露相关的混淆项区分开来，包括532个针对困难边界情况的硬负例。(ii) 我们训练并比较了跨判别式和生成式范式、采用不同训练方法的通用和法律领域Transformer，揭示了领域适应的价值取决于范式和训练策略。学习曲线分析揭示了最低训练需求并验证了数据集的充分性。(iii) 我们系统地比较了跨判别式和生成式范式的全微调和参数高效方法（BERT的LoRA，LLM的QLoRA），揭示了专门法律抽取中的准确率-效率权衡。(iv) 在两个外部语料库上的跨数据集评估验证了专门学习在互补维度上的效果：*特异性*（正确拒绝通用监管陈述）和*敏感性*（对域外财务报告义务零样本召回率88.7–90.3%）。(v) 我们使用Welch t检验和Bootstrap方法进行了全面的统计显著性检验，确认领域适应效果在统计上不显著，而范式对等性在统计上得到验证。(vi) 我们通过一个交互式网页界面展示了部署就绪性，该界面集成了模型预测、可解释性可视化和符合RRMV标准的RDF导出，用于监管知识库。  

本文其余部分组织如下：第2节（https://arxiv.org/html/2606.02971#S2）回顾了法律信息抽取和Transformer架构的相关工作。第3节（https://arxiv.org/html/2606.02971#S3）介绍了我们的数据集整理方法。第4节（https://arxiv.org/html/2606.02971#S4）介绍了实验配置。第5节（https://arxiv.org/html/2606.02971#S5）报告了抽取性能、跨数据集泛化能力和可解释性发现。第6节（https://arxiv.org/html/2606.02971#S6）展示了实际部署。最后，我们在第7节（https://arxiv.org/html/2606.02971#S7）中得出结论并展望未来工作。  

## 2 相关工作  

法律信息抽取已从基于规则的系统发展到深度学习，再到最近的生成式AI。我们的工作涉及法律领域语言模型、监管义务抽取、信息抽取范式和参数高效训练。  

### 2.1 法学自然语言处理与领域适应  

法律文本通过专业词汇、形式化句法和领域特定语义为自然语言处理带来了独特的挑战。在法律语料上继续预训练通常优于通用模型\[chalkidislegal\]，性能提升随任务特异性而扩大\[Zheng2021\]。然而，收益是否足以证明计算成本的合理性仍存疑问\[hendrycks2020measuring\]。在资源受限的场景下，已经探索了参数高效的替代方案\[HerrewijnenC23\]。  

对于监管义务抽取，制度语法工具\[crawford1995grammar,ostrom2009\]提供了一个形式化框架，通过属性、道义和目的组件将义务与其他监管陈述区分开来。道义分类识别义务、许可和禁止\[liga2022deontic\]。对欧盟监管陈述的评估达到了高准确率\[Brandsma2025ComputationalIOB\]，而合同分析探索了道义情态分类\[Graham2023\]。从CJEU判例法中抽取司法解释性公式表明，微调的BERT模型达到了与生成式模型可比的性能，同时在稳定性和可重复性方面具有优势\[Grundler2025\]。低资源方法已经研究了有限的标注数据场景\[chakravarthy2025ner\]。  

除了二元分类，还出现了使用LLM提示工程的结构化抽取方法\[ZinSB24\]以及结合依赖解析与分类的少样本方法\[Pawar2023\]。我们聚焦于一个专门的子集——要求实体向当局提交数据的报告义务，并超越二元分类，针对这一政策关键子集进行句子级抽取。密切相关的是，corazza2025检测欧盟立法中的报告请求，采用混合方法，比较了991个段落上的BERT变体和上下文内LLM；而dalpont2025从GDPR、DSA和AI法案中提取更广泛的义务，通过一个LLM流水线输出知识图谱。我们通过一个更大的标注语料库（EURO-5K）以及首次针对报告义务抽取的微调LLM（QLoRA）评估来补充这些工作。  

### 2.2 信息抽取范式  

令牌分类一直主导着法律实体识别和跨度抽取，应用于道义句子分类\[liga2022deontic,Minkova2023\]。将生成式模型微调用于法律分类已显示出相较于判别式方法的显著优势\[ligarobaldo2023gpt3\]，尽管性能取决于任务特性。替代架构在句子级任务上取得了强劲结果\[Pennisi2023NOMOS\]。跨范式评估\[GrundlerLMLGST24\]揭示了互补优势，因为判别式模型在拥有足够训练数据时擅长检测，而生成式模型能更好地处理稀疏的多类场景。用于法律抽取的零样本LLM方法显示出局限性，在某些情况下基于正则表达式的方法取得了更好的精确率\[Molinari2025\]。零样本性能在不同法律文件类型间有所变化\[Savelka2023\]，监管文本带来了特别挑战。少样本学习\[TerronMR23\]和基于查询的方法\[ZinNSSN23\]已被探索以改进性能，强调了针对专门法律抽取的任务特定微调的重要性。我们提供了第一个针对欧盟法规句子级报告义务抽取的系统性比较，评估了微调的判别式和生成式模型以及少样本提示基线，并进行了多随机种子统计验证和跨数据集泛化测试。  

### 2.3 用于法律任务的大型语言模型  

LLM在法律应用中的能力已得到广泛评估。\[Katz2023\]证明模型能够在标准化法律评估中应用复杂的法律原则，尽管在细微推理任务中仍存在挑战。涵盖多种法律推理类别的综合基准揭示了显著的性能变化\[Guha2023legalbench\]。通过在法律语料库上继续预训练，已经开发出法律模型\[saul2024\]。  

这些能力伴随着局限性。对法律幻觉（模型生成偏离事实的输出）的分析发现，错误率很高，且受司法管辖区和案件特征的影响\[Dahl2024\]，强调了人类监督的必要性。  

### 2.4 参数高效训练  

不断增长的计算需求促使了参数高效的替代方案。量化低秩适应（QLoRA）\[dettmers2024qlora\]将4位量化与低秩适配器训练相结合，更新不到1%的参数，同时允许在消费级硬件上部署。应用于法律任务时，减少了训练时间同时保持了性能\[ChangC23\]。性能分析确认QLoRA的内存节省是以增加计算时间为代价的，这是由于反量化的开销\[Hanindhito2025\]。用于法律领域适应的参数高效方法仍未得到充分探索。我们评估了跨判别式和生成式方法的全微调（FFT）和参数高效适应（BERT的LoRA，LLM的QLoRA），比较了不同训练策略下的领域适应效果。  

## 3 方法论  

我们将从欧盟立法中抽取报告义务表述为一个监督学习任务。

EURO-5K：领域预训练何时重要？面向欧盟报告义务抽取的Transformer基准测试

相似文章

基于Transformer的语言模型在垂直领域中的应用：架构、应用与批判性评估

迈向LLM的下一个前沿：私有数据训练——联邦微调的跨域基准

针对《古兰经》语音识别的预训练Transformer模型比较研究：语音表示、标签格式与数据集构成

数据受限的语言模型预训练：改进的正则化与缩放定律

用于生物医学声明验证的小型LLM：经济高效的微调、结构化数据集捷径与跨域泛化

提交意见反馈