LAUKIN:一个跨司法管辖区的普通法合同数据集

arXiv cs.CL 论文

摘要

介绍了LAUKIN,一个包含来自澳大利亚、英国和印度合同的条款对数据集,标注了法律等价性。评估了12个模型,宏平均F1分数达到65.11%,建立了一个具有挑战性的基准。

arXiv:2606.13184v1 公告类型:新论文 摘要:跨国公司越来越需要进行跨司法管辖区的合同审查,但现有的法律自然语言处理数据集大多局限于单一司法管辖区。我们提出了LAUKIN(澳大利亚、英国和印度法律等价性数据集),这是一个包含条款对(AU-UK、UK-IN、IN-AU)并标注布尔型法律等价性的数据集。我们开发了一种新颖的多阶段检索和重排序管道来构建初始条款对映射,随后由法律专家将其中一部分条款对标注为“等价”或“不等价”。该数据集包含来自8种协议类型、204份合同的14,727个条款对,其中3,000个经过手动标注:训练集900个、开发集600个、测试集1,500个。我们评估了4种技术下的12个模型,最佳宏平均F1分数达到65.11%,使得LAUKIN成为一个具有挑战性的基准。结果显示,尽管拥有共同的法律渊源,但各司法管辖区的起草惯例存在显著差异,使得跨司法管辖区的等价性分类并非易事。LAUKIN还包含11,727个未标注的训练对,以支持未来法律NLP中的半监督学习研究。
查看原文
查看缓存全文

缓存时间: 2026/06/12 08:51

# LAUKIN:一个多司法管辖区的普通法合同数据集 来源:https://arxiv.org/html/2606.13184 ###### 摘要\. 跨国公司越来越需要跨司法管辖区的合同审查,但现有的法律 NLP 数据集大多局限于单一司法管辖区。我们提出LAUKIN(澳大利亚、英国和印度法律等价数据集),这是一个包含条款对(AU-UK、UK-IN、IN-AU)并标注布尔型法律等价性的数据集。我们开发了一种新颖的多阶段检索和重排序流水线来构建初始条款对映射,随后由法律专家对部分条款对进行“等价”或“不等价”标注。该数据集包含来自 8 种协议类型的 204 份合同的 14,727 个条款对,其中 3,000 个已人工标注:训练集 900 个、开发集 600 个、测试集 1,500 个。我们评估了 4 种技术下的 12 个模型,最佳 macro-F1 达到 65.11%,使 LAUKIN 成为一个具有挑战性的基准。结果表明,尽管共享普通法传统,但不同司法管辖区的起草惯例存在显著差异,使得跨司法管辖区的等价分类并非易事。LAUKIN 还包含 11,727 个未标注的训练对,以支持未来法律 NLP 中的半监督学习研究。††版权:无††会议:;;††CCS:计算方法 语言资源## 1\. 引言过去十年,法律领域的自然语言处理(NLP)取得了显著进展,应用涵盖合同审查、判决预测与摘要、法规解释以及判例法信息检索(Singh 等人,2025 (https://arxiv.org/html/2606.13184#bib.bib16);Ariai 等人,2025 (https://arxiv.org/html/2606.13184#bib.bib3);Akter 等人,2025 (https://arxiv.org/html/2606.13184#bib.bib2);Feng 等人,2024 (https://arxiv.org/html/2606.13184#bib.bib7))。这些进展通过自动化耗时的流程、降低运营成本和减少人为错误,正在重塑学者、教育者、研究人员和从业者的法律实践(Singh 等人,2025 (https://arxiv.org/html/2606.13184#bib.bib16);Ariai 等人,2025 (https://arxiv.org/html/2606.13184#bib.bib3);Kluttz 和 Mulligan,2019 (https://arxiv.org/html/2606.13184#bib.bib9);Huang 等人,2024 (https://arxiv.org/html/2606.13184#bib.bib8);Ucheagwu-Okoye 和 Nwakoby,2025 (https://arxiv.org/html/2606.13184#bib.bib18))。然而,现有的数据集和基准大多局限于单一司法管辖区,仅限于美国、中国和欧盟等特定国家,这限制了它们在其他司法管辖区的适用性和覆盖范围(Singh 等人,2025 (https://arxiv.org/html/2606.13184#bib.bib16))。在一个日益全球化的世界中,这带来了问题:跨国公司不仅需要根据不同司法管辖区的独特术语、条款结构和可执行性标准调整其法律合同,还需要进行跨司法管辖区的合同审查。在澳大利亚、英国和印度等司法管辖区之间,这种挑战更为突出,这些国家根植于相同的英国普通法传统,但其合同法通过独立的法院系统、不同的立法和当地法律惯例已经显著分化(Barnett,2024 (https://arxiv.org/html/2606.13184#bib.bib4);Kumar 和 Heidemann,2022 (https://arxiv.org/html/2606.13184#bib.bib11))。因此,它们的条款在词汇选择、句法和语用结构上存在差异,使得跨司法管辖区的合同审查成为一项复杂的任务。例如,考虑一个等价的不可抗力条款对: > 印度:任何一方均无需对因天灾、民事或军事当局行为、火灾、洪水、罢工、战争、流行病、电力短缺或其他超出该方合理控制范围的行为或原因导致的履约延误或失败负责。 澳大利亚:对于因不可抗力事件导致或促成的本协议项下义务的任何延误或未履行,任何一方均不承担任何责任,但须遵守本第16条。 该对举例说明了词汇变异的实例:印度条款列举了洪水、流行病和电力短缺等灾害事件,而澳大利亚条款则采用了术语“不可抗力事件”。缺乏多司法管辖区的法律 NLP 数据集阻碍了此类任务在普通法司法管辖区间的自动化。 参见标题图 1\. LAUKIN 的创建:法律条款收集(§2.1 (https://arxiv.org/html/2606.13184#S2.SS1))、初始对选择(§2.2 (https://arxiv.org/html/2606.13184#S2.SS2))和人工标注(§2.3 (https://arxiv.org/html/2606.13184#S2.SS3))为解决这一空白,我们提出LAUKIN(澳大利亚、英国和印度法律等价数据集),这是首个多司法管辖区普通法合同数据集,由成对的英文法律条款组成:AU-UK、UK-IN 和 IN-AU。LAUKIN 通过一种新颖的、用于跨司法管辖区条款映射的多阶段检索和重排序流水线半自动构建,并由法律专家将部分条款对标注为“等价”或“不等价”。该数据集包含从 8 种协议类型的 204 份合同中提取的 14,727 个条款对。其中,3,000 个已人工标注,并分为 900 个训练集、600 个开发集和 1,500 个测试集。我们评估了 4 种技术下的 12 个模型,最佳 macro-F1 为 65.11%,表明 LAUKIN 是一个具有挑战性的基准。除标注数据外,我们还提供了 11,727 个未标注的训练条款对,作为未来法律 NLP 半监督学习研究的资源。LAUKIN 支持跨司法管辖区合同审查与条款起草、法律信息检索以及大语言模型基准测试等应用。LAUKIN 数据集及所有相关代码(涵盖数据集创建和基准测试)将在论文被接收后公开发布。 ## 2\. LAUKIN 的创建图1 (https://arxiv.org/html/2606.13184#S1.F1)展示了三阶段创建流程:法律条款收集、初始对选择和人工标注。 ### 2.1\. 法律条款收集澳大利亚的合同来源于AusTender (https://www.tenders.gov.au/)111https://www.tenders.gov.au/,CC BY 4.0 AU (https://creativecommons.org/licenses/by/3.0/au/),访问日期 2025年11月30日。;英国的合同来源于Contract Finder (https://www.contractsfinder.service.gov.uk/)222https://www.contractsfinder.service.gov.uk/,OGL v3.0 (http://www.nationalarchives.gov.uk/doc/open-government-licence/version/3),访问日期 2025年11月30日。;印度的合同来源于各种公开可访问的中央和州政府门户网站。所有提取的合同均可免费公开使用;大部分是作为协议模板的样本或示范合同,以及少量已过期的合同。收集过程包括手动验证来源的正确性和可靠性、审查超过100个政府州和领地网站的许可政策,以及删除重复合同,耗时7个人日。最终,共选择了204份合同,分别来自澳大利亚(67份)、英国(83份)和印度(54份),涵盖8种协议类型,详见表1 (https://arxiv.org/html/2606.13184#S2.T1)。这些合同篇幅差异很大,从几页到900页不等。英国和澳大利亚的合同最长分别达到900页和750页,而印度的合同相对较短,最长250页。 表 1\. 合同及所得条款的分布合同/协议类型澳大利亚英国印度服务类785租赁与租约类71110特许经营类672贷款类424营销与咨询类891合伙、保密协议与雇佣类72016建筑与维护类17123托管与许可类111413合同总数(204份)678354条款总数(未经后处理)50,11147,05813,844条款总数(经后处理)36,94232,7169,183 使用PyMuPDF (fitz) 从每份合同 PDF 中自动提取条款。原始文本逐页解析,并通过基于正则表达式的边界检测分割成句子。丢弃少于10个单词的句子,以消除页眉、页脚和片段。这为澳大利亚、英国和印度分别生成了超过50K、47K和13K条款的原始语料库。由于同一司法管辖区内的合同经常重复使用相同或几乎相同的条款,因此使用rapidfuzz在每个司法管辖区内独立进行去重:构建一个字符4-gram阻塞索引以避免O(n²)全对比较。通过fuzz.ratio计算成对相似度,任何两个得分≥90%的条款被归入一个重复簇。在每个簇内,只保留最长的条款。这种单司法管辖区去重使得最终语料库分别减少为澳大利亚约36K+、英国约32K+、印度约9K+条款。 ### 2.2\. 初始对选择我们提出了一种新颖的多阶段检索和重排序流水线,用于跨司法管辖区的条款映射。上一步收集的每个司法管辖区的条款语料库作为流水线的输入,如图2 (https://arxiv.org/html/2606.13184#S2.F2)所示。由于印度的条款数量(9,183条)少于澳大利亚和英国,因此每个印度条款作为一个查询,与澳大利亚和英国语料库中词汇和语义上最等价的条款进行匹配。对于每个语料库,由三个检索器并行获取前100个候选:BM25用于词汇匹配,MPNet (all-mpnet-base-v2) 和 GTR (gtr-t5-base) 用于语义检索。得到的排序列表使用互惠排名融合 (RRF) (Cormack 等人,2009 (https://arxiv.org/html/2606.13184#bib.bib6)) 合并成一个每个语料库的融合候选列表。这为每个印度查询条款产生了前10个澳大利亚候选和前10个英国候选条款。然后使用一个交叉编码器 (ms-marco-MiniLM-L-6-v2) 对这些候选进行重排序,其中澳大利亚候选作为查询,英国候选作为文档。选择重排序得分最高的澳大利亚-英国对作为印度查询条款的最佳匹配,从而产生一个三元组条款 (IN-AU-UK)。一旦形成一个三元组,每个匹配的条款就从其相应的语料库中移除,确保唯一的三元组映射。最终输出是一组9,183个IN-AU-UK条款三元组。出于道德和法律原因,所有个人身份信息均被匿名化,将组织名称、地点和电子邮件地址分别替换为、、和。接下来,进行定性检查,因为不同协议类型和司法管辖区的合同在结构、格式和起草风格上各不相同,并且可能包含不完整或非条款的片段,这些片段传达的是通用信息而非合同义务。任何包含此类片段的三元组将被完全移除以确保数据质量。匿名化和定性检查由一名标注员手动执行,耗时5个人日。最后,保留了4,909个高质量的三元组,并分为三组:训练集(4,209个三元组)、开发集(200个三元组)和测试集(500个三元组)。每组中的每个三元组被分解成三个条款对(AU-UK、UK-IN、IN-AU),从而得到12,627个训练条款对、600个开发条款对和1,500个测试条款对,总共14,727个条款对。 参见标题图 2\. 跨司法管辖区条款映射流水线 ### 2.3\. 人工标注对于数据集标注和任务设计,我们组建了一个由两名专家和两名实践者组成的小组。法律专家拥有30多年合同法和商法的专门经验。NLP专家在数据集创建和NLP方法论开发方面有14年经验。两位专家共同指导标注说明和任务设计。两名实践者分别是:一名具有4年以上合同标注和需求实施经验的法律NLP研究员,以及一名在律师事务所专门从事公司和商业法的执业律师。由于标注整个数据集既需要法律专业知识,也需要大量时间,我们采用了半监督标注设置,这反映了全标注数据集很少可用的现实挑战。如果两个条款共享相同的核心法律功能和条款类型,无论词汇或句法变异如何,该条款对被标注为“等价”。如果条款在法律功能或条款类型上不同,导致不同的法律义务或结果,则被标注为“不等价”。两名实践者独立标注了600个开发条款对。计算了标注者间一致性 (IAA),得到 Cohen’s κ=0.75(实质一致性 (Landis 和 Koch,1977 (https://arxiv.org/html/2606.13184#bib.bib12)))。不一致之处通过专家和实践者之间的多轮迭代讨论解决。开发集完成后,1,500个测试条款对和900个训练条款对由第二名实践者标注,从而产生高质量的标注数据集。LAUKIN 的总标注工作量共计25个人日。 ## 3\. LAUKIN 统计信息LAUKIN 包含14,727个条款对。这些条款对分为12,627个训练对(900个已标注,11,727个未标注)、600个已标注开发对和1,500个已标注测试对,如表2 (https://arxiv.org/html/2606.13184#S3.T2)所示。数据集是不平衡的,“等价”条款对属于少数类,在训练集、开发集和测试集中分别仅占10.6%、9.7%和26.7%。这反映了一个现实挑战:由于每个国家不同的法律体系和需求,跨司法管辖区的条款差异多于一致(Kumar 和 Heidemann,2022 (https://arxiv.org/html/2606.13184#bib.bib11);Saxena,2023 (https://arxiv.org/html/2606.13184#bib.bib15))。我们进一步使用Jaccard相似度 (J) 分析了条款对之间的词汇重叠。在所有划分中,绝大多数对表现出低词汇重叠 (J < 0.25),即使在“等价”对中,只有18.9%、25.9%和15.0%的训练、开发、测试对的 J ≥ 0.25。这表明仅凭词汇重叠不足以确定等价性。 表 2\. LAUKIN 数据集统计。Lab. = 已标注;Unlab. = 未标注;%HS = Jaccard≥0.25 的对的百分比接下来,我们展示来自 LAUKIN 的例子以说明两个类别。第1节 (https://arxiv.org/html/2606.13184#S1)中的“等价”条款对展示了一个印度和澳大利亚的不可抗力条款,尽管存在词汇和句法差异,但它们都免除因超出其控制范围的延误而导致的责任。相比之下,下面展示的“不等价”条款对词汇重叠率为36%,但法律功能不同:澳大利亚条款管辖顾问直接提供服务交付,而英国条款管辖顾问公司向委员会提供人员。 > 澳大利亚:顾问已同意根据本协议的条款和条件提供服务及任何额外服务。 英国:顾问公司应根据本协议条款向委员会提供个人以提供服务。 ## 4\. 实验设置我们使用 LAUKIN 引入了法律等价分类任务。给定一个条款对,模型预测该对是“等价”还是“不等价”。我们评估了四种基线技术下的12个模型:零样本 (Kojima 等人,2022 (https://arxiv.org/html/2606.13184#bib.bib10))、少样本 (Brown 等人,2020 (https://arxiv.org/html/2606.13184#bib.bib5))、思维链提示 (Wei 等人,2022 (https://arxiv.org/

相似文章

DLawBench:通过多轮法律咨询评估大语言模型

arXiv cs.CL

DLawBench是一个新的基准测试,用于评估大语言模型在多轮法律咨询中的表现,涵盖中国和美国法律,包含四种客户类型。实验表明仍有很大改进空间,最佳模型在法律推理上仅达到0.562。