我在33,000份印度最高法院判决书(1950–2024)上训练了一个NER模型,CASE_CITATION的F1得分达到97.76%,比唯一的先前基线高出17个百分点 [P]

Reddit r/MachineLearning 模型

摘要

发布了 en_legal_ner_ind_trf v0.1,这是一个在33,000份印度最高法院判决书之上微调的InLegalBERT模型,在案例引用上取得了97.76%的F1得分,显著优于之前的基线。

**TL;DR**: 发布了 en\_legal\_ner\_ind\_trf v0.1 —— 在来自33,000份印度最高法院判决的约34,700个银标签块上微调的InLegalBERT。13个标签。整体F1为78.67%。CASE\_CITATION达到97.76%,已经比OpenNyAI的PRECEDENT得分高出17个百分点。免费,Apache-2.0。 **为什么存在** OpenNyAI是唯一一个在社区中有一定存在感的先前印度法律NER模型。它已经无人维护,并且在1990年之前的OCR时代文本上性能下降——这覆盖了印度宪法判例法的前40年。此前没有替代方案。 **结果** |实体|F1|支持数| |:-|:-|:-| |CASE\_CITATION|**97.76%**|3,821| |PROVISION|**96.35%**|20,248| |STATUTE|**91.94%**|8,187| |LAWYER|74.67%|3,982| |JUDGE|68.06%|1,978| |DATE|55.15%|3,289| |RESPONDENT|50.44%|1,731| |COURT|50.34%|1,033| |WITNESS|49.77%|762| |OTHER\_PERSON|47.11%|4,266| |PETITIONER|44.71%|1,573| |ORG|41.34%|2,128| |GPE|36.56% ⚠|1,197| |**微观平均**|**78.67%**|54,195| 在保留的验证集(约500份文档,stride=512,不重叠)上评估。25个文件的锁定测试集尚未触及——与OpenNyAI的正面比较将在v1.0中进行。 **比较说明**:OpenNyAI(RoBERTa + 基于转换的解析器,金标签)实现了91.1%的整体严格F1。但无法直接比较——不同的测试集、不同的标注质量、不同的语料范围。CASE\_CITATION上17个百分点的差距是唯一可比较的数字,值得注意。 **标注流程** 来自四个自动化流程的银标签按文档合并: * **正则表达式** —— 14模式引用提取器 + 法规/条款提取器 → `CASE_CITATION`、`STATUTE`、`PROVISION` * **元数据投射** —— 通过RapidFuzz将案例元数据JSON映射到字符偏移 → `JUDGE`、`PETITIONER`、`RESPONDENT` * **Transformer NER** —— OpenNyAI `en_legal_ner_trf`,偏移校正 → `LAWYER`、`COURT`、`ORG`、`GPE`、`DATE`、`OTHER_PERSON`、`WITNESS` * **地名辞典** —— 858部中央法案,带别名解析 → 确认并添加`STATUTE`跨度 使用Focal Loss(γ=2.0)进行训练,以处理STATUTE/CASE\_CITATION与O标记之间的标签不平衡。硬件:Kaggle T4(免费层)。 **已知弱点 —— 坦诚说明** **GPE(36.56%)和ORG(41.34%)** 是有问题的标签。在印度法律文本中,*"State of Maharashtra"* 或 *"Union of India"* 根据上下文会以GPE、PETITIONER、RESPONDENT或ORG出现。线性标记分类头无法解决重叠角色。CRF头是v1.0的任务。 **位置偏差** —— 银训练数据具有重复的页眉结构。当当事人出现在文档中间时性能下降。 **1990年之前的OCR噪声** —— 1950–1989年的判决质量参差不齐。越往前的数据召回率越低。 **下一步计划** 300份文件的金标签标注正在进行中(已有3位志愿者加入)。v1.0将增加CRF头,运行锁定测试集,并发布与OpenNyAI的官方正面比较。 模型:huggingface.co/evolawyer/inlegalbert-sc-ner-silver 数据集:huggingface.co/datasets/evolawyer/indian-sc-judgments-ner-silver GitHub:github.com/evolawyer/inlegalbert-sc-ner-silver 很高兴深入讨论标注流程、四个标签源之间的冲突解决,或Focal Loss的设置。
查看原文

相似文章

ModernBERT模型的法律领域适应

arXiv cs.CL

本文探讨了ModernBERT模型在法律领域的领域适应,通过在美国法院意见上进行进一步预训练,取得了相对于基础模型的显著改进,并公开发布了检查点。

VLegal-Bench: 越南法律推理认知基础基准测试

arXiv cs.CL

VLegal-Bench 是一个认知基础基准测试,用于评估大语言模型在越南法律推理任务中的表现,包含 10,450 个专家标注样本,旨在填补民法系统法律基准的空白。该基准通过问答、多步推理和场景问题解决来评估多个层次的法律理解,为在非英文、成文法律背景下评估大语言模型提供了一个可复现的框架。

CanLegalRAGBench: 评估加拿大判例法上的检索增强生成

arXiv cs.CL

介绍了CanLegalRAGBench,这是一个基于真实查询和专家标注答案来评估加拿大判例法上检索增强生成的基准。评估显示对设计选择敏感、开源嵌入模型具有竞争力,以及生成答案中持续存在的幻觉问题。