我在33,000份印度最高法院判决书（1950–2024）上训练了一个NER模型，CASE_CITATION的F1得分达到97.76%，比唯一的先前基线高出17个百分点 [P]

Reddit r/MachineLearning 2026/05/07 18:01 模型

named-entity-recognition legal-ai india fine-tuning open-source bert huggingface

摘要

发布了 en_legal_ner_ind_trf v0.1，这是一个在33,000份印度最高法院判决书之上微调的InLegalBERT模型，在案例引用上取得了97.76%的F1得分，显著优于之前的基线。

**TL;DR**: 发布了 en\_legal\_ner\_ind\_trf v0.1 —— 在来自33,000份印度最高法院判决的约34,700个银标签块上微调的InLegalBERT。13个标签。整体F1为78.67%。CASE\_CITATION达到97.76%，已经比OpenNyAI的PRECEDENT得分高出17个百分点。免费，Apache-2.0。 **为什么存在** OpenNyAI是唯一一个在社区中有一定存在感的先前印度法律NER模型。它已经无人维护，并且在1990年之前的OCR时代文本上性能下降——这覆盖了印度宪法判例法的前40年。此前没有替代方案。 **结果** |实体|F1|支持数| |:-|:-|:-| |CASE\_CITATION|**97.76%**|3,821| |PROVISION|**96.35%**|20,248| |STATUTE|**91.94%**|8,187| |LAWYER|74.67%|3,982| |JUDGE|68.06%|1,978| |DATE|55.15%|3,289| |RESPONDENT|50.44%|1,731| |COURT|50.34%|1,033| |WITNESS|49.77%|762| |OTHER\_PERSON|47.11%|4,266| |PETITIONER|44.71%|1,573| |ORG|41.34%|2,128| |GPE|36.56% ⚠|1,197| |**微观平均**|**78.67%**|54,195| 在保留的验证集（约500份文档，stride=512，不重叠）上评估。25个文件的锁定测试集尚未触及——与OpenNyAI的正面比较将在v1.0中进行。 **比较说明**：OpenNyAI（RoBERTa + 基于转换的解析器，金标签）实现了91.1%的整体严格F1。但无法直接比较——不同的测试集、不同的标注质量、不同的语料范围。CASE\_CITATION上17个百分点的差距是唯一可比较的数字，值得注意。 **标注流程** 来自四个自动化流程的银标签按文档合并： * **正则表达式** —— 14模式引用提取器 + 法规/条款提取器 → `CASE_CITATION`、`STATUTE`、`PROVISION` * **元数据投射** —— 通过RapidFuzz将案例元数据JSON映射到字符偏移 → `JUDGE`、`PETITIONER`、`RESPONDENT` * **Transformer NER** —— OpenNyAI `en_legal_ner_trf`，偏移校正 → `LAWYER`、`COURT`、`ORG`、`GPE`、`DATE`、`OTHER_PERSON`、`WITNESS` * **地名辞典** —— 858部中央法案，带别名解析 → 确认并添加`STATUTE`跨度使用Focal Loss（γ=2.0）进行训练，以处理STATUTE/CASE\_CITATION与O标记之间的标签不平衡。硬件：Kaggle T4（免费层）。 **已知弱点 —— 坦诚说明** **GPE（36.56%）和ORG（41.34%）** 是有问题的标签。在印度法律文本中，*"State of Maharashtra"* 或 *"Union of India"* 根据上下文会以GPE、PETITIONER、RESPONDENT或ORG出现。线性标记分类头无法解决重叠角色。CRF头是v1.0的任务。 **位置偏差** —— 银训练数据具有重复的页眉结构。当当事人出现在文档中间时性能下降。 **1990年之前的OCR噪声** —— 1950–1989年的判决质量参差不齐。越往前的数据召回率越低。 **下一步计划** 300份文件的金标签标注正在进行中（已有3位志愿者加入）。v1.0将增加CRF头，运行锁定测试集，并发布与OpenNyAI的官方正面比较。模型：huggingface.co/evolawyer/inlegalbert-sc-ner-silver 数据集：huggingface.co/datasets/evolawyer/indian-sc-judgments-ner-silver GitHub：github.com/evolawyer/inlegalbert-sc-ner-silver 很高兴深入讨论标注流程、四个标签源之间的冲突解决，或Focal Loss的设置。

查看原文

我在33,000份印度最高法院判决书（1950–2024）上训练了一个NER模型，CASE_CITATION的F1得分达到97.76%，比唯一的先前基线高出17个百分点 [P]

相似文章

ModernBERT模型的法律领域适应

LegalBench-BR：评估大语言模型在巴西法律判决分类上的基准

法律判决预测中的时间概念漂移：基于乌克兰法院判决三个时期的神经基线

VLegal-Bench: 越南法律推理认知基础基准测试

CanLegalRAGBench: 评估加拿大判例法上的检索增强生成

提交意见反馈