我在33,000份印度最高法院判决书(1950–2024)上训练了一个NER模型,CASE_CITATION的F1得分达到97.76%,比唯一的先前基线高出17个百分点 [P]
摘要
发布了 en_legal_ner_ind_trf v0.1,这是一个在33,000份印度最高法院判决书之上微调的InLegalBERT模型,在案例引用上取得了97.76%的F1得分,显著优于之前的基线。
**TL;DR**: 发布了 en\_legal\_ner\_ind\_trf v0.1 —— 在来自33,000份印度最高法院判决的约34,700个银标签块上微调的InLegalBERT。13个标签。整体F1为78.67%。CASE\_CITATION达到97.76%,已经比OpenNyAI的PRECEDENT得分高出17个百分点。免费,Apache-2.0。
**为什么存在**
OpenNyAI是唯一一个在社区中有一定存在感的先前印度法律NER模型。它已经无人维护,并且在1990年之前的OCR时代文本上性能下降——这覆盖了印度宪法判例法的前40年。此前没有替代方案。
**结果**
|实体|F1|支持数|
|:-|:-|:-|
|CASE\_CITATION|**97.76%**|3,821|
|PROVISION|**96.35%**|20,248|
|STATUTE|**91.94%**|8,187|
|LAWYER|74.67%|3,982|
|JUDGE|68.06%|1,978|
|DATE|55.15%|3,289|
|RESPONDENT|50.44%|1,731|
|COURT|50.34%|1,033|
|WITNESS|49.77%|762|
|OTHER\_PERSON|47.11%|4,266|
|PETITIONER|44.71%|1,573|
|ORG|41.34%|2,128|
|GPE|36.56% ⚠|1,197|
|**微观平均**|**78.67%**|54,195|
在保留的验证集(约500份文档,stride=512,不重叠)上评估。25个文件的锁定测试集尚未触及——与OpenNyAI的正面比较将在v1.0中进行。
**比较说明**:OpenNyAI(RoBERTa + 基于转换的解析器,金标签)实现了91.1%的整体严格F1。但无法直接比较——不同的测试集、不同的标注质量、不同的语料范围。CASE\_CITATION上17个百分点的差距是唯一可比较的数字,值得注意。
**标注流程**
来自四个自动化流程的银标签按文档合并:
* **正则表达式** —— 14模式引用提取器 + 法规/条款提取器 → `CASE_CITATION`、`STATUTE`、`PROVISION`
* **元数据投射** —— 通过RapidFuzz将案例元数据JSON映射到字符偏移 → `JUDGE`、`PETITIONER`、`RESPONDENT`
* **Transformer NER** —— OpenNyAI `en_legal_ner_trf`,偏移校正 → `LAWYER`、`COURT`、`ORG`、`GPE`、`DATE`、`OTHER_PERSON`、`WITNESS`
* **地名辞典** —— 858部中央法案,带别名解析 → 确认并添加`STATUTE`跨度
使用Focal Loss(γ=2.0)进行训练,以处理STATUTE/CASE\_CITATION与O标记之间的标签不平衡。硬件:Kaggle T4(免费层)。
**已知弱点 —— 坦诚说明**
**GPE(36.56%)和ORG(41.34%)** 是有问题的标签。在印度法律文本中,*"State of Maharashtra"* 或 *"Union of India"* 根据上下文会以GPE、PETITIONER、RESPONDENT或ORG出现。线性标记分类头无法解决重叠角色。CRF头是v1.0的任务。
**位置偏差** —— 银训练数据具有重复的页眉结构。当当事人出现在文档中间时性能下降。
**1990年之前的OCR噪声** —— 1950–1989年的判决质量参差不齐。越往前的数据召回率越低。
**下一步计划**
300份文件的金标签标注正在进行中(已有3位志愿者加入)。v1.0将增加CRF头,运行锁定测试集,并发布与OpenNyAI的官方正面比较。
模型:huggingface.co/evolawyer/inlegalbert-sc-ner-silver
数据集:huggingface.co/datasets/evolawyer/indian-sc-judgments-ner-silver
GitHub:github.com/evolawyer/inlegalbert-sc-ner-silver
很高兴深入讨论标注流程、四个标签源之间的冲突解决,或Focal Loss的设置。
相似文章
ModernBERT模型的法律领域适应
本文探讨了ModernBERT模型在法律领域的领域适应,通过在美国法院意见上进行进一步预训练,取得了相对于基础模型的显著改进,并公开发布了检查点。
LegalBench-BR:评估大语言模型在巴西法律判决分类上的基准
研究者发布首个公开基准 LegalBench-BR,用于评估大模型在巴西法律文本分类任务上的表现。实验表明,LoRA 微调的 BERTimbau 大幅超越 GPT-4o mini 与 Claude 3.5 Haiku。
法律判决预测中的时间概念漂移:基于乌克兰法院判决三个时期的神经基线
本文通过在地缘政治动荡定义的三个时期的乌克兰法院判决上微调Transformer模型,研究法律判决预测中的时间概念漂移。发现显示严重的前向退化、反向迁移的不对称性,以及按时间顺序的持续学习有效缓解遗忘,而领域预训练降低退化幅度。
VLegal-Bench: 越南法律推理认知基础基准测试
VLegal-Bench 是一个认知基础基准测试,用于评估大语言模型在越南法律推理任务中的表现,包含 10,450 个专家标注样本,旨在填补民法系统法律基准的空白。该基准通过问答、多步推理和场景问题解决来评估多个层次的法律理解,为在非英文、成文法律背景下评估大语言模型提供了一个可复现的框架。
CanLegalRAGBench: 评估加拿大判例法上的检索增强生成
介绍了CanLegalRAGBench,这是一个基于真实查询和专家标注答案来评估加拿大判例法上检索增强生成的基准。评估显示对设计选择敏感、开源嵌入模型具有竞争力,以及生成答案中持续存在的幻觉问题。