LegalBench-BR:评估大语言模型在巴西法律判决分类上的基准

arXiv cs.CL 论文

摘要

研究者发布首个公开基准 LegalBench-BR,用于评估大模型在巴西法律文本分类任务上的表现。实验表明,LoRA 微调的 BERTimbau 大幅超越 GPT-4o mini 与 Claude 3.5 Haiku。

arXiv:2604.18878v1 公告类型:新增 摘要:我们推出 LegalBench-BR——首个用于评估语言模型在巴西法律文本分类的公开基准。数据集包含 3,105 份来自圣卡塔琳娜州法院(TJSC)的上诉案件,通过 CNJ 的 DataJud API 采集,并借助大模型辅助标注与启发式验证,覆盖五个法律领域。在类别平衡的测试集上,仅更新 0.3% 参数的 BERTimbau-LoRA 达到 87.6% 准确率与 0.87 宏 F1,比 Claude 3.5 Haiku 高 22 个百分点,比 GPT-4o mini 高 28 个百分点。差距在行政法(administrativo)类别最为显著:GPT-4o mini 的 F1 为 0.00,Claude 3.5 Haiku 为 0.08,而微调模型达 0.91。两款商用大模型系统性地偏向民法(civel),将模糊类别归入其中,无法有效区分;这一问题经领域自适应微调后消失。结果表明,即使是简单的五分类任务,通用大模型也无法替代巴西法律领域的专用模型;而消费级 GPU 上的 LoRA 微调可在零边际推理成本下弥合差距。我们完整公开数据集、模型与流程,以促进葡萄牙语法律 NLP 的可复现研究。
查看原文
查看缓存全文

缓存时间: 2026/04/22 08:29

# LegalBench-BR:评估大语言模型在巴西法律判决分类任务上的基准
来源:https://arxiv.org/abs/2604.18878  
查看 PDF(https://arxiv.org/pdf/2604.18878)

> 摘要:我们发布 LegalBench-BR,首个用于评估语言模型在巴西法律文本分类上的公开基准。数据集包含 3,105 份来自圣卡塔琳娜州法院(TJSC)的上诉案件,通过 CNJ 的 DataJud API 获取,并借助大模型辅助标注、启发式验证,覆盖五个法律领域。在类别平衡的测试集上,仅更新 0.3% 参数的 BERTimbau-LoRA 达到 87.6% 准确率与 0.87 宏 F1,比 Claude 3.5 Haiku 高 22 个百分点,比 GPT-4o mini 高 28 个百分点。差距在行政法(administrativo)类别最为明显:GPT-4o mini 的 F1 为 0.00,Claude 3.5 Haiku 为 0.08,而微调模型达 0.91。两款商业大模型均系统性偏向民法(civel),将模糊类别并入该类,而非真正区分;经领域适配的微调可消除此失效模式。结果表明,即便只是简单的 5 类任务,通用大模型也无法替代领域适配的巴西法律分类模型;在消费级 GPU 上用 LoRA 微调即可零额外推理成本弥补差距。我们开源完整数据集、模型与流程,以推动葡萄牙语法律 NLP 的可复现研究。

## 提交历史

来自:Pedro Carvalho Neto[查看邮件(https://arxiv.org/show-email/6a3499f5/2604.18878)]**\[v1\]** 2026 年 4 月 20 日周一 22:00:02 UTC(142 KB)

相似文章

VLegal-Bench: 越南法律推理认知基础基准测试

arXiv cs.CL

VLegal-Bench 是一个认知基础基准测试,用于评估大语言模型在越南法律推理任务中的表现,包含 10,450 个专家标注样本,旨在填补民法系统法律基准的空白。该基准通过问答、多步推理和场景问题解决来评估多个层次的法律理解,为在非英文、成文法律背景下评估大语言模型提供了一个可复现的框架。

DLawBench:通过多轮法律咨询评估大语言模型

arXiv cs.CL

DLawBench是一个新的基准测试,用于评估大语言模型在多轮法律咨询中的表现,涵盖中国和美国法律,包含四种客户类型。实验表明仍有很大改进空间,最佳模型在法律推理上仅达到0.562。