LegalBench-BR：评估大语言模型在巴西法律判决分类上的基准

arXiv cs.CL 2026/04/22 04:00 论文

摘要

研究者发布首个公开基准 LegalBench-BR，用于评估大模型在巴西法律文本分类任务上的表现。实验表明，LoRA 微调的 BERTimbau 大幅超越 GPT-4o mini 与 Claude 3.5 Haiku。

arXiv:2604.18878v1 公告类型：新增摘要：我们推出 LegalBench-BR——首个用于评估语言模型在巴西法律文本分类的公开基准。数据集包含 3,105 份来自圣卡塔琳娜州法院（TJSC）的上诉案件，通过 CNJ 的 DataJud API 采集，并借助大模型辅助标注与启发式验证，覆盖五个法律领域。在类别平衡的测试集上，仅更新 0.3% 参数的 BERTimbau-LoRA 达到 87.6% 准确率与 0.87 宏 F1，比 Claude 3.5 Haiku 高 22 个百分点，比 GPT-4o mini 高 28 个百分点。差距在行政法（administrativo）类别最为显著：GPT-4o mini 的 F1 为 0.00，Claude 3.5 Haiku 为 0.08，而微调模型达 0.91。两款商用大模型系统性地偏向民法（civel），将模糊类别归入其中，无法有效区分；这一问题经领域自适应微调后消失。结果表明，即使是简单的五分类任务，通用大模型也无法替代巴西法律领域的专用模型；而消费级 GPU 上的 LoRA 微调可在零边际推理成本下弥合差距。我们完整公开数据集、模型与流程，以促进葡萄牙语法律 NLP 的可复现研究。

查看原文

查看缓存全文

缓存时间: 2026/04/22 08:29

# LegalBench-BR：评估大语言模型在巴西法律判决分类任务上的基准
来源：https://arxiv.org/abs/2604.18878  
查看 PDF（https://arxiv.org/pdf/2604.18878）

> 摘要：我们发布 LegalBench-BR，首个用于评估语言模型在巴西法律文本分类上的公开基准。数据集包含 3,105 份来自圣卡塔琳娜州法院（TJSC）的上诉案件，通过 CNJ 的 DataJud API 获取，并借助大模型辅助标注、启发式验证，覆盖五个法律领域。在类别平衡的测试集上，仅更新 0.3% 参数的 BERTimbau-LoRA 达到 87.6% 准确率与 0.87 宏 F1，比 Claude 3.5 Haiku 高 22 个百分点，比 GPT-4o mini 高 28 个百分点。差距在行政法（administrativo）类别最为明显：GPT-4o mini 的 F1 为 0.00，Claude 3.5 Haiku 为 0.08，而微调模型达 0.91。两款商业大模型均系统性偏向民法（civel），将模糊类别并入该类，而非真正区分；经领域适配的微调可消除此失效模式。结果表明，即便只是简单的 5 类任务，通用大模型也无法替代领域适配的巴西法律分类模型；在消费级 GPU 上用 LoRA 微调即可零额外推理成本弥补差距。我们开源完整数据集、模型与流程，以推动葡萄牙语法律 NLP 的可复现研究。

## 提交历史

来自：Pedro Carvalho Neto［查看邮件（https://arxiv.org/show-email/6a3499f5/2604.18878）］**\[v1\]** 2026 年 4 月 20 日周一 22:00:02 UTC（142 KB）

LegalBench-BR：评估大语言模型在巴西法律判决分类上的基准

相似文章

Magis-Bench: Evaluating LLMs on Magistrate-Level Legal Tasks

UA-Legal-Bench：评估大语言模型在乌克兰法律推理能力的基准

VLegal-Bench: 越南法律推理认知基础基准测试

从基准测试到推理能力：大语言模型在越南法律文本上的双维度大规模评估

DLawBench：通过多轮法律咨询评估大语言模型

提交意见反馈