LegalBench-BR:评估大语言模型在巴西法律判决分类上的基准
摘要
研究者发布首个公开基准 LegalBench-BR,用于评估大模型在巴西法律文本分类任务上的表现。实验表明,LoRA 微调的 BERTimbau 大幅超越 GPT-4o mini 与 Claude 3.5 Haiku。
查看缓存全文
缓存时间: 2026/04/22 08:29
# LegalBench-BR:评估大语言模型在巴西法律判决分类任务上的基准 来源:https://arxiv.org/abs/2604.18878 查看 PDF(https://arxiv.org/pdf/2604.18878) > 摘要:我们发布 LegalBench-BR,首个用于评估语言模型在巴西法律文本分类上的公开基准。数据集包含 3,105 份来自圣卡塔琳娜州法院(TJSC)的上诉案件,通过 CNJ 的 DataJud API 获取,并借助大模型辅助标注、启发式验证,覆盖五个法律领域。在类别平衡的测试集上,仅更新 0.3% 参数的 BERTimbau-LoRA 达到 87.6% 准确率与 0.87 宏 F1,比 Claude 3.5 Haiku 高 22 个百分点,比 GPT-4o mini 高 28 个百分点。差距在行政法(administrativo)类别最为明显:GPT-4o mini 的 F1 为 0.00,Claude 3.5 Haiku 为 0.08,而微调模型达 0.91。两款商业大模型均系统性偏向民法(civel),将模糊类别并入该类,而非真正区分;经领域适配的微调可消除此失效模式。结果表明,即便只是简单的 5 类任务,通用大模型也无法替代领域适配的巴西法律分类模型;在消费级 GPU 上用 LoRA 微调即可零额外推理成本弥补差距。我们开源完整数据集、模型与流程,以推动葡萄牙语法律 NLP 的可复现研究。 ## 提交历史 来自:Pedro Carvalho Neto[查看邮件(https://arxiv.org/show-email/6a3499f5/2604.18878)]**\[v1\]** 2026 年 4 月 20 日周一 22:00:02 UTC(142 KB)
相似文章
Magis-Bench: Evaluating LLMs on Magistrate-Level Legal Tasks
This article introduces Magis-Bench, a benchmark for evaluating large language models on magistrate-level legal tasks such as judicial reasoning and sentence drafting, using data from Brazilian judicial exams.
UA-Legal-Bench:评估大语言模型在乌克兰法律推理能力的基准
介绍了UA-Legal-Bench,这是一个基于统一国家法院判决登记册构建的、用于评估大语言模型在乌克兰法律推理能力的五项任务基准。评估了11个LLM,揭示了任务相关的少样本效应以及在不平衡法律任务中准确率的误导性。
VLegal-Bench: 越南法律推理认知基础基准测试
VLegal-Bench 是一个认知基础基准测试,用于评估大语言模型在越南法律推理任务中的表现,包含 10,450 个专家标注样本,旨在填补民法系统法律基准的空白。该基准通过问答、多步推理和场景问题解决来评估多个层次的法律理解,为在非英文、成文法律背景下评估大语言模型提供了一个可复现的框架。
从基准测试到推理能力:大语言模型在越南法律文本上的双维度大规模评估
为大语言模型在越南法律文本简化任务上提出了一个综合的双维度评估框架,结合了定量基准测试(准确性、可读性、一致性)和跨 GPT-4o、Claude 3 Opus、Gemini 1.5 Pro 和 Grok-1 的定性错误分析。
DLawBench:通过多轮法律咨询评估大语言模型
DLawBench是一个新的基准测试,用于评估大语言模型在多轮法律咨询中的表现,涵盖中国和美国法律,包含四种客户类型。实验表明仍有很大改进空间,最佳模型在法律推理上仅达到0.562。