VLegal-Bench: 越南法律推理认知基础基准测试
摘要
VLegal-Bench 是一个认知基础基准测试,用于评估大语言模型在越南法律推理任务中的表现,包含 10,450 个专家标注样本,旨在填补民法系统法律基准的空白。该基准通过问答、多步推理和场景问题解决来评估多个层次的法律理解,为在非英文、成文法律背景下评估大语言模型提供了一个可复现的框架。
查看缓存全文
缓存时间: 2026/04/20 08:31
# 对大型语言模型越南法律知识的基准测试
来源: https://arxiv.org/html/2512.14554
Nguyen Tien Dong1,2,*,Minh-Anh Nguyen1,2,*,Thanh Dat Hoang1, Nguyen Tuan Ngoc1,Dao Xuan Quang Minh1,Phan Phi Hai1, Nguyen Thi Ngoc Anh1,3,†,Binh Vu4,†
1CMC OpenAI,2VinUniversity,3HUST, 越南
4SRH University Heidelberg, 德国
{dongnt,minhna}@cmcai.vn, {25dong.nt,minh.na2}@vinuni.edu.vn
*共同一作。†共同通讯作者
###### 摘要
大型语言模型(LLMs)的快速进步扩展了其在法律领域的应用潜力。然而,现有的法律基准测试主要以英文为中心,面向普通法系,忽视了对管辖全球大多数司法管辖区的民法系统的评估,存在重大空白。为弥补这一空白,我们推出了越南法律基准(VietLegal),这是一个为越南法律的分层和成文结构量身定制的、认知基础扎实的基准。虽然以越南法律为例,但VietLegal为民法系统提供了可复用的评估框架,这些系统具有复杂的法定等级制和频繁的修订。受Bloom分类学启发,VietLegal通过反映真实世界法律助手用例的任务来评估多个层次的法律理解,包括法律问答、多步推理和基于场景的问题解决。该基准包含10,450个专家标注样本,每个样本都经过权威法律来源的交叉验证,以确保符合实际法律工作流程。通过提供越南首个标准化法律基准,VietLegal能够系统地评估LLMs在民法背景下的表现,并支持开发更可靠和可解释的AI辅助法律系统。
## 1 引言
大型语言模型(LLMs)的快速进展已在法律领域实现了变革性应用Homoki and Ződi (2024); Sun (2023)。虽然LLMs在通用任务上表现出色,但其在法律复杂且低资源语言(如越南语)中的有效性在很大程度上仍未被探索。越南法律的特点是正式、分层且不断发展的成文法制度,需要专门评估以确保模型输出在法律上准确、一致且符合伦理。
现有的法律NLP基准测试主要针对英文普通法,强调基于案例的推理Chalkidis et al. (2022); Guha et al. (2023)。这种关注忽视了民法系统,民法系统管辖全球60%以上的司法管辖区,权力来自分层的法定文本而非司法先例Merryman and Pérez-Perdomo (2018); JuriGlobe (2023)。民法引入了不同的挑战,要求模型导航复杂的法定解释并追踪频繁修订中的时间有效性。虽然最近的基准测试已涉及中国民法Li et al. (2024); Dai et al. (2025); Fei et al. (2024),但其他成文法传统仍代表不足。越南法律特别存在独特困难,因为其严重依赖条款、款和项之间的复杂交叉引用,需要专门评估以确保法律保真度。
为解决这些局限性,我们推出VietLegal,这是首个在民法框架内设计用于评估LLMs在越南法律任务上表现的综合基准。以Bloom认知分类学为基础,VietLegal评估模型从基本回忆到多步推理和伦理判断的逐步深化的能力。该基准包含10,450个专家标注样本,每个样本都经过权威法律来源的交叉验证,以确保符合实际法律工作流程。通过提供越南首个标准化法律基准,VietLegal能够在民法背景下系统评估LLMs,并支持开发更可靠的AI辅助法律系统。
我们的主要贡献总结如下:
首先,我们推出VietLegal,这是一个评估LLMs在越南法律任务上表现的基准,设计可复用于其他民法司法管辖区。
其次,我们提出了一种以认知基础扎实的评估方法,受Bloom分类学启发,能够实现从基本法律回忆到高级多步推理的系统评估。
第三,我们发布了一个包含10,450个专家验证样本的高质量数据集,并在23个多样化LLMs上进行了大规模实验,提供了对其在民法推理中优势和局限性的深入洞察。
基准和评估代码可在匿名仓库获取:github.com/CMC-OPENAI/VLegal-Bench
| 级别 | ID | 任务 | 目的 | 类型 | 指标 | 测试集 |
|------|----|----|------|------|------|--------|
| 1. 识别与回忆 | 1.1 | 法律实体识别 | 在法律文件中检测和分类命名实体,包括人员、组织、金额等。 | 多选题、NER | 准确率、EM | 750 |
| | 1.2 | 法律主题分类 | 将法律问题分类为预定义的法律主题。 | 多选题、多标签分类 | 准确率、宏观F1 | 700 |
| | 1.3 | 法律概念回忆 | 回忆法定定义或法律术语和概念的含义。 | 多选题 | 准确率 | 300 |
| | 1.4 | 条款回忆 | 检索或引用与术语、概念或问题对应的正确法律条款。 | 多选题 | 准确率 | 1000 |
| | 1.5 | 法律模式回忆 | 识别并回忆法律文件之间的分层和时间关系(如修订、替换等)。 | 多选题 | 准确率 | 800 |
| 2. 理解与结构化 | 2.1 | 关系抽取 | 从事实情景中抽取法律关系的主体、客体和内容。 | 多选题 | 准确率 | 253 |
| | 2.2 | 法律要素识别 | 识别法律条款内的假设、处置和制裁成分。 | 多选题 | 准确率 | 300 |
| | 2.3 | 法律图结构化 | 将法律文件转换为结构化知识图,代表实体、关系和条款间交叉引用。 | 生成、多标签分类 | ROUGE-L、节点F1、边F1 | 296 |
| | 2.4 | 判决书验证 | 评估法院的推理或陈述是否与实际判决书的事实和法律内容一致。 | 二分类 | 准确率 | 600 |
| | 2.5 | 用户意图理解 | 确定用户与法律助手交互时的潜在意图或查询类型。 | 多标签分类 | 宏观F1 | 1359 |
| 3. 推理与推断 | 3.1 | 条款预测 | 预测哪个法律条款或款项适用于给定的法律问题或简短查询,而非冗长的事实情景。 | 多选题 | 准确率 | 600 |
| | 3.2 | 法律法院判决预测 | 从真实案件的事实和法律内容预测最终法院判决或判决结果。 | 多选题 | 准确率 | 600 |
| | 3.3 | 多条款推理 | 通过连接多个法律条款或事实来进行多步推理以得出一致结论。 | 多选题 | 准确率 | 292 |
| | 3.4 | 冲突与一致性检测 | 识别不同法律条款或跨法定文本或合同的解释中的矛盾或重叠。 | 二分类 | 二分类F1 | 161 |
| | 3.5 | 处罚/救济估计 | 为给定的事实情景估计适当的法律处罚或救济。 | 多选题 | 准确率 | 358 |
| 4. 解释与生成 | 4.1 | 法律文件摘要 | 生成长法律文本(法定文本、判决书、合同)的简明摘要,同时保留关键信息。 | 生成 | ROUGE-L | 384 |
| | 4.2 | 司法推理生成 | 基于IRAC模板(问题-规则-应用-结论)生成结构化推理段落。 | 生成 | ROUGE-L | 299 |
| | 4.3 | 客观法律意见生成 | 生成与法定解释相一致的平衡、公正的法律意见或咨询文本。 | 生成 | ROUGE-L | 498 |
| 5. 伦理、公平性与偏见 | 5.1 | 偏见检测 | 检测生成的答案或决定中的性别、种族、政治或宗教偏见以确保公平。 | 多选题 | 准确率 | 250 |
| | 5.2 | 隐私与数据保护 | 识别和编辑法律文本中的敏感或个人数据以确保隐私合规。 | 多选题 | 准确率 | 216 |
| | 5.3 | 伦理一致性评估 | 评估模型的输出是否与法律推理中的职业伦理和道德标准一致。 | 多选题 | 准确率 | 200 |
| | 5.4 | 不公平合同检测 | 比较模型在相似案件或当事人中的判断,以评估公正性和公平推理。 | 多选题 | 准确率 | 234 |
表1:VietLegal概览:该基准通过五个问题模板在五个层次上评估法律LLMs,从基本识别到伦理推理:多选题问答(MCQ)、多标签分类(MLC)、二分类(BC)、命名实体识别(NER)和越南法律生成。
## 2 相关工作
##### 法律LLM基准。早期的法律NLP基准测试主要针对孤立的任务,如判决预测或法定文本分类,以CaseHOLD为例Zheng et al. (2021)。最近的工作已转向对一般法律智能的多任务评估,最值得注意的是LexGLUE Chalkidis et al. (2022)和LegalBench Guha et al. (2023),强调超越表面级语言理解的法律推理。平行发展包括法律专业LLMs基准Cui et al. (2023); Yue et al. (2023)和民法导向资源,特别是中文Fei et al. (2024); Dai et al. (2025); Fei et al. (2024),以及欧洲民法基准,如法定文本检索Louis and Spanakis (2022)和德国民法问答Büttner and Habernal (2024),进一步突出了成文法系统中的结构差异。尽管取得了进展,低资源语言和全球南方许多民法司法管辖区仍代表不足,越南法律在现有基准景观中基本上未被探索。
##### 越南法律NLP。越南法律NLP研究主要由社区主导的共享任务驱动,特别是通过VLSP研讨会Nguyen et al. (2021),这些研讨会已为法律检索、蕴含和问答生成了数据集。预训练模型如PhoBERT Nguyen and Nguyen (2020)和ViT5 Phan et al. (2022)已在这些基础任务上实现了强大性能。然而,现有资源片段化且主要集中于检索或抽取,对生成推理、多步推断或立法修订追踪的评估有限。最近关于越南法律RAG系统的工作Nguyen et al. (2024)进一步强调了缺乏能够评估真实法律助手工作流程的统一、标准化基准。
##### 认知评估与指标。最近的基准测试工作越来越多地利用认知框架来区分记忆与高阶推理。Bloom分类学已被用于安排任务难度,而思维链提示Wei et al. (2022)强调了评估中间推理的重要性。在法律NLP中,评估仍存在挑战,因为标准生成指标通常与事实正确性关联不佳Liu et al. (2023)。因此,我们采用混合评估策略,将低认知层次的抽取指标与高层次任务的生成指标相结合。关键地,法律推理扎根于法律三段论和包含理论Alexy (1989),其中正确将法定规范应用于事实情景是中心。
## 3 VietLegal
### 3.1 VietLegal的设计原则
VietLegal围绕受Bloom分类学启发并适应越南法律的语言和结构特性的分层认知框架组织,包括从事实识别到高级法律推理的五个法律认知层次。每项任务都明确设计为反映民法系统固有的挑战,特别是第3和第4层针对复杂的法定推理现象,如多条款依赖、跨法律文件的分层解释以及在重叠或修订的规定下的一致性分析。虽然在越南语中开发,VietLegal为在成文法系统中评估AI提供了可复用框架。其任务设计反映了真实法律助手用例,并针对核心民法推理模式而非基于案例的分析,实现了对其他民法语言和司法管辖区的直接改编。基准概览见表1,详细任务描述见附录G。
**第1层 - 识别与回忆**针对越南背景下的基础法律素养。它评估LLM是否能准确识别和检索密集且高度交叉引用法律文本中的核心法律实体、概念和法定条款。这些任务评估基础事实能力,这是更深层法律理解的先决条件,并模拟用户寻求基本法律信息澄清的真实交互。
**第2层 - 理解与结构化**检验LLM理解和组织复杂法定内容的能力。鉴于越南法律的分层结构及其频繁修订,这一层级评估模型是否能捕捉条款、款和项之间的关系,并将法律规范表示为连贯的、不断发展的系统。这些任务反映了实际法律助手情景,包括分析冗长法律文件、验证司法判决和向用户解释法定关系。
**第3层 - 推理与推断**评估模型通过逻辑和多步推理将法律条款应用于事实情景的能力。这一层级的任务需要预测相关条款、估计处罚或救济、综合跨多个法定文本的信息,以及解决重叠或修订法律规范之间的冲突。这些技能对真实法律问题解决和司法支持至关重要。
**第4层 - 解释与生成**评估更高阶的解释和生成能力。这一层级测试LLM是否能生成连贯、准确和无偏的法律文本,如法定文本摘要、相似文章
从基准测试到推理能力:大语言模型在越南法律文本上的双维度大规模评估
为大语言模型在越南法律文本简化任务上提出了一个综合的双维度评估框架,结合了定量基准测试(准确性、可读性、一致性)和跨 GPT-4o、Claude 3 Opus、Gemini 1.5 Pro 和 Grok-1 的定性错误分析。
LegalBench-BR:评估大语言模型在巴西法律判决分类上的基准
研究者发布首个公开基准 LegalBench-BR,用于评估大模型在巴西法律文本分类任务上的表现。实验表明,LoRA 微调的 BERTimbau 大幅超越 GPT-4o mini 与 Claude 3.5 Haiku。
HyperGVL:大型视觉-语言模型在超图理解和推理中的基准测试与改进
HyperGVL 推出首个评估大型视觉-语言模型超图理解和推理能力的基准,包含 84,000 个问答样本和 12 项任务及实际应用。论文还提出了 WiseHyGR,一个可泛化的路由器,通过自适应超图表示改进 LVLM 性能。
重探语义处理的痛点:语言模型的语义推理基准测试
研究人员推出了 SemanticQA 基准测试,旨在评估语言模型在包含习语、名词复合词及动词结构等语义短语处理任务上的表现。结果显示,不同架构与规模的模型在语义推理任务上的性能存在显著差异。
RedBench:大型语言模型综合红队测试通用数据集
RedBench 引入了一个通用数据集,聚合了 37 个基准数据集,包含 29,362 个样本,涵盖 22 个风险类别和 19 个领域,用于实现大型语言模型的标准化和综合红队测试评估。该工作解决了现有红队测试数据集中的不一致问题,并提供了基准、评估代码和开源资源,用于评估 LLM 对对抗提示的鲁棒性。