探索用于法院观点生成的轻量级大语言模型
摘要
本文系统性地探索了轻量级(<2B)大语言模型在刑事法院观点生成中的能力,研究了模型架构、规模与对罪名预测影响之间的权衡。作者还介绍了CVGEvalKit,一个包含三个公开数据集的评估框架。
arXiv:2605.16770v1 公告类型: 新
摘要: 刑事法院观点生成(CVG)是法律人工智能(Legal AI)中的一项关键任务,涉及基于案件事实生成法院观点。本文系统性地探索了轻量级(小于2B参数)大语言模型(LLMs)在CVG中的能力及其对罪名预测的影响。我们的研究解决了四个关键问题:(1) 不同架构的LLMs如何影响CVG质量和罪名预测;(2) LLMs的规模如何影响性能;(3) 轻量级LLMs在这些任务中与深度神经网络(DNNs)相比如何;(4) 先通过法院观点生成再预测罪名与直接预测罪名相比结果如何。此外,我们还开发了CVGEvalKit,这是一个评估框架,包含三个公开可用的CVG任务数据集以及相应的罪名预测。在该框架上进行了全面的实验,模型在混合训练集上训练,并在每个数据集的测试集上进行评估。实验结果提供了关于模型架构、模型规模以及不同任务间影响权衡的新见解,突显了轻量级LLMs在司法AI应用中的潜力。源代码匿名发布于\url{https://github.com/ZhitianHou/CVGEvalKit}
查看缓存全文
缓存时间: 2026/05/19 06:35
# 探索用于裁判观点生成的轻量级大语言模型 来源:https://arxiv.org/html/2605.16770 侯志天¹,郝天永²,曾南里³,赵志雄¹,曾鲲¹,⋆ ¹中山大学计算机科学与工程学院 ²华南师范大学计算机学院 ³中国移动互联网有限公司 [email protected]; [email protected] ###### 摘要 刑事案件裁判观点生成(Criminal Court View Generation, CVG)是法律人工智能领域的一项关键任务,旨在根据案件事实自动生成裁判观点。本文系统性地探索了轻量级(参数小于2B)大语言模型在CVG任务中的能力及其对罪名预测的影响。研究围绕四个核心问题展开:(1) 不同架构的大语言模型如何影响裁判观点生成质量和罪名预测;(2) 模型规模如何影响性能;(3) 轻量级大语言模型与深度神经网络在这些任务中的表现对比;(4) 先生成裁判观点再预测罪名与直接预测罪名两种方式的差异。此外,我们开发了CVGEvalKit评估框架,包含三个公开可用的CVG数据集,并支持罪名预测。基于该框架,我们在混合训练集上训练模型,并在每个数据集的测试集上分别评估。实验结果揭示了模型架构、模型规模以及不同任务间影响的权衡关系,凸显了轻量级大语言模型在司法AI应用中的潜力。源代码已匿名公开于:https://github.com/ZhitianHou/CVGEvalKit  图1:各模型微调后在各测试集上的平均CVG ROUGE-L值 ## 1 引言 近年来,人工智能领域的方法越来越多地应用于法律领域(do Espírito Santo et al., 2024; Gao et al., 2024; Guo et al., 2024; Hou et al., 2025)。刑事案件裁判观点生成(CVG)是法律人工智能领域的一项重要任务,旨在基于案件事实描述自动生成裁判观点(Ye et al., 2018)。在法律体系中,裁判观点不仅为最终判决提供依据,还增强了透明度和可解释性,确保法律决策易于理解且保持一致。传统上,起草裁判观点需要大量人类专业知识和精力,这推动了自动化CVG系统的发展。除了简单的文本生成,CVG在下游应用(如罪名预测)中也发挥着重要作用,裁判观点的质量直接影响后续决策的准确性。尽管CVG非常重要,但由于法律语言的复杂性、逻辑一致性的要求以及准确融入法律知识与事实细节的必要性,它仍然是一个具有挑战性的问题。 自然语言处理的最新进展引入了能够捕捉复杂语言模式和领域知识的深度神经网络,并已应用于包括CVG在内的各种法律任务(Yue et al., 2021; Xu et al., 2024; Yue et al., 2024)。例如,Yue等人(Yue et al., 2021)设计了一种情节增强框架,分别生成裁判说理和量刑说理。Xu等人(Xu et al., 2024)提出了LeGen,这是一个面向刑事CVG的法律概念引导框架,融入了累犯、自首、抢劫等关键法律概念。Yue等人(Yue et al., 2024)提出了事件接地生成(Event Grounded Generation, EGG),将案件事实中提取的细粒度事件信息整合到CVG中。虽然深度神经网络在语言任务中表现出一定潜力,但它们往往难以捕捉案例事实中复杂的法律推理和长距离依赖关系,而这些对于生成准确的裁判观点至关重要。 另一方面,大语言模型展现出更强的生成和推理能力,即使在参数量适中的轻量级版本中也是如此,这使其成为CVG的有力候选者。如图1所示,开源模型在微调后,规模越大得分越高。然而,针对不同代大语言模型的系统比较研究仍然稀少,模型架构和规模对CVG质量及下游应用(如罪名预测)的影响尚有待深入探索。此外,先生成裁判观点再预测罪名与直接预测罪名两种方式的潜在优势尚未得到充分研究,深度神经网络与大语言模型在CVG任务上的对比分析也基本缺失。填补这些空白对于更好地理解司法AI系统中模型设计、规模选择和任务整合之间的权衡至关重要。 为填补上述空白,本文对轻量级大语言模型在CVG中的应用进行了系统研究。具体而言,我们研究了不同架构和规模下的多种模型,分析它们对CVG任务的影响。进一步,我们通过比较两种方式(先生成裁判观点再预测罪名 vs. 直接预测罪名),考察CVG如何影响下游罪名预测。最后,我们对比了深度神经网络与大语言模型在CVG任务上的表现,突显轻量级大语言模型在法律AI中的优势与局限。我们的贡献包括四个方面: - • 分析不同大语言模型架构之间的性能差异。 - • 研究模型规模对CVG质量和罪名预测的影响。 - • 对比深度神经网络与大语言模型在CVG任务上的表现,为司法AI系统设计提供见解。 - • 评估裁判观点生成对罪名预测准确率的影响。  图2:研究方法概览及本研究所探讨的四个研究问题。子图(a)比较不同模型架构(Llama-3.2-1B-Instruct, Gemma3-1B-IT, Qwen3-1.7B, InternLM2.5-1.8B-Chat)的性能,对应架构影响。子图(b)通过对比Qwen3-0.6B和Qwen3-1.7B反映模型规模的影响。子图(c)比较深度神经网络模型与轻量级大语言模型的性能。子图(d)比较两种罪名预测策略:先CVG后预测(CVG First)和直接预测(Directly),深蓝和灰色条分别对应两种设置。所有子图均使用ROUGE-L作为评估指标。 ## 2 相关工作 ### 2.1 裁判观点生成的结构化方法 近年来的研究越来越多地通过显式建模法律结构以及整合领域特定知识来增强CVG。早期工作通过从事实描述中提取详细的法律属性(例如裁判情节和量刑情节或领域相关的法律概念)来提升生成质量,从而增强生成裁判观点的相关性和事实依据(Yue et al., 2021; Xu et al., 2024)。其他研究则融入外部法律知识,例如将法条、罪名或诉求信息嵌入生成过程(Ye et al., 2018; Li and Zhang, 2021),或者通过提示工程和模型引导技术利用法律知识库(Li et al., 2024)。此外,为了提高可解释性和公平性,一些方法采用因果驱动的推理框架,包括反事实文本生成(Wu et al., 2020; Huang and Ouyang, 2023),或采用基于问答槽填充策略的模块化生成流程(Huang et al., 2021)。总的来说,这些工作表明,整合结构化法律知识和推理机制能够显著增强CVG的连贯性和可靠性。 ### 2.2 利用大语言模型进行裁判观点生成 随着大语言模型的快速发展,最近的研究开始探索其在CVG及相关法律推理任务中的潜力。一些研究利用通用大语言模型从案件事实中识别中间法律结构(Yue et al., 2024),而其他研究则尝试激活内部法律知识或引入外部监督信号,以更好地使大语言模型适应法律文本生成(Liu et al., 2024)。最近,Hou等人(Hou and Zeng, 2025)引入了首个专门面向CVG的大语言模型ShiZhi,证明了即使是紧凑型大语言模型,在领域特定数据上训练后也能生成连贯且具有法律依据的推理。然而,尽管这些工作表明大语言模型可以适用于CVG,但对轻量级大语言模型及其在CVG任务上表现的系统性分析仍然有限。特别是,缺乏对不同模型架构、模型规模及其对CVG质量和下游应用影响的全面比较研究。 | 数据集 | #训练 | #测试 | 案件事实平均长度 | 裁判观点平均长度 | 年份范围 | |--------|------|------|----------------|----------------|---------| | C3VG | 50,312 | 12,627 | 456.9 | 276.8 | 2012–2019 | | LCVG | 60,744 | 20,290 | 678.5 | 233.4 | 1998–2021 | | CCVG | 111,252 | 1,154 | 416.9 | 300.8 | 1985–2021 | 表1:实验中使用的数据集对比。#代表数量。 ## 3 方法 ### 3.1 概览 如图2所示,本研究系统性地考察了轻量级大语言模型在CVG中的应用及其对下游罪名预测的影响。我们聚焦于多种架构和规模下的不同开源模型,分析其性能表现。方法包括在混合CVG数据集上训练模型、生成裁判观点,并检验两种范式下对罪名预测的影响。 ### 3.2 模型架构 我们选取了多种轻量级大语言模型作为CVG的代表性模型,涵盖不同架构和规模,包括Qwen2.5-0.5B-Instruct (QwenTeam, 2024)、Qwen3 (Yang et al., 2025)、InternLM (Cai et al., 2024)、Llama-3.2-1B-Instruct、Gemma3-1B-IT (Team et al., 2025)。深度神经网络基线采用编码器-解码器架构,以案件事实为输入,生成裁判观点。与深度神经网络相比,大语言模型具有更大的容量和更好的长距离依赖建模能力,这对法律推理至关重要。通过对比这些模型,我们可以识别出影响CVG任务性能差异的因素。 ### 3.3 数据准备 实验涉及三个数据集:C3VG (Yue et al., 2021)、LCVG (Xu et al., 2024)和CCVG (Hou and Zeng, 2025),每个数据集均包含案件事实及其对应的裁判观点。我们将这三个数据集的训练集合并构建混合训练集,以评估模型的鲁棒性和泛化能力。然后,每个模型分别在三个数据集的测试集上进行评估。所有数据集统一采用标准预处理,包括分词、归一化和长度截断。 ### 3.4 训练流程 所有模型均使用词元级别的交叉熵损失进行微调,以最大化参考裁判观点的似然。对于大语言模型,我们采用低秩适配(LoRA)(Hu et al., 2021)进行参数高效微调,仅训练低秩更新矩阵,而原始模型权重保持冻结。LoRA的目标函数可以表述为: \[ \mathcal{L}_{LoRA} = -\sum_{t=1}^{T} \log P_{\theta}(y_t \mid y_{\text{court view}}, \text{chargeFacts:}\\\{fact\\\}\text{Output:} \] 对于直接罪名预测,仅需以 罪名 格式输出预测的罪名。 ### 3.5 评估指标 我们采用ROUGE (Lin, 2004)系列指标(ROUGE-1, ROUGE-2, ROUGE-L)、BLEU (Papineni et al., 2002)系列指标(BLEU-1, BLEU-2, BLEU-N)以及基于精确度、召回率和F1分数的准确率与宏平均F1来评估CVG质量和罪名预测性能。这些指标能够全面衡量生成文本与参考文本之间的内容重叠和语义一致性。 | 模型 | 裁判观点生成 | | | | | | 罪名预测 | |------|------------|---|--|---|---|---|--------| | | R-1 | R-2 | R-L | B-1 | B-2 | B-N | Acc | MF1 | | **深度神经网络模型** | | | | | | | | | | AttS2S*† | 57.41 | 38.23 | 58.90 | 52.27 | 36.67 | 34.05 | - | - | | Transformer*† | 61.05 | 40.67 | 58.45 | 51.86 | 39.40 | 35.78 | - | - | | C3VG*† | 62.12 | 42.70 | 60.50 | 60.78 | 42.98 | 40.64 | 90.67 | 1.2 | | **大语言模型** | | | | | | | | | | LeGen-PT (GLM3-6B)*† | 53.28 | 34.48 | 39.40 | 45.79 | 27.88 | 23.97 | - | - | | LeGen-FT (GLM3-6B)*† | 74.32 | 64.88 | 65.60 | 57.03 | 53.78 | 51.43 | - | - | | **开源大语言模型** | | | | | | | | | | Qwen3-0.6B | 3.36 | 0.35 | 2.61 | 0.14 | 0.12 | 0.09 | 59.87 | 74.90 | | Qwen3-1.7B | 37.34 | 20.54 | 28.32 | 19.53 | 17.08 | 13.40 | 71.63 | 83.47 | | Llama-3.2-1B-Instruct | 3.31 | 1.50 | 3.07 | 0.10 | 0.08 | 0.05 | 2.84 | 5.51 | | Gemma3-1B-IT | 29.36 | 11.78 | 19.19 | 21.31 | 17.05 | 11.55 | 5.68 | 10.75 | | InternLM2.5-1.8B-Chat | 3.01 | 0.17 | 2.35 | 0.00 | 0.00 | 0.00 | 0.03 | 0.06 | | **微调后的大语言模型** | | | | | | | | | | ShiZhi† | 62.01 | 43.21 | 53.28 | 59.03 | 52.37 | 44.18 | 88.85 | 94.10 | | Qwen3-0.6B (FT) | 79.30 | 66.34 | 75.14 | 71.25 | 68.33 | 63.41 | 91.67 | 95.65 | | Qwen3-1.7B (FT) | 80.97 | 68.85 | 77.09 | 73.20 | 70.47 | 65.88 | 93.28 | 96.52 | | Llama-3.2-1B-Instruct (FT) | 78.72 | 64.66 | 74.09 | 69.99 | 66.87 | 61.58 | 93.36 | 96.56 | | Gemma3-1B-IT (FT) | 79.03 | 64.99 | 74.37 | 70.56 | 67.43 | 62.11 | 93.86 | 96.83 | | InternLM2.5-1.8B-Chat (FT) | 82.21 | 70.90 | 78.68 | 74.00 | 71.51 | 67.31 | 93.53 | 96.66 | 表2:各模型在C3VG数据集上的性能对比。最优结果加粗,次优结果加下划线。标记“*”的结果引自(Yue et al., 2021; Xu et al., 2024),标记“†”的为基线模型。FT表示微调后。 最后,我们的方法支持回答四个研究问题: - • RQ1:不同架构的大语言模型如何影响CVG质量和罪名预测? - • RQ2:模型规模如何影响性能? - • RQ3:轻量级大语言模型与传统深度神经网络在这些任务中的表现如何? - • RQ4:先生成裁判观点再预测罪名与直接预测罪名两种方式效果如何? ## 4 实验 ### 4.1 数据集 我们收集了三个CVG数据集来评估模型性能。表1提供了这些数据集的对比,每个数据集的详细信息如下。 **C3VG** (Yue et al., 2021)。C3VG数据集来源于中国裁判文书网¹¹https://wenshu.court.gov.cn的刑事案件文书,包含案件事实描述、罪名以及裁判情节(ADC)和量刑情节(SEC)的说理。我们通过将案件事实句子与SEC说理对齐,聚焦于单一罪名案件。C3VG共包含72,939个案件,并为抽取任务进行划分。
相似文章
大型语言模型有多像人类?一个关注语域的语言评估框架
本文提出了一种关注语域的语言评估框架,通过使用最大均值差异(MMD)比较人类与LLM生成文本中67个词汇语法特征的分布,来评估大型语言模型(LLM)的人类相似度。在七个经过指令微调的开源模型和五个语域上的实验表明,没有模型能完美匹配人类基线,且与人类语言的接近程度因语域而异,而非模型规模。
从基准测试到推理能力:大语言模型在越南法律文本上的双维度大规模评估
为大语言模型在越南法律文本简化任务上提出了一个综合的双维度评估框架,结合了定量基准测试(准确性、可读性、一致性)和跨 GPT-4o、Claude 3 Opus、Gemini 1.5 Pro 和 Grok-1 的定性错误分析。
HyperGVL:大型视觉-语言模型在超图理解和推理中的基准测试与改进
HyperGVL 推出首个评估大型视觉-语言模型超图理解和推理能力的基准,包含 84,000 个问答样本和 12 项任务及实际应用。论文还提出了 WiseHyGR,一个可泛化的路由器,通过自适应超图表示改进 LVLM 性能。
大型语言模型能否模仿人类语音进行临床评估?基于LLM的数据增强方法用于认知评分预测
本文提出了一种基于大型语言模型的数据增强框架,利用GPT-5从书面锚点生成合成口语独白,用于从语音中预测认知评分。一种相似性引导的选择策略持续降低了预测误差,特别是对于少数低分参与者。
大型语言模型的高效引导生成
本文介绍了一种高效的方法,利用正则表达式和上下文无关文法引导LLM文本生成,开销极小,并在开源Python库Outlines中实现。