结合KAN模块增强BiGRU的法律文档分类与摘要生成
摘要
本文提出一种KAN增强的BiGRU架构,用于对孟加拉国的多语言法律文档进行分类和摘要生成,取得了适中的准确率和ROUGE分数,并证明KAN模块相比基线BiGRU提升了分类准确率。
arXiv:2606.00116v1 公告类型: 新论文
摘要:本研究提出一种基于KAN的BiGRU模型新架构,用于低资源多语言场景下的法律文档分类与摘要生成任务。为应对领域语言、多语言使用、长上下文依赖以及类别不平衡等问题,我们采用了来自孟加拉国法律文档的数据集(取自Manupatra),包含孟加拉语、英语以及转写孟加拉语。分类任务采用BiGRU模型结合Kolmogorov-Arnold网络(KAN)模块,摘要部分则使用基于注意力的GRU并配备KAN模型头。分类模型达到67.96%的准确率和0.65的F1分数;摘要生成在ROUGE-1、ROUGE-2和ROUGE-L上分别取得0.38、0.23和0.31的F1分数。消融实验表明,使用KAN将分类准确率从57.34%提升至67.96%。此外,我们将所提技术与多种基线方法(包括经典机器学习算法和预训练语言模型)进行了比较。
查看缓存全文
缓存时间: 2026/06/02 15:36
# 使用KAN模块增强BiGRU进行法律文档分类与摘要生成
来源:https://arxiv.org/html/2606.00116
Ahmed Faizul Haque Dhrubo¹,\*, Souvik Pramanik¹, Most. Aysha Siddika Sumona¹, Shahnewaz Siddique¹, Mohammad Ashrafuzzaman Khan¹, Mohammad Abdul Qayum¹, Mohsin Sajjad¹
¹ 南北大学电子与计算机工程系,孟加拉国达卡
邮箱:{ahmed.dhrubo, souvik.pramanik, most.sumona, shahnewaz.siddique, mohammad.khan02, mohammad.qayum, mohsin.sajjad}@northsouth.edu
*通讯作者:[email protected] (https://arxiv.org/html/2606.00116v1/mailto:[email protected])
###### 摘要
本研究提出了一种基于KAN的BiGRU模型的新颖架构,用于低资源多语言场景下法律文档的分类与摘要生成。为应对领域语言、多种语言混用、上下文长依赖以及类别不平衡等问题,我们采用了来自孟加拉国、取自Manupatra的数据集,其中包括孟加拉语、英语和转写孟加拉语的法律文档。分类任务采用BiGRU模型结合Kolmogorov-Arnold网络(KAN)模块,而摘要部分则使用基于注意力的GRU结合KAN模型头部。分类模型准确率达到67.96%,F1分数为0.65;摘要任务的ROUGE-1、ROUGE-2和ROUGE-L的F1分数分别为0.38、0.23和0.31。消融实验表明,使用KAN使分类准确率从57.34%提升至67.96%。此外,我们将提出的技术与多种基线方法(包括经典机器学习算法和预训练语言模型)进行了比较。
---
使用KAN模块增强BiGRU进行法律文档分类与摘要生成
Ahmed Faizul Haque Dhrubo¹,\*, Souvik Pramanik¹, Most. Aysha Siddika Sumona¹, Shahnewaz Siddique¹, Mohammad Ashrafuzzaman Khan¹, Mohammad Abdul Qayum¹, Mohsin Sajjad¹
¹ 南北大学电子与计算机工程系,孟加拉国达卡
邮箱:{ahmed.dhrubo, souvik.pramanik, most.sumona, shahnewaz.siddique, mohammad.khan02, mohammad.qayum, mohsin.sajjad}@northsouth.edu
*通讯作者:[email protected] (https://arxiv.org/html/2606.00116v1/mailto:[email protected])
图1:视觉摘要。参见说明。
## 1 引言
### 1.1 动机与背景
近年来自然语言处理取得了快速进展,但法律文本的文档理解在分类和摘要方面仍然存在问题。近期关于法律NLP的研究表明,处理多语言和领域特定术语等挑战的重要性(Jones和Smith,2019 (https://arxiv.org/html/2606.00116#bib.bib22))。这些问题在涉及孟加拉国等国家的法律数据集时尤为明显,该国的法律文档通常混合使用孟加拉语、英语和转写孟加拉语。现有的法律文本分类和摘要工作主要集中于更同质化的数据集或英语为中心的法律文本(Smith和Johnson,2020 (https://arxiv.org/html/2606.00116#bib.bib24))。法律文本(包括案情摘要、裁决和判决)通常篇幅较长且结构严谨,同时包含专业术语。这使得现有模型难以纳入长期依赖并捕获局部语义。在低资源的法律应用多语言场景下,情况更加恶化。当前数据收集自孟加拉国,包含用孟加拉语、英语和孟加拉语转写书写的文档。在这种情况下,多语言性加上词汇变异增加了问题的复杂性。此外,标签之间存在不平衡。因此,获得准确的分类结果并不容易。对法律文档进行分类和摘要有助于研究人员研究不同案件的结果,也有助于决策。例如,自动分类和摘要可以帮助律师更好地组织案件。然而,一个高效的系统需要满足所有这些因素才能有效分类文档。因此,本文探讨KAN能否增强循环架构以实现这一目的。
### 1.2 目标与贡献
在本工作中,我们研究使用由KAN模块增强的循环网络对法律文档进行分类和摘要。对于分类,我们采用带有KAN分类器的BiGRU网络;对于摘要,我们采用带有KAN分类器的注意力GRU网络。我们并不引入新的主干网络,而是关注KAN作为网络增强技术的影响。我们的贡献如下:
1. 1.我们引入了BiGRU-KAN和KAN辅助的注意力GRU架构,用于法律文档的分类和摘要。
2. 2.模型使用孟加拉国法律文档数据集进行训练和测试,其中包含孟加拉语、英语和罗马化孟加拉语表示的类别。
3. 3.消融实验证明了KAN的有效性,将分类准确率从57.34%提升至67.96%。
4. 4.将所提出技术的性能与传统机器学习和预训练语言模型进行了比较,并使用WeightedRandomSampler缓解类别不平衡。
### 1.3 论文组织
本文的其余部分组织如下:第2节 (https://arxiv.org/html/2606.00116#S2)回顾了法律文档分类、法律摘要和基于KAN建模的相关工作。第3节 (https://arxiv.org/html/2606.00116#S3)描述了数据集、预处理流程和数据集统计。第4节 (https://arxiv.org/html/2606.00116#S4)介绍了提出的方法,包括分类、摘要架构和系统架构。第5节 (https://arxiv.org/html/2606.00116#S5)报告了实验设置、基线比较、消融实验和主要结果。第6节 (https://arxiv.org/html/2606.00116#S6)讨论发现。第7节 (https://arxiv.org/html/2606.00116#S7)描述了研究的局限性和挑战。最后,第8节 (https://arxiv.org/html/2606.00116#S8)总结本研究并讨论未来工作方向。附录部分提供了实验的附加信息。
## 2 相关工作
法律文本处理研究主要集中在两个相互关联的问题上:分类和摘要。早期的法律文本分类研究使用传统机器学习技术,如支持向量机(SVM)和逻辑回归,并结合专门设计的特征(Cohen和Yang,2003 (https://arxiv.org/html/2606.00116#bib.bib8);Aletras和Stevenson,2016 (https://arxiv.org/html/2606.00116#bib.bib9))。这些解决方案适用于较小且结构化的文本,但由于无法处理长距离依赖,无法建模更复杂的语义关系。
后来,研究人员转向深度学习算法。循环神经网络及其变体现在被广泛使用,因为它们能够从多个角度考虑信息(Schuster和Paliwal,1997 (https://arxiv.org/html/2606.00116#bib.bib10);Chung等人,2014 (https://arxiv.org/html/2606.00116#bib.bib11))。例如,BiGRU和BiLSTM通常被使用,因为它们提供了从左右和右左两个角度分析文本的信息(Schuster和Paliwal,1997 (https://arxiv.org/html/2606.00116#bib.bib10);Chung等人,2014 (https://arxiv.org/html/2606.00116#bib.bib11))。此外,可以使用池化函数(如最大池化或平均池化)将可变大小的输入转换为分类所需的固定维度表示(Conneau等人,2017 (https://arxiv.org/html/2606.00116#bib.bib12))。尽管如此,由于法律文本输入长度大、词汇专业且类别不平衡,上述算法在法律NLP问题中仍然难以应用。
法律摘要生成的方法主要使用了增强注意力机制的编码器-解码器架构(Bahdanau等人,2015 (https://arxiv.org/html/2606.00116#bib.bib13);See等人,2017 (https://arxiv.org/html/2606.00116#bib.bib14))。注意力机制的引入使解码器在生成摘要时能够关注输入文档的相关部分。此外,指针生成网络能够通过生成新词和从原文复制来生成更准确的摘要,特别是在法律等领域(See等人,2017 (https://arxiv.org/html/2606.00116#bib.bib14))。这些模型在生成法律文档的高质量摘要方面优于简单的抽取式技术。然而,基于注意力的神经网络难以捕捉细微的法律细节、长期依赖关系和泛化能力。
最近,Kolmogorov-Arnold网络(KAN)作为传统多层感知器架构的替代方案出现,将固定的激活模式替换为参数化的样条基边函数(Liu等人,2024 (https://arxiv.org/html/2606.00116#bib.bib15))。这一概念受Kolmogorov-Arnold表示定理的启发。此外,KAN框架相比其他网络具有更好的可解释性。基于KAN的元素在涉及复杂非线性关系建模的上下文中已被证明有用。然而,KAN在法律NLP中的应用尚未被探索,特别是在低资源多语言场景中。
基于这些研究趋势,我们通过分析KAN架构在法律NLP模型中的使用,为具有挑战性的环境下的法律NLP任务做出贡献。在本研究中,我们不设计新的法律NLP模型神经主干,而是尝试研究在现有BiGRU框架中引入KAN模块对法律NLP任务的影响。我们提出模型的另一个方面是处理类别不平衡问题,这在大多数法律数据集中很常见。
## 3 数据集
### 3.1 数据来源与特征
本项目使用的数据集来自Manupatra(Manupatrafast,2026 (https://arxiv.org/html/2606.00116#bib.bib16)),这是一个提供案情摘要、判决、裁决等的法律研究在线平台。它包含用孟加拉语撰写的法律文档及相应的处置标签和摘要。该数据集的一个重要特点是低资源且多语言,因为其中包含孟加拉语、英语和转写孟加拉语的文档。由于多种语言的存在,不同语言的语法和词汇差异使任务变得困难。该数据集总样本数为2,937,处置类别分为10类,如图3 (https://arxiv.org/html/2606.00116#S3.F3)所示。
### 3.2 数据集预处理
在构建模型的数据准备过程中,采用了以下预处理技术:
- •缺失数据处理:将缺失值和占位符(如nan、null、none)标准化,同时处理无关特征。
- •文本标准化:对文本进行标准化以获得统一表示。
- •标签与文本对齐:仅在不会影响含义或标签分配时删除重复或损坏的条目。
- •文本探索性分析:计算文本长度以便进行适当的截断和填充。
- •分词:根据任务指南对清理后的文本进行分词。
### 3.3 数据划分
在当前研究中,数据被划分为两部分,分别用于训练和评估。
- •训练集:2,349个案例
- •保留评估集:588个案例
参见说明
图2:数据划分分布。
这两个类别的划分在模型训练和评估过程中使用,其可视化如图2 (https://arxiv.org/html/2606.00116#S3.F2)所示。
### 3.4 数据集统计与探索性分析
我们进行了探索性数据分析,以更好地理解语料库的结构和挑战。
- •目标变量“处置”在其10个类别中高度不平衡。为减少训练期间对多数类别的偏向,我们使用了加权采样。类别分布如图3 (https://arxiv.org/html/2606.00116#S3.F3)所示。
参见说明
图3:处置标签的类别分布。
- •“案情摘要”中最高频术语的可视化以词云形式展示在图4 (https://arxiv.org/html/2606.00116#S3.F4)中,以直观分析数据集的常见术语。
参见说明
图4:案情摘要中高频术语的词云。
## 4 方法
### 4.1 提出方法
参见说明
图5:提出方法。
在本节中,我们介绍用于法律文档分类和摘要的提出方法。具体而言,我们的目标是探究在现有循环网络中添加Kolmogorov-Arnold网络(KAN)模块是否能带来收益,从而有助于对来自低资源多语言数据集的序列数据进行建模。实验中使用了两个相似模型:一个是带有BiGRU网络和KAN预测头部的法律文档分类模型,另一个是带有基于注意力的GRU网络和KAN头部的法律文本摘要模型。“提出方法”的可视化表示如图5 (https://arxiv.org/html/2606.00116#S4.F5)所示。
### 4.2 系统架构
如上所述,我们数据集中的文本具有长度长、领域特定和语言多样性(孟加拉语、英语和转写孟加拉语)的特点。因此,为有效应对这一挑战,需要利用循环架构提取上下文信息,并通过使用KAN模块进一步丰富其表示。在分类任务中,法律文本通过双向门控循环单元(BiGRU)网络处理,然后经过池化聚合后输入KAN模块。在摘要任务中,我们采用基于注意力的GRU编码器-解码器方法,并带有KAN头部。所提出的KAN增强框架的系统架构如图6 (https://arxiv.org/html/2606.00116#S4.F6)所示。
参见说明
图6:用于法律文档分类和摘要的所提出的KAN增强框架的系统架构。
### 4.3 分类模型
给定一个输入法律文档XX,可以表示为标记序列
X = (x₁, x₂, …, x_T),
该序列首先被嵌入,然后输入BiGRU编码器。对于每个时间步,前向和后向隐藏状态的拼接将生成上下文嵌入
h_t = [→h_t; ←h_t]。
为了为分类任务生成固定大小的文档表示,我们需要对隐藏状态序列进行平均池化和最大池化:
h_mean = (1/T) ∑_{t=1}^{T} h_t,
h_max = max_{t=1,...,T} h_t。
然后,文档表示将生成为
h_doc = [h_mean; h_max]。相似文章
CanLegalRAGBench: 评估加拿大判例法上的检索增强生成
介绍了CanLegalRAGBench,这是一个基于真实查询和专家标注答案来评估加拿大判例法上检索增强生成的基准。评估显示对设计选择敏感、开源嵌入模型具有竞争力,以及生成答案中持续存在的幻觉问题。
LFRAG:面向布局的多模态文档理解细粒度检索增强生成
LFRAG提出了一种面向布局的细粒度检索增强生成框架,该框架在多模态文档中从页面级检索转向块级检索,在新提出的LFDocQA基准上实现了最先进的性能,并将令牌数量减少了73%。
LegalBench-BR:评估大语言模型在巴西法律判决分类上的基准
研究者发布首个公开基准 LegalBench-BR,用于评估大模型在巴西法律文本分类任务上的表现。实验表明,LoRA 微调的 BERTimbau 大幅超越 GPT-4o mini 与 Claude 3.5 Haiku。
通过自动分割和块蒸馏实现块注意力泛化
本文介绍了SemanticSeg,一个用于长文本语义分割的大规模数据集,以及块蒸馏(block distillation)训练框架,该框架使块注意力模型能够接近全注意力性能,从而在RAG和长上下文场景中改善KV缓存复用。
使用本地语法图为韩语法律聊天机器人生成训练数据集
本文提出了一种利用本地语法图(LGG)为韩语法律聊天机器人生成大规模、带标注训练数据集的方法,在使用 DIET 分类器时达到了 91% 的 F1 分数。