基于检索的多标签法律标注：可扩展、数据高效且无幻觉

arXiv cs.CL 2026/05/19 04:00 论文

retrieval multi-label legal-annotation data-efficient hallucination-free information-retrieval

摘要

本文提出了一种基于检索的多标签法律标注方法，使用冻结的嵌入模型通过k近邻检索标签，实现了有竞争力的准确性、高数据效率，并从根本上消除了标签幻觉。

arXiv:2605.16767v1 Announce Type: new 摘要：多标签法律标注需要从庞大且不断演变的分类体系中为长篇、事实密集的文档分配多个标签，且通常在监督有限的情况下进行。参数化编码器通常需要针对特定任务进行训练，并在标签集变化时重新训练，而提示生成式大语言模型则成本高昂，且随着标签空间扩大性能下降。我们将法律标注视为检索问题：使用冻结的检索模型对文档和标签描述进行嵌入，并通过嵌入空间中的k近邻预测标签，从而通过重新嵌入和重新索引而非基于梯度的反向传播来实现更新。在三个法律数据集（ECtHR-A、ECtHR-B和含100个标签的Eurlex）上，检索方法实现了有竞争力的准确性和强大的数据效率；在Eurlex上，Qwen-8B检索将Macro-F1从40.41（GPT-5.2，零样本）提升至49.12，同时将估计计算量相比微调减少了20-30倍。仅使用N=100个训练样本时，检索方法在ECtHR-A上的Micro-F1几乎是层次化Legal-BERT的两倍（48.29对比27.87）。我们还量化了生成式推理的一种可靠性故障模式：在确定性解码下，GPT-5.2在0.12-0.9%的测试样本中幻觉出所提供的分类体系之外的标签。相比之下，检索严格尊重定义的标签集，从根本上消除了幻觉。这些结果表明，基于检索模型的标注器是高基数且快速变化的法律标签空间的一种实用、可部署的替代方案。

查看原文

查看缓存全文

缓存时间: 2026/05/19 06:35

# 基于检索的多标签法律标注：可扩展、数据高效且无幻觉

来源：https://arxiv.org/html/2605.16767

\\copyrightclause

本文版权归作者所有。允许在知识共享署名4.0国际许可协议（CC BY 4.0）下使用。

\[orcid=0000-0002-7734-1644, [email protected], \] \[orcid=0000-0002-8997-1799, [email protected], \] \[orcid=0000-0003-1899-0973, [email protected], \]

Jaromir SavelkaKevin Ashley匹兹堡大学，宾夕法尼亚州匹兹堡，美国卡内基梅隆大学，宾夕法尼亚州匹兹堡，美国

（2026）

###### 摘要

多标签法律标注需要从庞大且不断发展的标签体系中为长篇、事实密集型文档分配多个标签，且通常面临监督信号有限的挑战。参数化编码器通常需要针对特定任务进行训练，并在标签集变化时重新训练，而提示生成式大语言模型则成本高昂，且随着标签空间增大性能下降。我们将法律标注重新定义为检索任务：使用冻结的检索模型对文档和标签描述进行嵌入，并通过嵌入空间中的 \\(k\\) 近邻投票来预测标签，从而能够通过重新嵌入和重新索引来实现更新，而无需基于梯度的反向传播。在三个法律数据集（ECtHR-A、ECtHR-B 和包含 100 个标签的 Eurlex）上，检索方法达到了有竞争力的准确率和强大的数据效率；在 Eurlex 上，Qwen-8B 检索将 Macro-F1 从 40.41（GPT-5.2，零样本）提升至 49.12，同时估计计算量相比微调减少了约 20-30 倍。仅使用 \\(N=100\\) 个训练样本时，检索方法在 ECtHR-A 上的 Micro-F1 几乎比层次化 Legal-BERT 翻倍（48.29 vs. 27.87）。我们还量化了生成推理的一个可靠性故障模式：在确定性解码下，GPT-5.2 在 0.12% 到 0.9% 的测试样本中会幻觉出提供的标签体系之外的标签。相比之下，检索方法严格遵循定义的标签集，从设计上消除了幻觉。这些结果表明，基于检索模型的标注器是高基数且快速变化的法律标签空间中一个实用、可部署的替代方案。

###### 关键词:

大语言模型 \\sep 法律文本分析 \\sep 多标签标注 \\sep 信息检索 \\sep 可信人工智能

## 1 引言

现实世界的法律场景通常面临双重困境：需要导航数千项法令、法规和学说类别，同时处理稀缺的标注数据。多标签法律标注位于这些挑战的交汇点，要求系统能够 (i) 理解长篇、事实密集型文档，以及 (ii) 在高基数、长尾且不断演变的标签空间下运行。这些需求出现在实际场景中，例如案件结果预测、指控/问题标签化以及立法的主题分配，其中每个文档同时与多个法律概念相关联 [ashley2017artificial, chalkidis2022lexglue, aletras2016predicting]。

参见图注图 1：法律标注范式对比（推理时）。(a) 参数化微调 (BERT)：需要更新模型权重，数据需求大，僵化。(b) 生成式零样本 (GPT-5.2)：上下文窗口有限，成本高，速度慢。(c) 提出的检索模型 (Qwen-3 Embedding)：基于检索，即插即用，高效处理大规模且不断变化的标签集。基准测试凸显了该问题的结构性难度。来自 LexGLUE [chalkidis2022lexglue] 的观察表明，基于 BERT 的方法在多标签任务上的表现始终不如其单标签对应物。与单标签标注（将文档强制归入互斥类别，如二元结果预测）不同，多标签标注反映了法律实践中的复杂性，即单个案件或合同通常同时涉及多个法规、监管领域和学说问题。

然而，像 EURLEX57K [chalkidis2019large, chang2020taming] 这样的数据集通过数千个主题标签和严重的不平衡加剧了这一挑战。此外，法律分类体系会随时间、司法管辖区和语言而变化 [chalkidis2021multieurlex]，这使得“一次性训练，永久部署”成为一个不切实际的假设。因此，理想的标注器应在有限监督下准确、在分布偏移下稳定，并且在标签集或支持语料库发生变化时易于调整。

现有的法律标注范式存在显著局限性。基于预训练编码器（如 Legal-BERT）的参数化模型在经过领域适应和特定任务微调后取得了强劲性能 [chalkidis2020legal]。然而，它们数据需求大且在长尾情况下脆弱：稀有标签和少样本场景导致决策边界不稳定，而添加新标签或更新训练分布通常需要重新训练。

生成式 LLM 通过上下文学习 [brown2020language] 和基于提示的标注 [savelka2023unreasonable, lee2025efficient] 提供了一种替代方案。然而，对于具有成百上千个标签和长文档的多标签分类，提示可能会遇到固有的上下文瓶颈：标签定义和校准示例必须适合提示预算，并且当相关信息被埋在长上下文中时，性能可能会下降 [liu2023lost, zhang2025llms]。

在本文中，我们提出了一种基于检索模型的解决方案，特别是利用现代基于解码器的嵌入模型和非参数化推理。我们的方法利用了大型预训练模型的语义知识，但将其投影到检索空间中，通过相似性搜索和 \\(k\\) 近邻 (\\(k\\)-NN) 投票来执行标注 [cover1967nearest]。这重新定义了分类任务：新文档、新标签（带文本描述）和新证据可以通过重新嵌入和重新索引来整合，而无需更新模型权重。

我们的贡献有三个。首先，我们将法律多标签分类重新定义为可扩展的检索任务。其次，我们证明检索模型可以作为通用标注器，有效解决标签基数与数据可用性之间的权衡，尤其是在超越“基数阈值”时，基于提示的方法性能下降并可能产生标签幻觉。第三，我们验证了我们方法优越的效率和可部署性，表明它是敏感法律数据的可行本地部署替代方案。

## 2 相关工作

### 2.1 法律文本标注

法律文本标注支撑着许多人工智能与法律应用，从指控和条款预测 [chi2025universal] 到合同审查 [hendrycks2021cuad]。在实践中，法律标注作为关键的决策支持工具：它将复杂的事实叙述映射到严格控制的词汇表——成文法条款、条约文章或标准化的分类体系（如 EuroVoc）——从而支持下游应用，包括法律搜索、合规监控和司法决策支持。在此背景下，标注范式的选择具有具体的法律含义。首先，无幻觉保证至关重要：生成一个看似合理但不存在的法规构成了有效性错误，可能误导实践者。其次，分类学严谨性不容协商：将细粒度的 EuroVoc 描述符合并为更宽的类别会破坏监管监控工作流。第三，对于敏感法律数据，数据主权很重要，由于隐私法规（如 GDPR）或律师-客户保密特权，这些数据无法发送给第三方 API。

随着预训练语言模型（PLM）的兴起，领域适应的编码器（如 Legal-BERT）成为法律分类的强默认选择 [chalkidis2020legal]，而 LexGLUE 和 LegalBench 等基准测试标准化了评估 [chalkidis2022lexglue, guha2023legalbench]。多标签法律标注由于标签不平衡 [wais2025learning]、标签间相关性以及动态分类体系而特别具有挑战性。

### 2.2 用于法律分析的大语言模型

LLM 通过上下文学习实现了基于提示的法律分析 [brown2020language, gray2024using, luo2025automating]。外化中间推理（如思维链）的提示技术可以进一步提高可靠性 [wei2022chain, yao2023tree]。然而，大规模的多标签分类突出了以生成为中心的推理的核心限制：提示必须编码标签定义和约束；随着标签空间的增长，提示预算饱和。生成还引入了与输入和输出长度成比例的延迟和成本。

检索增强生成（RAG）通过在生成前检索证据来缓解一些限制 [lewis2020retrieval, bareham2025curb]。然而，RAG 系统仍然面临一个问题，即模型必须在固定的上下文窗口内对检索到的段落进行推理。相比之下，我们的方法将标注本身视为检索。

### 2.3 文本表示与基于检索的分类

我们的工作建立在从生成到以检索为中心的文本表示的转变之上。密集检索方法学习将查询和文档映射到共享向量空间的编码器 [yang2025qwen3]；DPR 推广了用于语义检索的对比训练 [karpukhin2020dense]。句子级表示学习通过 SBERT [reimers2019sentence] 和 SimCSE [gao2021simcse] 进一步提高了嵌入质量。在系统层面，可扩展的近似最近邻搜索库（如 FAISS [johnson2019billion]）使大规模向量空间推理变得实用。

## 3 方法论

我们形式化定义多标签法律标注任务。令 \\(\\mathcal{D}=\\{(x_i, Y_i)\\}_{i=1}^N\\) 为一个数据集，其中 \\(x_i\\) 表示一个法律文档，\\(Y_i \\subseteq \\mathcal{L}\\) 是来自标签空间 \\(\\mathcal{L}=\\{l_1, \\dots, l_K\\}\\) 的相关标签子集。我们的目标是学习一个映射 \\(f: \\mathcal{X} \\rightarrow 2^{\\mathcal{L}}\\)，对于新文档 \\(x\\)，预测标签子集 \\(\\hat{Y}\\)。

### 3.1 参数化微调（BERT 基线）

在参数化方法中，我们采用仅编码器架构（例如 Legal-BERT），参数化为 \\(\\theta\\)。模型参数 \\(\\theta\\) 通过最小化二元交叉熵（BCE）损失进行更新：

\\[\\theta^{*} = \\arg \\min_{\\theta} \\sum_{(x,Y) \\in \\mathcal{D}_{train}} \\mathcal{L}_{BCE}(f_{\\theta}(x), Y) \\qquad (1)\\]

文档 \\(x\\) 被编码为隐藏表示 \\(h_x = \\text{Encoder}_{\\theta^{*}}(x)\\)。对于层次化 Legal-BERT 基线，文档被分割成重叠的段，每个段由基础 BERT 模型独立编码，然后通过一个 2 层 Transformer 编码器模块进行聚合，以生成文档级表示 \\(h_x\\)。一个分类头将 \\(h_x\\) 投影到标签 logits：

\\[P(l_k | x; \\theta^{*}, W) = \\sigma(W_k \\cdot h_x + b_k) \\qquad (2)\\]

其中 \\(\\sigma\\) 是 sigmoid 函数，\\(b_k\\) 是标签 \\(l_k\\) 的偏置项。

### 3.2 生成式推理（GPT-5.2）

对于生成式 LLM，我们将分类视为文本生成任务。我们构建一个包含文档文本、候选标签和指令的提示 \\(P(x, \\mathcal{L})\\)。模型生成响应 \\(r = \\mathcal{M}(P(x, \\mathcal{L}))\\)，一个解析函数提取预测标签：\\(\\hat{Y} = \\phi(r)\\)。

### 3.3 提出的基于检索的分类

我们提出一个非参数化检索框架。我们利用一个仅解码器嵌入模型 \\(E_{\\phi}\\)（例如 Qwen-3 Embedding）将文档和标签描述都映射到一个共享的语义向量空间 \\(\\mathbb{R}^d\\) 中。

参见图注图 2：训练阶段对比。（左）BERT 通过梯度下降更新所有参数 \\(\\theta\\)。（右）检索模型保持编码器冻结，并在验证集上选择 \\(k\\)（无梯度更新）。

#### 索引构建。

我们不更新模型权重 \\(\\phi\\)。相反，我们构建一个标签嵌入的语义索引 \\(\\mathcal{I}\\)，并在验证集上选择超参数 \\(k\\)：

\\[k^{*} = \\arg \\max_k \\text{F1}(\\text{kNN}(k, \\mathcal{D}_{val}, \\mathcal{I})) \\qquad (3)\\]

添加一个新标签只需计算其嵌入并更新索引。

#### 推理。

令 \\(d_{l_k}\\) 为标签 \\(l_k\\) 的文本描述。嵌入为：

\\[\\mathbf{v}_x = E_{\\phi}(x), \\quad \\mathbf{v}_{l_k} = E_{\\phi}(d_{l_k}) \\qquad (4)\\]

余弦相似度决定预测：

\\[\\hat{Y} = \\text{Top-}k^{*}\\left(\\left\\{\\frac{\\mathbf{v}_x \\cdot \\mathbf{v}_{l_k}}{\\|\\mathbf{v}_x\\| \\|\\mathbf{v}_{l_k}\\|}\\right\\}_{k=1}^K\\right) \\qquad (5)\\]

### 3.4 理论效率分析

微调需要在整个 8192 个 token 的上下文中反向传播：\\(C_{FT} \\approx 6 \\times N_{params} \\times S_{samples} \\times E_{epochs} \\times L_{seq}\\)。检索仅涉及推理和索引：\\(C_{Ret} \\approx 2 \\times N_{params} \\times S_{test} \\times L_{seq}\\)。经验上，LoRA 微调需要约 \\(3.8 \\times 10^{16}\\) FLOPs，而检索推理仅需约 \\(1.9 \\times 10^{15}\\) FLOPs——效率提升了 20 倍。

## 4 实验

我们在代表不同复杂度的数据集上评估我们的方法：ECtHR-A（判决，10 个标签）、ECtHR-B（指控，10 个标签）和 Eurlex（主题归纳，100+ 个标签）。

表 1：数据集统计。\\(|\\mathcal{L}|\\)：标签基数，\\(\\bar{L}\\)：每个文档的平均标签数。
| 数据集 | \\(N_{train}\\) | \\(N_{test}\\) | \\(|\\mathcal{L}|\\) | \\(\\bar{L}\\) |
|--------|----------------|---------------|-------------------|---------------|
| ECtHR A | 9,000 | 1,000 | 10 | 1.16 |
| ECtHR B | 9,000 | 1,000 | 10 | 1.45 |
| Eurlex | 55,000 | 5,000 | 100 | 4.51 |

### 4.1 实现细节

我们将 Legal-BERT（nlpaueb/legal-bert-base-uncased，1.1 亿参数）扩展到 8192 个 token，采用层次化架构：文档被分割成 64 个 128 token 的段，独立编码，并通过一个 2 层 `nn.TransformerEncoder(nhead=8, dim_feedforward=2048)` 进行聚合。全局聚合层随机初始化。分类头使用 `BCEWithLogitsLoss`，以 Micro-F1 作为模型选择标准。LoRA 仅应用于本地 Legal-BERT 编码器（query 和 value 投影，\\(r=8\\)，\\(\\alpha=16\\)）。

对于 Qwen 检索模型（0.6B、4B、8B），我们选择了 Qwen-3 Embedding，因为它提供多个规模且共享相同架构的模型，便于受控扩展分析。\\(k\\)-NN 超参数 \\(k\\) 在每个数据集和模型上根据验证集进行调整，范围从 5 到 20。GPT-5.2 使用确定性解码（temperature=0）和仅 JSON 输出进行评估。

## 5 结果

### 5.1 效率

表 2：计算效率分析（2,000 个样本的 FLOPs）。
| 方法 | FLOPs（估计） | 相对成本 | 内存占用 |
|-------------------|-------------------|----------|----------|
| Legal-BERT (全量 FT) | \\(5.7 \\times 10^{16}\\) | \\(\\sim 30 \\times\\) | \\(\\sim 928\\)MB |
| Legal-BERT (LoRA) | \\(3.8 \\times 10^{16}\\) | \\(\\sim 20 \\times\\) | \\(\\sim 50\\)MB |
| 本地检索 | \\(\\mathbf{1.9 \\times 10^{15}}\\) | \\(\\mathbf{1 \\times}\\) | 0 MB |

### 5.2 准确率 vs. 标签基数

表 3：主要性能对比（Micro-F1 / Macro-F1）。最佳结果加粗。
| 模型 | ECtHR-A (Mi/Ma) | ECtHR-B (Mi/Ma) | Eurlex (Mi/Ma) |
|-------------------|--------------------------|--------------------------|------------------------|
| Legal-BERT | 76.25 / 65.62 | 81.98 / 78.38 | 60.03 / 24.40 |

基于检索的多标签法律标注：可扩展、数据高效且无幻觉

相似文章

微宏观检索：减少大型语言模型的长文本幻觉

基于智能体AI、嵌套学习与语义缓存的幻觉缓解及AI可持续性

利用详细的宪法定义与AI驱动评估提升标注一致性

重访最大池化网络：分析语义概率在幻觉检测多重实例学习中的作用

连接法律解释与形式逻辑：忠实性、假设与人工智能法律推理的未来

提交意见反馈