Decompose-and-Refine: 基于参数化检索的结构化法律问答

arXiv cs.CL 论文

摘要

提出Decompose-and-Refine(DaR)框架,用于基于成文法的法律问答。该框架将复杂问题分解为原子子问题,并生成参数化查询以实现精确的成文法检索,在KoBLEX基准测试上取得了改进。

arXiv:2605.24454v1 Announce Type: new 摘要:大型语言模型(LLMs)在法律领域表现出色,在法律问答(LQA)中展示了显著潜力。然而,与通用问答不同,LQA要求答案不仅准确,还要严格基于明确的法律权威。在成文法LQA中,许多问题需要跨多个法律问题进行多跳推理,这大大增加了幻觉风险,因此准确检索支持性成文法条款成为关键前提。尽管多跳问答近期取得了进展,但现有方法通常依赖自然语言推理或检索,而未进行显式查询重构,导致用户问题与成文法文本之间的词汇差距仍未得到有效解决。为应对这一挑战,我们提出Decompose-and-Refine(DaR),这是一种基于成文法的LQA框架,它将逐步问题分解与基于参数知识的查询细化紧密集成。DaR逐步将复杂法律问题分解为原子子问题,并为每个子问题生成与成文法对齐的参数化查询,从而能够为每个法律问题选择唯一最核心的成文法条款。我们在基于韩国成文法的多跳LQA基准KoBLEX上,使用Qwen3-32B和Gemma3-27B评估了DaR。实验结果表明,DaR在检索准确性和最终答案质量上均持续优于现有方法。此外,通过显式分离子问题及其对应的成文法条款,DaR促进了复杂法律推理过程中透明、逐问题的验证。
查看原文
查看缓存全文

缓存时间: 2026/05/26 09:03

# 分解与精炼:基于参数化检索的结构化法律问答  
**来源:** https://arxiv.org/html/2605.24454  

Jihyung Lee¹, Hyounghun Kim¹,², Gary Geunbae Lee¹,²  
¹韩国浦项工业大学人工智能研究生院  
²韩国浦项工业大学计算机科学与工程系  
\{jihyung\.lee, h\.kim, gblee\}@postech\.ac\.kr  

###### 摘要  
大型语言模型(LLMs)在法律领域表现出色,尤其在法律问答(LQA)任务中展现出显著潜力。然而,与通用知识型问答不同,LQA 不仅要求答案准确,还必须严格基于明确的法律权威。在成文法 LQA 中,许多问题需要跨多个法律问题进行多跳推理,这大大增加了幻觉风险,因此准确检索相关成文法条款成为关键前提。尽管多跳问答近期取得进展,现有方法通常依赖自然语言推理或检索时不进行显式查询改写,导致用户问题与法律文本之间的词汇鸿沟未得到充分解决。为应对这一挑战,我们提出 **Decompose‑and‑Refine (DaR)**,一个以成文法为根基的 LQA 框架,它紧密集成逐步问题分解与基于参数化知识的查询精炼。DaR 将复杂法律问题逐步分解为原子性子问题,并为每个子问题生成与条款对齐的参数化查询,从而为每个法律问题选择唯一最核心的成文法条。我们在基于成文法的韩语多跳 LQA 基准 KoBLEX 上,使用 Qwen3‑32B 和 Gemma3‑27B 进行评估。实验结果表明,DaR 在检索准确率和最终答案质量上均持续优于现有方法。此外,通过显式分离子问题及其对应的成文法条,DaR 促进了对复杂法律推理过程进行可验证的逐问题透明检查。  

**Decompose‑and‑Refine: 基于参数化检索的结构化法律问答**  
Jihyung Lee¹, Hyounghun Kim¹,², Gary Geunbae Lee¹,²  
¹韩国浦项工业大学人工智能研究生院  
²韩国浦项工业大学计算机科学与工程系  
\{jihyung\.lee, h\.kim, gblee\}@postech\.ac\.kr  

## 1 引言  

![图 1](https://arxiv.org/html/2605.24454#S1.F1)  
图 1:Decompose‑and‑Refine(DaR)概览。DaR 将复杂法律问题分解为原子子问题,为每个子问题生成三种类型的参数化查询,并精确检索每个问题的一条核心成文法条,从而实现可控、以证据为中心的法律推理。  

大型语言模型(LLMs)在法律领域的广泛任务中展现出强大性能,尤其是在法律问答(LQA)中(Lai et al., 2024 (<https://arxiv.org/html/2605.24454#bib.bib5>))。然而,与基于通用知识的问答(Yang et al., 2018 (<https://arxiv.org/html/2605.24454#bib.bib1>); Khashabi et al., 2018 (<https://arxiv.org/html/2605.24454#bib.bib2>); Talmor et al., 2019 (<https://arxiv.org/html/2605.24454#bib.bib3>))不同,LQA 不仅需要大量领域知识,还要求答案严格基于明确的法律权威。在实际中,许多法律问题无法通过单一成文法条解决,而是需要多跳推理,依次整合多个法律问题和成文法要求(Zhou et al., 2023 (<https://arxiv.org/html/2605.24454#bib.bib13>))。这种复杂性极大地增加了不忠实或幻觉推理的风险,因此确保生成的答案有可验证的法律证据支持至关重要(Magesh et al., 2025 (<https://arxiv.org/html/2605.24454#bib.bib6>))。相应地,准确检索相关法律证据已成为构建可靠 LQA 系统的基本前提。  

在成文法 LQA 中,主要支持证据来源于成文法。然而,成文法条通常以抽象、规范的语言写成,并常组织在复杂的层次结构中。相反,用户查询通常以自然、事实导向的语言表达,导致问题与法律条文之间存在显著的词汇鸿沟(Furnas et al., 1987 (<https://arxiv.org/html/2605.24454#bib.bib8>))。因此,直接应用传统检索方法(如 BM25 或通用稠密检索器)往往无法可靠地识别适当法律条文,特别是对于涉及多个相互依赖法律问题的复杂问题(Zheng et al., 2025 (<https://arxiv.org/html/2605.24454#bib.bib7>))。  

为了解决通用问答设置中多跳问题的推理复杂性,先前多跳问答方法提出利用 LLMs 的隐含知识生成逐步推理过程(Wei et al., 2022 (<https://arxiv.org/html/2605.24454#bib.bib30>)),或将问题分解为一系列子问题并迭代回答(Press et al., 2023 (<https://arxiv.org/html/2605.24454#bib.bib32>); Trivedi et al., 2023 (<https://arxiv.org/html/2605.24454#bib.bib33>))。这些方法通过将复杂问题分解为显式的中间推理步骤(而非单步推理)取得了有意义的进展。然而,在 LQA 语境中,当分解后的子问题仍以自然语言形式存在时,用户问题与法律文本间的词汇鸿沟依然存在,使得难以可靠检索每个子问题对应的成文法条。更重要的是,我们观察到成文法 LQA 中的词汇鸿沟是多方面的,不仅源于表层词汇不匹配,还源于规范性措辞和法条组织层面的差异。因此,依赖单一查询改写不足以稳健地检索相关成文法条。受此启发,我们采用多通道参数化查询精炼策略,将每个子问题改写为多个互补表示,以应对不同的检索失败模式。  

为此,我们提出 **Decompose‑and‑Refine (DaR)**,一个紧密集成问题分解与基于参数化知识的查询精炼的框架。DaR 将复杂法律问题逐步分解为原子子问题,并基于法律知识为每个子问题生成多个互补的参数化查询(图 1 (<https://arxiv.org/html/2605.24454#S1.F1>))。该设计实现了分解后法律问题与其对应成文法证据之间的问题级对齐,从而为每个子问题选择唯一一条核心成文法条。通过逐步累积与问题对齐的证据,DaR 减少了不必要的上下文扩展,同时支持以证据为中心的法律推理。在基于成文法的韩语多跳 LQA 基准 KoBLEX(Lee et al., 2025 (<https://arxiv.org/html/2605.24454#bib.bib23>))上的实验结果表明,DaR 在检索准确率和最终答案质量上均持续优于现有方法。通过在每个问题基础上显式分离并累积法律条文,DaR 在获得显著性能提升的同时保持了推理过程的可解释性。  

我们的贡献总结如下:  
- 我们提出 DaR,一种新颖的以成文法为根基的 LQA 框架,集成了逐步问题分解与多通道参数化查询精炼。  
- 我们将每个原子子问题与唯一一条支持性成文法条对齐,从而实现可解释的逐问题法律推理与透明验证。  
- 我们在 KoBLEX 基准上证明,DaR 在检索和答案准确率两方面均持续优于现有基线,且仅依赖标准 BM25 检索器,无需领域微调。  

## 2 相关工作  

### 2.1 查询精炼  

用户查询与目标文档之间通常存在词汇鸿沟(Furnas et al., 1987 (<https://arxiv.org/html/2605.24454#bib.bib8>))。为缓解这一问题,先前工作探索了多种查询精炼与扩展技术,从词汇扩展到语义改写(Carpineto and Romano, 2012 (<https://arxiv.org/html/2605.24454#bib.bib9>))。随着 LLMs 的出现,查询精炼已从表层转换转向语义改写。例如,Gao et al. (2023 (<https://arxiv.org/html/2605.24454#bib.bib11>)) 为给定查询生成假设性文档,而 Wang et al. (2023a (<https://arxiv.org/html/2605.24454#bib.bib10>)) 利用 LLMs 生成伪文档用于检索扩展。在法律领域,查询改写研究主要关注判例法检索。Askari and Verberne (2021 (<https://arxiv.org/html/2605.24454#bib.bib12>)) 提出总结冗长的判例法查询或提取关键术语,而 Zhou et al. (2023 (<https://arxiv.org/html/2605.24454#bib.bib13>)) 通过使用 LLMs 选择或总结对司法结果具有决定性的显著内容来提高检索性能。最近,Kim et al. (2025 (<https://arxiv.org/html/2605.24454#bib.bib14>)) 提出一种生成式查询改写方法,利用 LLMs 缓解查询与法律文档之间的词汇不匹配。然而,这些方法主要针对判例法检索,其目标是识别具有相似事实情境的先例,因此与基于成文法的 LQA 有很大不同,后者需要与规范性法律条文精确对齐。此外,多通道查询精炼——即单个查询被转换为多个互补变体用于检索——在 LQA 中的适用性尚未得到充分关注。  

### 2.2 法律问答  

现有几个 LQA 基准(Guha et al., 2023 (<https://arxiv.org/html/2605.24454#bib.bib18>); Fei et al., 2024 (<https://arxiv.org/html/2605.24454#bib.bib19>); Fan et al., 2025 (<https://arxiv.org/html/2605.24454#bib.bib21>))侧重于 LLMs 直接生成答案(无显式检索步骤)的设置。虽然这些基准有助于评估 LLMs 中编码的法律知识,但它们并未充分反映实际 LQA 中所需的证据检索与验证过程。Louis et al. (2024 (<https://arxiv.org/html/2605.24454#bib.bib20>)) 引入了一个基于检索‑阅读范式的 LQA 基准和基线,并评估了多个 LLMs;然而,他们没有明确处理逐问题检索策略,限制了其在涉及多个交织法律问题的复杂问题上的适用性。  

先前的多跳问答方法(Press et al., 2023 (<https://arxiv.org/html/2605.24454#bib.bib32>); Trivedi et al., 2023 (<https://arxiv.org/html/2605.24454#bib.bib33>); Jiang et al., 2023 (<https://arxiv.org/html/2605.24454#bib.bib34>); Cao et al., 2023 (<https://arxiv.org/html/2605.24454#bib.bib35>); Chu et al., 2024 (<https://arxiv.org/html/2605.24454#bib.bib36>))通过逐步分解和迭代检索改进了复杂推理。然而,他们通常直接将分解后的子问题作为检索查询,对面向检索的查询改写关注有限。最近,DualRAG(Cheng et al., 2025 (<https://arxiv.org/html/2605.24454#bib.bib24>))引入了双过程检索框架,迭代结合检索与推理以提高多跳问答性能;L‑MARS(Wang and Yuan, 2025 (<https://arxiv.org/html/2605.24454#bib.bib25>))则研究了法律领域基于检索增强生成的多步法律推理。虽然这些方法通过更紧密的检索‑推理集成提高了推理质量,但它们主要关注迭代证据获取与推理生成,而非明确地将分解后的法律问题转换为检索有效的面向条款查询。因此,多个法律问题对应的证据可能仍以混合方式被检索和使用。  

在法律领域,用户查询与法律文本之间的词汇不匹配频繁发生,且单个法律问题往往涉及分布在法律结构中的多个要求与条件(Zhou et al., 2023 (<https://arxiv.org/html/2605.24454#bib.bib13>))。因此,仅靠问题分解不足以可靠地识别每个子问题对应的正确成文法条。这凸显了在 LQA 中,不仅如何分解问题,如何将分解后的子问题转换为检索有效查询,同样是同等重要的挑战。受此观察驱使,Lee et al. (2025 (<https://arxiv.org/html/2605.24454#bib.bib23>))提出 ParSeR,利用参数化条款弥合问题与法律条文之间的表征差距。然而,ParSeR 为整个问题维护单一查询公式,这限制了其在单一查询中单独处理多个法律问题的能力。因此,不同法律问题对应的成文法条可能以混合方式被检索和使用,从而可能降低下游推理中证据使用的透明度。近期研究进一步报告,在法律推理任务中,提供更多上下文信息并不一定能带来更好的性能(Kim and Lee, 2025 (<https://arxiv.org/html/2605.24454#bib.bib22>))。相反,选择性地识别并利用与每个问题相关的核心成文法条,对于提高准确性和可解释性至关重要。  

提出的 DaR 将问题分解与参数化查询精炼相结合,构建面向问题的、与条款对齐的证据。通过仅为每个法律问题选择性累积核心成文法条,DaR 实现了精确且可解释的法律推理。  

![图 2](https://arxiv.org/html/2605.24454#S2.F2)  
图 2:Decompose‑and‑Refine (DaR) 框架示意图。给定一个法律问题,模型迭代将其分解为原子子问题。对于每个子问题,DaR 生成多个互补的参数化查询,包括条款风格查询、稀疏关键词和候选法律条文查询。每个查询用于 BM25 词汇检索,所得候选集通过 RRF 融合并重排序,然后选择一条最相关的法律条文。所选条文在各推理步骤中累积,用于生成最终基于上下文的答案。  

## 3 方法:Decompose‑and‑Refine  

DaR 旨在通过逐步将复杂法律问题分解为原子子问题,并为每个子问题生成多个基于法律信息的查询表示,同时提升检索效果和推理准确性。整体流程包括四个阶段:(1) 逐步问题分解,(2) 多通道参数化查询精炼,(3) 单一上下文选择检索,以及 (4) 答案生成(图 2 (<https://arxiv.org/html/2605.24454#S2.F2>))。各阶段使用的详细提示模板见附录 B (<https://arxiv.org/html/2605.24454#A2>)。  

### 3.1 逐步问题分解  

给定输入问题 \( Q \),DaR 使用逐步分解策略顺序处理。在每一步,模型判断当前问题是**原子问题**(无法进一步分解)还是**非原子问题**(需要额外分解)。如果问题被分类为非原子,模型提取一个原子子问题 \( q_i \) 以在当前步解决,并

相似文章

DeSQ: 基于分解的SPARQL查询生成

arXiv cs.CL

DeSQ是一个基于分解的框架,用于从自然语言问题生成SPARQL查询。它将复杂问题分解为原子约束,将它们映射到SPARQL片段,并组装成完整查询,在五个基准测试中的四个上优于现有技术。

德国法律法规的分块策略

arXiv cs.CL

本文评估了针对德国法律法规的检索增强生成中的多种分块策略,发现与结构对齐的方法(如基于章节的检索)优于更复杂的方案。

结构促进检索、重排序与生成

arXiv cs.CL

本文提出SF-Re2G方法,通过利用文档结构来增强检索、重排序和生成,从而改进基于文档的对话系统。该方法在中英文数据集上得到验证。