当规则学习:一种用于法律案例检索的自我进化智能体
摘要
本文介绍了一种自我进化框架,该框架利用基于LLM的智能体,为法律案例检索中的BM25迭代创建并优化查询重写规则,在无需任何参数训练的情况下,在LeCaRD-v2基准上优于非进化基线。
查看缓存全文
缓存时间: 2026/06/17 05:35
# 当规则学会学习:面向法律案例检索的自进化智能体
来源:https://arxiv.org/html/2606.17220
明旭陶¹,²,嘉伟胡¹,²,³,仙周¹,²,文鹏胡¹,²,佳骏程¹,²
云波曹¹,² ✉,纯臣罗¹,² ✉¹¹footnotemark:¹,国通耿¹,²
¹信息研究中心,AMS
²大模型智能应用学科与技术研究中心
³河北工程大学
\{thomas\.mx\.tao,zhunchenluo\}@gmail\.com, caoyunbo@hotmail\.com
###### 摘要
法律案例检索由于法律语言的复杂性和查询与相关案例之间需要精确的词法对齐而仍然具有挑战性。尽管密集检索模型取得了显著进展,但实证研究表明,BM25在该领域仍然是强有力的基线方法。这促使我们提出一种用于规则驱动查询重写的自进化框架,该框架无需任何参数训练即可增强BM25。该框架为基于LLM的智能体配备了一个自动评估环境,使其能够迭代地创建重写规则、规划规则组合上的验证实验,并根据历史反馈消除无效规则。我们在中文法律案例检索基准LeCaRD-v2上评估了我们的方法。实验结果表明,所提出的框架优于非进化基线,包括人工设计的规则和贪婪规则选择,特别是在使用高容量核心LLM时尤为明显。我们还进行了详细分析以探究自进化的内在机制。我们的研究发现,LLM利用先前实验结果的能力以及其消除规则的内在知识在通过自进化优化规则集中起着关键作用。
当规则学会学习:面向法律案例检索的自进化智能体
明旭陶¹,²,嘉伟胡¹,²,³,仙周¹,²,文鹏胡¹,²,佳骏程¹,²
云波曹¹,² ✉††thanks:通讯作者。 ,纯臣罗¹,² ✉¹¹footnotemark:¹,国通耿¹,²
¹信息研究中心,AMS
²大模型智能应用学科与技术研究中心
³河北工程大学
\{thomas\.mx\.tao,zhunchenluo\}@gmail\.com, caoyunbo@hotmail\.com
## 1 引言
法律案例检索在支持司法决策、法律咨询以及广泛的下游法律应用中发挥着至关重要的作用。给定争议的自然语言描述,检索系统应能识别出具有相似事实、法律问题或适用法条的相关先例案例。由于法律语言的复杂性、法律文书的长度以及对法律事实、法条和司法推理精确匹配的要求,这一任务仍具挑战性。
尽管基于神经嵌入的密集检索方法 (Hu et al., 2024 (https://arxiv.org/html/2606.17220#bib.bib5); Su et al., 2024 (https://arxiv.org/html/2606.17220#bib.bib13); Chen et al., 2024 (https://arxiv.org/html/2606.17220#bib.bib1); Li et al., 2023 (https://arxiv.org/html/2606.17220#bib.bib6); Tang et al., 2025 (https://arxiv.org/html/2606.17220#bib.bib15)) 取得了快速发展,但它们在法律案例检索中的有效性仍然有限。先前的工作 (Rosa et al., 2021 (https://arxiv.org/html/2606.17220#bib.bib12); Deng et al., 2024 (https://arxiv.org/html/2606.17220#bib.bib3)) 表明,词法匹配方法在法律案例检索任务中仍然是强大且有竞争力的基线。我们在 LeCaRD-v2 (Li et al., 2024 (https://arxiv.org/html/2606.17220#bib.bib7)) 上的实证研究也显示,BM25 (Robertson and Zaragoza, 2009 (https://arxiv.org/html/2606.17220#bib.bib11)) 持续优于几个具有代表性的密集检索模型。这些发现表明,比用密集检索器替换 BM25 更有前途的方向是通过词法对齐查询与相关文本来增强 BM25。
基于 BM25 的优势,我们专注于通过查询重写来提升检索性能。查询重写旨在通过用法律术语、同义表达或替代表述丰富查询来弥合查询与相关法律案例之间的差距。大语言模型 (LLMs) (Yang et al., 2025 (https://arxiv.org/html/2606.17220#bib.bib18); OpenAI et al., 2025 (https://arxiv.org/html/2606.17220#bib.bib10); DeepSeek-AI et al., 2025 (https://arxiv.org/html/2606.17220#bib.bib2); Gemma Team et al., 2025 (https://arxiv.org/html/2606.17220#bib.bib4)) 的最新进展使得规则驱动的查询重写成为可能,其中 LLM 通过遵循显式的重写规则来重写查询。这类规则提供了可解释性和可控性,这在法律领域尤为理想。然而,设计高质量的重写规则通常需要大量领域专业知识,而简单的规则生成可能导致次优性能。
为解决这些局限,我们提出了一个用于规则驱动查询重写的**自进化框架**。该框架为基于 LLM 的智能体配备了一个自动验证环境,使其能够在无需任何参数更新的情况下迭代优化规则集。具体来说,智能体可以自主地 (1) 创建新的查询重写规则,(2) 通过选择规则组合来规划验证实验,(3) 根据实验历史消除无效规则。通过与环境的重复交互,智能体持续优化其规则集,以无训练方式提升检索效果。
我们在 LeCaRD-v2 基准 (Li et al., 2024 (https://arxiv.org/html/2606.17220#bib.bib7)) 上评估了所提出的框架。实验结果表明,自进化框架可以超越非进化基线,包括人工设计的规则和贪婪规则选择策略。我们还进行了进一步分析以探究自进化的内在机制,发现自进化的有效性取决于 LLM 利用历史结果规划新实验的能力,以及其判断规则消除时机的能力。
总之,我们的贡献如下:
- • 我们重新审视了法律案例检索,表明 BM25 仍然是强基线,并通过规则驱动的查询重写策略对其进行了增强。
- • 我们提出了一个新的自进化框架,使智能体能够通过规则生成、实验规划和规则消除迭代地优化重写规则,且无需任何基于梯度的训练。
- • 我们进行了广泛的研究来表征自进化 LLM 智能体的行为动态,揭示了影响智能体自进化能力的内在因素。
## 2 相关工作
关于自主或自进化智能体系统的先前工作近年来受到越来越多关注,尤其是在需要自适应行为和迭代改进的背景下。一些研究探索了智能体在不依赖大量人类监督的情况下优化其内部策略的机制。例如,AgentEvolver (Zhai et al., 2025 (https://arxiv.org/html/2606.17220#bib.bib19)) 引入了自我提问、经验引导探索和细粒度信用分配,使智能体能够生成自己的任务、重用经验并在复杂环境中提高探索效率。该过程可以减少对手工数据集和固定强化学习流程的依赖,扩展了自进化智能体架构的更广阔范式。
EvolveSearch (Zhang et al., 2025a (https://arxiv.org/html/2606.17220#bib.bib20)) 提出了迭代自进化搜索智能体。该系统通过持续的自我改进循环来优化其检索行为,表明迭代进化范式可以为信息搜索任务带来可测量的收益。然而,这些方法依赖于强化学习来优化模型的行动选择策略,在应用于法律案例检索任务时,由于训练数据有限而面临挑战。
最近的工作 (Suzgun et al., 2025 (https://arxiv.org/html/2606.17220#bib.bib14); Zhang et al., 2025b (https://arxiv.org/html/2606.17220#bib.bib21)) 也关注进化输入到 LLM 的上下文信息。它们将提示中的上下文视为可以逐步优化的动态实体。先前的方法 Agentic Context Engineering (Zhang et al., 2025b (https://arxiv.org/html/2606.17220#bib.bib21)) 提出在**剧本**记忆中生成、反思和选择上下文元素。这些方法强调进化输入和上下文表示以改进下游性能,这与我们进化规则集以用于查询重写而非训练模型参数的框架产生共鸣。然而,我们的工作明确进化一组结构化规则,这些规则作为下游查询重写的指令,而非智能体的内部提示。
## 3 预备知识
法律案例检索由于法律措辞的复杂性、文档长度较长以及对法律事实、法条和司法推理精确词法匹配的需求而面临独特挑战。尽管基于神经嵌入的密集检索方法快速发展,但它们在法律案例检索中的有效性仍然有限。先前工作 (Rosa et al., 2021 (https://arxiv.org/html/2606.17220#bib.bib12)) 认为 BM25 函数 (Robertson and Zaragoza, 2009 (https://arxiv.org/html/2606.17220#bib.bib11)) 仍然是强基线。我们在 LeCaRD-v2 (Li et al., 2024 (https://arxiv.org/html/2606.17220#bib.bib7))(一个中文法律案例检索基准)的留出测试集上比较了 BM25 与几个具有代表性的密集检索模型。我们考虑了三个模型:bge-m3 (Chen et al., 2024 (https://arxiv.org/html/2606.17220#bib.bib1)), SAILER_zh (Li et al., 2023 (https://arxiv.org/html/2606.17220#bib.bib6)), 和 ReaKase-8B (Tang et al., 2025 (https://arxiv.org/html/2606.17220#bib.bib15))。其中,bge-m3 是用于密集检索的通用嵌入模型,而另外两个是在法律领域数据上持续训练的嵌入模型。表 1 (https://arxiv.org/html/2606.17220#S3.T1) 展示了不同截止下的结果。BM25 在不同规模的检索候选集上取得了最高的平均召回率,优于通用和法律领域的嵌入模型。尽管 ReaKase-8B 和 SAILER_zh 在 Recall@1000 上表现出竞争性能,但当限制检索候选数量时,它们的有效性明显低于 BM25。与 BM25 相比,这两个模型在 Recall@50 上的性能下降 7.60%~19.07%,在 Recall@100 上下降 6.74%~20.51%。
| 方法 | L\(\mathcal{L}\) | Recall@k | 平均 |
|------|------|-----------|------|
| | | k=50 100 200 500 1000 | |
| BM25 | ![[未标注图片]](https://arxiv.org/html/2606.17220v1/x1.png) | 38.29 48.79 58.89 70.14 77.32 | 58.69 |
| bge-m3 | ![[未标注图片]](https://arxiv.org/html/2606.17220v1/x1.png) | 27.88 37.05 47.51 63.33 74.45 | 50.04 |
| SAILER | ![[未标注图片]](https://arxiv.org/html/2606.17220v1/x2.png) | 19.22 28.28 41.18 63.45 78.93 | 46.21 |
| ReaKase | ![[未标注图片]](https://arxiv.org/html/2606.17220v1/x3.png) | 30.69 42.05 54.82 73.32 84.47 | 57.07 |
**表 1:** BM25 和基于不同嵌入模型的密集检索在 LeCaRD-v2 上的召回分数。L\(\mathcal{L}\) 表示模型是否在法律数据上训练。
BM25 的强劲表现促使我们通过查询重写来增强它,而不是用密集检索模型替换它。查询重写旨在通过用法律术语丰富或改写查询来弥合用户查询与相关法律案例之间的差距。我们利用一个推理型 LLM 来遵循给定规则并重写查询。图 1 (https://arxiv.org/html/2606.17220#S3.F1) 展示了一个规则示例。查询重写的提示见附录 B (https://arxiv.org/html/2606.17220#A2)。
原始规则(中文):
同义词和术语变体扩展:对于每个关键法律概念,添加其同义词、近义词或常见变体。格式:[术语1]、[术语2]、[术语3]、......
翻译后的规则(英文):
Synonym and Terminology Variant Expansion: For each key legal concept, augment the query by incorporating its synonyms, semantically related terms, or commonly used variants. Format: [Term A], [Term B], [Term C], ...
**图 1:** 查询重写规则示例。
**图 2:** 基于规则生成、实验规划和规则消除的自进化。
## 4 自进化框架
我们提出了一个自进化框架,使基于 LLM 的智能体能够自主发现、检验和优化用于法律案例检索的查询重写规则。该框架是一个闭环的智能体-环境系统,其中适应性来自迭代交互,而非基于梯度的优化。图 2 (https://arxiv.org/html/2606.17220#S3.F2) 展示了自进化框架。
### 4.1 行动决策
智能体选择行动以驱动自进化过程。行动空间包含三类:(1) **创建新规则**,(2) **规划实验**,(3) **消除无效规则**。在交互步骤 \(t\),智能体基于其内部记忆选择行动,该记忆由最近行动序列 \(A^{(t)} = \langle a_{t-k}, \dots, a_{t-1} \rangle\)(截断至固定长度 \(k\))、当前规则集 \(R^{(t)}\) 以及累积的实验结果 \(S^{(t)}\) 组成。我们将时间 \(t\) 选择的行动记为:
\[
a_t = \pi(A^{(t)}, R^{(t)}, S^{(t)}),
\]
其中 \(\pi\) 是仅基于附录 A.1 (https://arxiv.org/html/2606.17220#A1.SS1) 中提示的决策策略。该策略在进化过程中不进行任何参数更新。
### 4.2 规则生成
创建新规则使智能体能够扩展查询重写策略的搜索空间。在步骤 \(t\),智能体通过联合分析当前活动规则集 \(R^{(t)}\)、已消除规则集 \(\bar{R}^{(t)}\) 以及累积的实验分数 \(S^{(t)}\) 来生成候选规则。该分析侧重于识别哪些重写操作有助于提升召回率,并诊断已移除规则所表现出的失败模式。然后智能体生成一条新规则:
\[
r_n = f_{\text{create\_rule}}(R^{(t)}, \bar{R}^{(t)}, S^{(t)}),
\]
其中 \(n\) 等于 \(|R^{(t)}| + |\bar{R}^{(t)}| + 1\)。智能体可通过两种机制生成新规则。第一,它可以编辑现有规则,修改其重写操作的描述,目标是放大已观察到的有效行为。第二,智能体可以提出一个全新的规则,引入一个在 \(R^{(t)}\) 中不存在的完全不同的重写策略。为防止退化和重复探索无效模式,我们要求生成的规则不应与 \(\bar{R}^{(t)}\) 中已消除的规则相似。
### 4.3 实验规划
规划实验允许智能体评估不同规则组合在查询重写中的有效性。在步骤 \(t\),智能体从当前规则集 \(R^{(t)}\) 中选择一个活动规则子集,记为 \(C^{(t)} \subseteq R^{(t)}\)。环境接收这些规则并通过调用外部模型重写查询。然后将重写查询的测试结果 \(s_{C^{(t)}}\) 反馈给智能体。我们利用实验历史 \(S^{(t)}\) 来指导规则组合的选择。基于此历史,智能体估计哪些组合可能带来进一步的召回率提升,例如组合孤立有效但不兼容的规则,或合并预期具有互补优势的规则。相似文章
EvolveMem: 通过AutoResearch实现LLM智能体的自演化记忆架构
EvolveMem为LLM智能体引入了一种自演化记忆架构,通过LLM驱动的诊断和迭代研究周期来优化检索配置,在LoCoMo和MemBench等基准测试上取得了显著的性能提升。
通过世界知识探索训练LLM智能体实现自发、无奖励的自我进化
# 论文页面 - 通过世界知识探索训练LLM智能体实现自发、无奖励的自我进化 来源:[https://huggingface.co/papers/2604.18131](https://huggingface.co/papers/2604.18131) ## 摘要 具备内在元进化能力的智能体通过在没有外部监督的情况下自主生成的世界知识,在网页导航任务中展现出更优的性能。如今大多数智能体通过遵循人类定义的奖励和规则来``自我进化''。然而,
CoEvolve:通过智能体-数据互进化训练LLM智能体
CoEvolve提出了一个智能体-数据互进化框架,通过闭环、交互驱动的学习来训练LLM智能体,同时适配智能体和其训练数据分布。该方法从轨迹回滚中提取反馈信号以指导基于LLM的任务合成,在AppWorld和BFCL基准上的多个Qwen模型中展示了显著的改进(绝对收益15-19%)。
哪些变化重要?通过相关性敏感评估和求解器推理实现可信赖的法律AI
本文介绍了一套用于法律AI的相关性敏感评估套件,表明LLM对法律无关的扰动过于敏感,并提出LexGuard,一个基于形式推理的对抗性多代理框架,以提高法律推理的可靠性。
Parthenon Law:一个自进化的法律智能体框架
Parthenon 是一个自进化的法律智能体框架,将 LLM 智能体组织为六个可审计层,并通过防数据泄漏的学习循环机制,在不修改模型权重的前提下提升端到端法律事务处理性能。基于 Harvey LAB 的大规模实证研究涵盖 12,510 条智能体轨迹,结果表明当前前沿智能体在严格事务完成度方面仍面临较大挑战,而 Parthenon 相比现有最优基线方法取得了显著提升。