面向AI辅助法律发现的Human-on-the-Loop编排

arXiv cs.AI 论文

摘要

本文提出了一个用于AI辅助法律发现的Human-on-the-Loop编排框架,引入了代理故障分类法和四层验证架构,以降低特权放弃风险。

arXiv:2606.19812v1 Announce Type: new 摘要:自主大语言模型(LLM)代理正越来越多地应用于电子发现(e-discovery),其中多步推理链上的累积错误可能构成法律渎职。与单次检索不同,在特权文档集上运行的代理工作流表现出一种我们称之为“轨迹坍缩”的故障:早期错误分类悄然传播,导致整个特权审查失效。本文做出三项贡献。首先,我们提出了一个按功能阶段组织的法律信息检索中代理故障的结构化分类法。其次,我们引入了一个四层验证架构——涵盖规划、推理、执行和不确定性量化——旨在这些故障累积之前将其拦截。第三,我们基于一个合成e-discovery语料库进行了初步模拟研究,展示了强制性Human-on-the-Loop(HOTL)升级阈值如何相比完全自主基线降低特权放弃风险。我们的结果表明,校准后的不确定性阈值相比完全自主部署可将特权放弃风险降低高达61%,同时仅有不到四分之一的文档需要律师审查。
查看原文
查看缓存全文

缓存时间: 2026/06/20 14:33

# AI辅助法律发现中的人在环上编排
来源: https://arxiv.org/html/2606.19812

###### 摘要

自主大语言模型(LLM)智能体越来越多地部署于电子发现(e-discovery)领域,在此过程中,多步推理链上的累积错误可能导致法律渎职。与单轮检索不同,在特权文档语料库上运行的智能体工作流展现出一类我们称之为**轨迹崩塌**的故障:早期的一次错误分类悄然传播,使得整个特权审查失效。本文有三项贡献。首先,我们提出一个按功能阶段组织的法律信息检索中智能体故障的结构化分类体系。其次,我们引入一个四层验证架构——涵盖规划、推理、执行和不确定性量化——旨在防止这些故障在累积之前被拦截。第三,我们在一个合成电子发现语料库上进行初步模拟研究,结果表明,与完全自主基线相比,强制性人在环上(HOTL)升级阈值可降低特权豁免风险。我们的结果表明,校准后的不确定性阈值可将特权豁免风险比完全自主部署降低高达61%,同时仅有不到四分之一的文档需要路由给律师审查。

## I 引言

电子发现(e-discovery)需要在严格的法定期限、时间压力和联邦民事诉讼规则(FRCP)规定的审计要求下审查数百万份文档。技术辅助审查(TAR)已从关键词过滤器和基于SVM的预测编码(TAR 1.0–2.0)发展到多步推理-行动-观察(ReAct[1 (https://arxiv.org/html/2606.19812#bib.bib1)])循环,其中LLM智能体自主检索、分类和综合文档。

这一转变带来了一个全新的风险面。在智能体工作流中,智能体在步骤 *t* 的输出条件化了其在步骤 *t*+1 的查询,因此一次单一的错误分类可能悄然传播;等到特权日志生成时,错误已嵌入数百个下游决策中。我们称之为**轨迹崩塌**。雪上加霜的是,经RLHF优化的LLM[2 (https://arxiv.org/html/2606.19812#bib.bib2)]展现出两种尤其危险的故障模式:它们会产生流畅且自信的辩解来说明不正确的法律分类(流利陷阱[19 (https://arxiv.org/html/2606.19812#bib.bib19),7 (https://arxiv.org/html/2606.19812#bib.bib7)]),并且在任务无法解决时编造工具调用而非主动放弃[8 (https://arxiv.org/html/2606.19812#bib.bib8)]。标准指标——精确率、召回率、F1——均不惩罚这两种故障,因为它们是在轨迹端点而非轨迹路径上测量的。

本文提出一个**人在环上**(HOTL)[9 (https://arxiv.org/html/2606.19812#bib.bib9)]编排框架,该框架在轨迹崩塌的每个功能阶段将其拦截,仅当校准后的不确定性阈值被突破时才升级给人类律师。

## II 背景

ReAct风格的智能体[1 (https://arxiv.org/html/2606.19812#bib.bib1)]将推理痕迹与工具调用交织在思想-行动-观察循环中。应用于电子发现时,智能体分解发现请求,通过RAG[3 (https://arxiv.org/html/2606.19812#bib.bib3)]检索候选文档,对每份文档进行特权分类,并综合生成特权日志——每一步都依赖于先前的输出。Geifman和El-Yaniv[4 (https://arxiv.org/html/2606.19812#bib.bib4)]将选择性分类形式化,即模型在置信度低于阈值时主动放弃;在智能体系统中,这种放弃必须重新定义为**升级**给一位具备完整状态上下文的人类。贝叶斯不确定性分解[5 (https://arxiv.org/html/2606.19812#bib.bib5),6 (https://arxiv.org/html/2606.19812#bib.bib6)]将偶然不确定性(数据噪声)与认知不确定性(模型知识)分开;后者是法律文档分类中更具操作性的升级信号,因为模型可能仅仅缺乏足够信息来进行可靠分类。

## III 相关工作

我们先前关于多智能体编排的工作[20 (https://arxiv.org/html/2606.19812#bib.bib20)]推动了严格的智能体间验证;当前工作将这些需求实例化到法律领域。Yan[13 (https://arxiv.org/html/2606.19812#bib.bib13)]为编码智能体提供了容错文件系统沙箱;我们扩展了快照/回滚原则,增加了FRCP特定的合规规则和外部API的补偿事务。ORCHID[14 (https://arxiv.org/html/2606.19812#bib.bib14)]展示了证据优先的HOTL编排,带有校准的延迟和审计日志;我们的区别在于轨迹完整性指标(FEP, RRR)能够揭示错误**源自**何处。ToolSafe[15 (https://arxiv.org/html/2606.19812#bib.bib15)]提供了步骤级的不安全工具调用检测,可以具体化我们的执行检查。TAPE[16 (https://arxiv.org/html/2606.19812#bib.bib16)]通过计划图聚合解决单错误崩塌——与我们的轨迹崩塌框架产生共鸣——并可能作为未来工作的候选骨干。KAIJU[17 (https://arxiv.org/html/2606.19812#bib.bib17)]提供了意图门控的DAG执行语义,可形式化我们的升级门控。Hatem等人[18 (https://arxiv.org/html/2606.19812#bib.bib18)]提出了一种成本高效的半合成法律IR测试集构建流程,其方法论可减少我们合成语料库的局限性。

## IV 法律IR中智能体故障的分类体系

我们按照故障源自的功能阶段来组织故障模式,如表I (https://arxiv.org/html/2606.19812#S4.T1)所示。该分类体系将我们先前工作[19 (https://arxiv.org/html/2606.19812#bib.bib19)]中提出的一般智能体IR故障分类扩展到具体的法律发现情境,在这里每个故障类别都承载着FRCP下的具体监管后果。这种以过程为导向的视图使得定向干预成为可能:规划故障应由规划验证器捕获,而非事后输出检查器。

**规划故障** 出现在目标分解阶段。**事实推导** 错误将不存在的法律先例引入初始计划;**任务分解** 错误产生违反FRCP约束的子目标。

**检索故障** 由错误的查询或不正确的上下文引起。**摘要错配**——智能体对检索到的文档的内部摘要与其来源相矛盾——尤为阴险,因为它会破坏所有下游推理而不留下可检测的痕迹。

**推理故障** 包括 **可解性幻觉**[8 (https://arxiv.org/html/2606.19812#bib.bib8)],即智能体为本质上不可能完成的查询(例如,在没有适当权限的情况下访问密封记录)编造一条遍历路径,以及 **推理陷阱**,即经RLHF训练后的理性化过程覆盖了事实性法律基础[2 (https://arxiv.org/html/2606.19812#bib.bib2)]。

**执行故障** 包括缺失的工具调用和 **流利陷阱**:对一个技术上不可能的API操作给出语法完美无瑕的辩解[19 (https://arxiv.org/html/2606.19812#bib.bib19),7 (https://arxiv.org/html/2606.19812#bib.bib7)]。

**表 I:法律发现中智能体故障的分类体系**

| 阶段 | 故障类型 | 法律IR影响 |
|------|----------|------------|
| 规划 | 事实推导 | 计划中出现编造的判例法 |
| 规划 | 任务分解 | 子目标违反FRCP |
| 检索 | 查询错配 | 遗漏特权文档 |
| 检索 | 上下文错配 | 将错误判例法当作事实 |
| 检索 | 摘要错配 | 摘要与来源相矛盾 |
| 推理 | 可解性幻觉 | 编造的遍历路径 |
| 推理 | 推理陷阱 | 理性化过程掩盖事实 |
| 执行 | 缺失工具 | 未进行合规所需的SDK调用 |
| 执行 | 流利陷阱 | 流畅但无效的API调用 |

## V 验证架构

我们提出四个验证层,每个针对分类体系中的特定阶段。

### V-A 规划验证

在执行之前,一个轻量级分类器 *f<sub>plan</sub>* 检查分解后的意图在给定可用工具集 T 下是否可满足。在我们的实现中,*f<sub>plan</sub>* 是一个经过微调的 DeBERTa-v3 分类器,在 2,400 个 (查询, 工具集, 可解性标签) 三元组上训练;特征包括查询复杂度、所需权限范围以及所有引用的文档类是否存在于活动 SDK 中。令 P(S | q, T) 表示查询 *q* 的估计可解性概率:

```math
\text{Dispatch}(q)=\begin{cases}
\text{Execute}, & P(S \mid q, \mathcal{T}) \ge \tau_{\text{plan}}\\
\text{EscalateHOTL}, & \text{otherwise.}
\end{cases} \tag{1}
```
τ<sub>plan</sub> 按领域具体设置;在我们的试验中,使用 τ<sub>plan</sub>=0.70,该值在包含 200 个已知可解性标签的合成查询集上进行校准,如 (1) 式所示。校准质量通过期望校准误差(ECE)[12 (https://arxiv.org/html/2606.19812#bib.bib12)] 评估,在保留集上 ECE=0.04。

### V-B 逐步推理检查点

在每个推理步骤 *t*,我们计算一个归因分数 *A<sub>t</sub>*,衡量向最终目标的期望进展[10 (https://arxiv.org/html/2606.19812#bib.bib10)]:

```math
A_t = \mathbb{E}_\pi [R(\tau) \mid s_t, a_t] - V(s_t), \tag{2}
```
其中 *R(τ)* 是轨迹奖励,*V(s<sub>t</sub>)* 是价值基线。在缺乏经过训练的 RL 价值函数时,我们将 *V(s<sub>t</sub>)* 近似为从 *s<sub>t</sub>* 出发、使用相同 GPT-4o 智能体进行 *k*=20 次蒙特卡洛展开的平均奖励;因此 *A<sub>t</sub>* 是动作 *a<sub>t</sub>* 相对于当前状态期望轨迹价值的优势。如果 *A<sub>t</sub> < ε*(其中 *ε > 0* 是最小进展阈值,在我们的试验中设为 0.05),则丢弃推理痕迹,智能体从 *s<sub>t</sub>* 重新采样。这可以防止推理陷阱在步骤间累积。

### V-C 执行沙箱

在提交任何写操作(例如,追加“Privileged”标签并将文档路由到生产数据库)之前,建议的动作 *a* 在干运行环境中执行。令 S 为当前状态,δ(*a*) 为预测的状态差异。沙箱按照 (3) 式验证合规性:

```math
\text{Commit}(a) \iff \text{FRCPCompliant}(\mathcal{S} \oplus \delta(a)). \tag{3}
```
FRCPCompliant 检查被实现为一个拒绝列表策略引擎:如果动作尝试 (i) 向任何非律师接收方生成标记为“Attorney Eyes Only”的文档,(ii) 在无有效权限令牌的情况下导出需要法院授权的文档类别,或 (iii) 在生产截止日期时间戳之后修改特权日志条目,则这些动作被阻止。对于数据库写操作,原子性和回滚通过将每个动作包装在数据库事务中提供;对于具有不可逆副作用的外部 API 调用(例如云存储上传),如果沙箱检查在执行后失败,则采用补偿事务模式[13 (https://arxiv.org/html/2606.19812#bib.bib13)] 发出逆转调用。失败的合规性检查会触发 HOTL 升级,而不是让动作不加检查地继续执行。

### V-D 不确定性门控升级

遵循标准贝叶斯分解[5 (https://arxiv.org/html/2606.19812#bib.bib5),6 (https://arxiv.org/html/2606.19812#bib.bib6)],我们将总预测不确定性分解为:

```math
U_{\text{total}} = \underbrace{\mathbb{E}_{p(\theta|\mathcal{D})}[\mathcal{H}(Y|X,\theta)]}_{\text{Aleatoric}} + \underbrace{\mathcal{I}(Y;\theta|X,\mathcal{D})}_{\text{Epistemic}}, \tag{4}
```
其中 *X* 是输入文档,*Y* 是特权标签,*θ* 是模型参数,*D* 是训练数据集。由于 GPT-4o 不暴露模型权重,我们通过自一致性方差[11 (https://arxiv.org/html/2606.19812#bib.bib11)] 估计 *U<sub>ep</sub>*((4) 式中的认知项):智能体为每份文档生成 *k*=10 个独立的分类理由;*U<sub>ep</sub>* 是所得标签分布的熵。所得不确定性估计的校准通过保留查询集上的 ECE 和 Brier 分数评估;在我们的试验中,ECE=0.06,Brier=0.11,表明校准可接受,可用于阈值选择。当 *U<sub>ep</sub>* 超过阈值 τ<sub>esc</sub> 时,系统触发**强制性 HOTL 升级**:智能体暂停自主行动,并将当前轨迹状态呈现给人类律师审查。

## VI 初步模拟研究

### VI-A 设置

我们构建了一个包含 5,000 份文档的合成电子发现语料库,特权标签由两位律师分配了真实值。文档按 70/30 分为智能体审查集和保留评估集。我们实例化了一个基于 GPT-4o 的 ReAct 智能体[1 (https://arxiv.org/html/2606.19812#bib.bib1)],可访问 BM25 检索和向量存储。我们比较了三种条件:

- **自主 (A)**:无升级;智能体端到端分类所有文档。
- **阈值 HOTL (T-HOTL)**:当 *U<sub>ep</sub> > τ<sub>esc</sub>* 时触发升级,τ<sub>esc</sub> ∈ {0.3, 0.5, 0.7}。
- **手动 (M)**:律师审查所有文档(上界基线)。

### VI-B 指标

我们采用与轨迹完整性一致的四个指标。**特权豁免风险 (PWR)** 衡量被错误分类为可生成的特权文档比例。**升级率 (ER)** 衡量路由给律师审查的文档比例。**首次错误位置 (FEP)** 标识轨迹中首次偏离真实值的索引。**回滚恢复率 (RRR)** 衡量推理检查点成功拦截错误的轨迹比例。

### VI-C 结果

**表 II:模拟结果(5,000 文档语料库)。PWR 附带 95% 自助法置信区间。**
| 条件 | PWR (%, 95% CI) | ER (%) | 平均 FEP | RRR |
|------|-----------------|--------|----------|-----|
| 自主 (A) | 8.3 (7.1–9.6) | 0.0 | 3.2 | — |
| T-HOTL (τ=0.3) | 2.9 (2.1–3.8) | 41.2 | 2.1 | 0.74 |
| T-HOTL (τ=0.5) | 3.2 (2.4–4.1) | 23.7 | 2.4 | 0.71 |
| T-HOTL (τ=0.7) | 5.1 (4.0–6.3) | 12.8 | 2.8 | 0.66 |
| 手动 (M) | 1.5 (1.0–2.1) | 100.0 | — | — |

表 II (https://arxiv.org/html/2606.19812#S6.T2) 显示,τ=0.5 时的 T-HOTL 将 PWR 从 8.3% 降至 3.2%(降低 61%,95% CI 不重叠),同时仅将 23.7% 的文档升级给律师审查——与完全手动审查相比,效率大幅提升。所有 T-HOTL 条件下的平均 RRR 为 0.71,确认推理检查点成功恢复了大部分被拦截的轨迹而无需升级。自主条件下的平均 FEP 为 3.2 步(平均轨迹长度为 7.8 步),表明错误往往早期产生并在到达输出前显著累积。

在运营成本方面,τ=0.5 情况下端到端智能体处理平均每份文档需 14.2 秒,前提是完全并发的批量 API 请求用于 *k*=20 次 MC 展开和 *k*=10 次自一致性采样;顺序执行会产生 290–340 秒,因此批量或本地推理是生产规模的前提。在 τ=0.5 情况下,仅在 23.7% 的文档上发生人类律师时间——与达到可比 PWR 的完全手动审查相比,估计可减少 76% 的律师工时。与真实律师团队一起进行的完整吞吐量研究留待未来工作。

这些结果是初步的,受限于语料库的合成性质;未来工作将在生产数据上进行验证。

## VII HOTL 集成

相似文章

面向企业AI智能体的部署前保障:基于本体论的仿真与信任认证

arXiv cs.AI

研究人员提出了一种基于本体论的企业AI智能体部署前验证框架,结合了智能体操作包络、自动化场景生成以及可机器验证的信任证书与分级部署判定。在四个受监管行业开展的试点研究共生成1,800个测试场景,结果显示基于本体论的生成方法在监管覆盖率上显著优于基于角色的基线方法。

为什么大多数法律 AI 演示在生产环境中失败

Reddit r/ArtificialInteligence

本文详细阐述了法律 AI 系统在生产环境中面临的三种常见故障模式:将所有来源视为同等可信、无法处理相互矛盾的法律观点,以及缺乏特定律所的内部知识。文章提出了诸如权威性加权、分歧检测以及注释层等解决方案,以建立系统的可信度与实用性。