法律中多智能体协商研究

arXiv cs.AI 论文

摘要

本文研究了使用LLM进行法律推理任务的多智能体协商方法,引入了两种受法庭程序启发的新框架。实验表明,多智能体系统在整体性能上与单一LLM相当,但能产生截然不同的答案,并能解决基线模型无法处理的案例,突显了多智能体方法在法律AI中的潜力。

arXiv:2606.30906v1 公告类型:新 摘要:人工智能越来越多地应用于法律领域,并有可能增加司法公正的机会。一个日益受到关注的特定趋势是代理型人工智能,其中基于大型语言模型(LLM)的AI代理可以自主行动。特别是,法律领域中的多智能体方法在很大程度上仍未被探索。在本文中,我们研究了使用LLM进行法律推理任务的多智能体协商方法。我们探索了多智能体协商(MAD),并引入了两种受法庭程序和法律论证启发的新多智能体框架。我们在法律和非法律基准上的实验表明,多智能体框架在整体性能上与基线大型语言模型相当,但会产生显著不同的答案。值得注意的是,这些方法可以成功解决基线模型无法处理的案例,反之亦然。我们进行了定性评估,并强调了多智能体框架优于单一方法的场景。例如,多智能体方法似乎更适合回答需要从多个角度进行批判性思考的问题。我们的工作将多智能体系统定位为法律领域AI的一个有前景的方向,同时展示了受法律启发的多智能体方法在协商中的潜力。
查看原文
查看缓存全文

缓存时间: 2026/07/01 05:36

# 法律领域多代理审议机制研究
来源:https://arxiv.org/html/2606.30906
\(2026\)

###### 摘要。

人工智能正越来越多地应用于法律领域,并有望提升司法可及性。其中,一种日益受到关注的方向是代理型人工智能(Agentic AI),即基于大语言模型(LLM)的AI代理能够自主采取行动。然而,在法律领域,多代理方法在很大程度上仍未得到充分探索。本文针对法律推理任务,研究使用LLM的多代理审议方法。我们探讨了多代理审议(MAD),并提出了两种受法庭程序和法律论证启发的新型多代理框架。我们在法律和非法律基准上的实验表明,多代理框架在整体性能上与基准大语言模型相当,但产生的答案明显不同。值得注意的是,这些方法能够成功解决基准模型无法处理的案例,反之亦然。我们进行了定性评估,并重点指出了多代理框架优于单一模型的场景。例如,多代理方法似乎更适合回答需要从多个角度进行批判性思考的问题。我们的工作将多代理系统定位为法律领域人工智能的一个有前景的方向,同时展示了受法律启发的多代理方法在审议方面的潜力。

多代理系统,代理型人工智能,法律推理,大语言模型

††版权:无††期刊年份:2026††会议:面向司法可及性、争议解决与数据访问的人工智能;2026年6月8日;新加坡††ISBN:无††CCS:计算方法 代理/离散模型††CCS:计算方法 多代理系统††CCS:计算方法 智能代理††CCS:计算方法 话语、对话与语用学††CCS:计算方法 关于信念和知识的推理††CCS:计算方法 监督学习(分类)

## 1. 引言

人工智能(AI),尤其是大语言模型(LLM),在法律领域的应用日益广泛,例如用于注释法律文本(Savelka and Ashley, 2023)、提升法院表格的可用性(Steenhuise et al., 2023)以及通过简化法律程序来辅助专业人士(Siino et al., 2025; Lai et al., 2024)。这些AI发展有潜力通过协助普通民众和法律专业人士来改善司法可及性。法律领域中一个特别重要的部分是法律推理,这是一个复杂且多方面的过程,需要多种认知和分析技能(Ellsworth, 2005)。

与此同时,法律推理与起草或提升可用性等任务有着根本区别。它涉及解释、权衡价值以及处理开放式概念(Bench-Capon and Sartor, 2003; Bench-Capon and Sergot, 1988; Bench-Capon et al., 2025; Hart and Green, 2012; Verheij, 2016)。在实际法律实践中,对立双方都会提出支持自身立场并试图削弱对方论点的论据,由第三方中立者做出最终裁决。因此,法律推理本质上涉及多个需要权衡和协调的视角。这种审议性和对抗性表明,用于法律推理的计算模型可以从采用多代理方法中受益,其中不同的观点被明确表示和评估。

然而,当前基于LLM的法律审议方法(Goebel et al., 2024)通常依赖单一模型产生单一叙述。这种单方面推理容易导致视野狭隘,忽视其他解释,并得出不够稳健的结论。相比之下,多代理框架可以更明确地捕捉和评估相互竞争的视角。例如,在标准的多代理审议(MAD)设置中(Du et al., 2023),多个代理独立处理一个问题,然后反思彼此的回答,从而实现更丰富、更平衡的推理。当前,代理型人工智能方法在法律领域及其他领域正得到越来越多的采用(Acharya et al., 2025),然而多代理方法在法律研究中的潜力在很大程度上仍未得到探索。

因此,本文探讨了用于法律审议的多代理方法。我们评估了这些任务上的标准MAD框架,并提出了两种基于法律程序和论证的新颖多代理框架。第一种是3-Ply框架,灵感来源于(Rissland and Ashley, 1987; Ashley, 1988)中的三部分方法,其中代理在法庭中扮演原告和被告的角色,第三个代理担任法官,权衡双方论点的优劣。这种设计明确探索了两个相互竞争的视角,并且在程序上对争议解决场景具有启发性,因为它明确模拟了对抗性当事人立场和中立裁决角色。第二种是Parrots框架,它在主代理和一组关键的“鹦鹉”代理之间展开对话,每个鹦鹉代理代表基于论证理论的不同视角(Musi et al., 2025)。结合基准LLM分类器,我们在五个基准上评估了这些框架,包括四个法律推理任务和一个逻辑推理任务。我们的目标是在法律推理中探索多代理方法的潜力,并引入两种新颖的、受法律启发的多代理审议框架。

参见图注 (a) 基准
参见图注 (b) 多代理审议
参见图注 (c) 3-Ply
参见图注 (d) Parrots

图1. 我们评估的每个框架的流程。

## 2. 背景

尽管近期AI在法律领域的商业应用激增,但AI与法律这一学术分支学科已经活跃了30多年(Governatori et al., 2022; Sartor et al., 2022; Villata et al., 2022)。早期工作侧重于法律推理和论证的形式模型,近年来逐渐转向对机器学习和大型语言模型的关注(Governatori et al., 2022; Sartor et al., 2022; Villata et al., 2022; Lai et al., 2024)。

基于多代理的方法在研究法律现象方面的潜力近年来逐渐受到关注,尽管它仍然是一个相对小众的领域(Benthall and Strandburg, 2021; Schwartz, 2020)。以往的研究主要集中在模拟程序和论证上,而我们的方法则强调审议推理。Arisaka et al. (2022) 提出了一种使用多代理抽象论证来形式化法律推理的方法。Zhang and Ashley (2025) 开发了一种用于法律论证生成的多代理方法,该方法能够产生3-Ply论证,展示了多代理架构相对于基准模型的优势。类似地,Jiang and Yang (2025) 实施了一个司法合议庭审议过程,以反映真实的法律动态,并在法律判决预测任务中评估多代理架构。值得注意的是,Jiang and Yang (2025) 应用不同类型的代理来代表合议庭中的角色,区分了专业法官和人民陪审员。尽管这些方法旨在模拟现实世界法律推理的程序和论证动态,但我们的工作侧重于应用基于审议的架构来解决具体的法律推理任务。近期工作(He et al., 2024; Jiang and Yang, 2024; Devadiga et al., 2025)和早期研究(Mayor et al., 2009; Schwartz, 2019)中也探讨了法律领域中其他受角色启发和基于代理的方法。除这些工作外,法律问答系统直到最近主要依赖非代理方法,包括标准机器学习、语言模型、基于检索的架构,或与法律本体结合的混合方法(Steging et al., 2026; Abdallah et al., 2023; Martinez-Gil, 2023; Goebel et al., 2024)。

我们的方法建立在多代理系统领域的成熟文献基础上,以及强调法律本质上具有论证性的学术研究之上。一系列长期的法理学和AI与法律研究强调,法律结论是通过结构化的、审议性的论证来证明其合理性的(Rotolo and Sartor, 2023; Prakken and Sartor, 2015; Feteris, 1997)。关于多代理系统内形式论证和审议过程的研究为研究或模拟法律过程的论证动态提供了一个有用的框架(Arisaka et al., 2022; Benthall and Strandburg, 2021; Schwartz, 2020; Maudet et al., 2007)。我们基于这些见解开发了一种架构,其中合作和竞争的代理交换结构化论证以进行法律问答。从司法可及性和争议解决的角度来看,揭示竞争立场及其理由可以更好地支持知情参与。

## 3. 方法

在我们的实验中,我们将三种多代理框架与一个基准大语言模型进行了比较:一个标准的**多代理审议(MAD)**框架、一个基于法庭程序的**3-Ply**框架,以及一个基于论证学领域思想的**Parrots**框架。我们通过比较它们在五个数据集上的性能和答案来探索不同方法,这四个数据集包括四个法律推理任务和一个逻辑推理任务。选择逻辑推理任务是为了证明新颖的受法律启发的方法是与领域无关的,因此也可以解决非法律任务。所有任务都是二元任务,要求模型回答“是”或“否”。在本节中,我们描述这些框架和数据集。框架的高级概述如图1所示。每个系统的完整提示及其使用方式可在附录中找到。

### 3.1. 审议框架

#### 基准

基准分类器是一个简单的框架,用于与三个多代理框架进行比较。在此设置中,一个问题被提供给一个大语言模型,该模型应给出答案和简短解释。这个基准分类器作为一个参考点,以便更好地理解多代理框架的性能和行为。问题通过单次模型调用回答。

#### 多代理审议(MAD)

我们的多代理审议(MAD)分类器使用三个大语言模型,称为代理,每个代理负责生成一个预测。该框架基于受“思维社会”启发的先前工作(Du et al., 2023)。在固定轮数的审议中,每个代理会看到其他两个代理的回答,并被要求相应修改自己的回答。在我们的实现中,代理首先进行初始预测,然后进行两轮审议。最终答案由多数投票决定。给定三个初始预测和两轮各三个修正,MAD设置总共需要九次模型调用。

#### 3-Ply

我们引入了3-Ply分类器,它基于一个模拟法庭,其中有三个LLM代理分别扮演原告、被告和法官。原告旨在说服法官问题的答案是“是”,而被告则声称答案是“否”。中立的法官将根据原告和被告论点的优缺点,决定问题的答案及其原因。采用这种3-Ply方法的原因在于,双方的视角总是被明确考虑。3-Ply分类器过程包括三个部分:原告的初始论点、被告的反驳论点,以及最终的原告反驳。法官根据所有部分提出的论点来确定最终答案。这使得使用3-Ply框架回答问题总共需要四次模型调用。

#### Parrots

Parrots分类器是我们引入的一个新颖框架,基于论证学领域的一个最新观点,即大型语言模型应该通过设计与我们进行争论(Musi et al., 2025)。该观点的支持者建议,与其使用一个随声附和的随机鹦鹉,不如使用一组四个具有不同视角的关键性鹦鹉。我们将这一观点应用于多代理审议,其中由一个LLM代表的人工代理“Alex”与一组四个由单个LLM代表的鹦鹉进行来回争论。根据文献,这些鹦鹉会挑战Alex或其他鹦鹉使用的假设或定义(苏格拉底式),反驳或削弱Alex和其他鹦鹉的论点,测试其稳健性(怀疑式),提供可能被忽视的替代视角或解释(折中式),以及批判性评估论点的逻辑强度,指出弱点、不一致或谬误(亚里士多德式)。在我们的框架中,Alex代理以与基准分类器相同的方式进行初始预测。鹦鹉们则各自从其视角对这个预测做出反应。随后,Alex回应鹦鹉,并被询问是否希望继续对话。在我们的实验中,Alex最多可以继续对话三轮。因此,每个问题所需的模型调用次数为...

相似文章