CAF-Gen：一种用于丰富论证结构的多智能体系统

arXiv cs.CL 2026/06/08 04:00 论文

摘要

CAF-Gen是一个基于多智能体LLM的框架，通过迭代的创作者-评审者流水线，将浅层论证结构丰富为正式的Carneades论证框架模型，从而提高了结构对齐性和质量。

arXiv:2606.06646v1 公告类型：新发布摘要：从自然文本中形式化复杂推理是计算语言学中的核心挑战之一。这要求系统不仅理解关键词，还要理解文本中嵌入的上下文和复杂推理。当前的论证挖掘（AM）技术能够识别基本主张和前提，但往往难以捕捉更丰富的结构信息，这些信息是高级模式如Carneades论证框架（CAF）所需的，该框架融合了前提类型、证明标准和论证图式等特征。我们通过引入CAF-Gen来解决这一局限，这是一个自动化的多智能体框架，旨在将浅层论证结构丰富为符合CAF的论证模型。通过采用迭代的创作者-评审者流水线，创作者智能体的输出由批判性智能体验证，以确保结构完整性。这种多智能体协作对于缓解单次生成模型典型的结构不稳定性至关重要。我们的实验表明，迭代反馈循环提高了生成数据的质量，并与原始标注实现了高度对齐，同时生成了结构更丰富的模型。我们的发现表明，多智能体系统能够克服单次生成的局限性，为自动建模形式化论证提供了一种稳健的方法。

查看原文

查看缓存全文

缓存时间: 2026/06/08 09:19

# 面向论证结构丰富化的多智能体系统
来源：https://arxiv.org/html/2606.06646
11institutetext: 华沙理工大学电子与信息技术学院，波兰
11email: \{jakub\.baba\.stud,jaroslaw\.chudziak\}@pw\.edu\.pl

###### 摘要

将自然语言中的复杂推理形式化是计算语言学的核心挑战之一。这要求系统不仅能理解关键词，还要理解文本中蕴含的上下文和复杂推理。当前的论点挖掘（AM）技术能够识别基本的主张和前提，但在捕捉更丰富的结构信息方面往往力不从心，而这些信息正是Carneades论证框架（CAF）等高级模式所要求的，该框架融合了前提类型、证明标准和论据模式等特征。为应对这一局限，我们引入了CAF-Gen，这是一个自动化多智能体框架，旨在将浅层论证结构丰富为符合CAF的论证模型。通过采用迭代的创建者-评审者（Creator-Reviewer）流水线，创建者智能体的输出会由一个批评性智能体进行验证，以确保结构完整性。这种多智能体协作对于缓解单次生成模型常见的结构不稳定性至关重要。我们的实验表明，迭代反馈循环提升了生成数据的质量，并与原始标注实现了高度对齐，同时产生了结构更丰富的模型。我们的研究结果表明，多智能体系统能够克服单次生成的局限性，为自动化建模形式化论证提供了一种稳健的方法。

## 1 引言

论点挖掘[13](https://arxiv.org/html/2606.06646#bib.bib1)研究从自然语言文本中自动提取和结构化论证。尽管该领域在识别基本论证图（通常由主张、前提以及简单的攻击或支持关系组成）方面取得了快速进展，但当前的AM技术主要集中于这些浅层模型，而对于更高级的形式化论证框架（如ASPIC+[17](https://arxiv.org/html/2606.06646#bib.bib9)或Carneades论证框架（CAF）[6](https://arxiv.org/html/2606.06646#bib.bib6)）中所包含的更细致信息的提取仍然探索不足。Carneades论证框架提供了一个复杂的模型，融合了不同的前提类型、多样的证明标准和显式的论据模式等特征。使用CAF等框架进行论证提取通常超出了标准AM任务的范围，主要是因为缺乏必要的、已标注的语料库来开发和验证这类针对复杂结构的系统。因此，这些广泛的特征和框架在计算智能中的实际应用仍然有限。

大语言模型（LLMs）在这些任务中展现出了提升的性能，为解决这一挑战带来了希望。它们在处理与生成自然语言方面具有优势，加上从上下文中学习的能力，使得越来越多包含LLMs的解决方案被应用于要求严苛的NLP任务中[18](https://arxiv.org/html/2606.06646#bib.bib2)。然而，LLMs的单次生成往往难以满足形式逻辑所需的严格约束，容易产生幻觉。为了克服这一问题，多智能体系统（MAS）的概念应运而生，其中智能体之间的交互可以模拟集体智能来优化复杂输出。通过将任务分解为专业化、组织良好的子任务，MAS使每个智能体能够专注于更狭窄的目标，从而实现更有针对性的质量控制。

在本文中，我们介绍CAF-Gen，这是一个多智能体LLM驱动的框架，旨在将基本的论证标注自动丰富为严格的、符合CAF的模型。我们的主要贡献是应用并验证了一种专门针对形式化论证领域调整的迭代创建者-评审者流水线，以确保生成模型的结构完整性和语义丰富性。基于这种方法，我们通过从UKP Argument Annotated Essays[21](https://arxiv.org/html/2606.06646#bib.bib7)语料库中检索详细特征并将其丰富为符合CAF的模型，展示了该系统的有效性。

## 2 背景与相关工作

论点挖掘（AM）已成为自然语言处理（NLP）和计算语言学中的一个重要研究领域。它专注于文本中论证性结构的自动识别与建模，并在[13](https://arxiv.org/html/2606.06646#bib.bib1)、[14](https://arxiv.org/html/2606.06646#bib.bib18)、[25](https://arxiv.org/html/2606.06646#bib.bib19)中得到了广泛综述。AM的基础工作集中于提供标注方案，以便对检索到的标注进行结构化和索引。一个具有影响力的方案由Stab和Guryevich[21](https://arxiv.org/html/2606.06646#bib.bib7)提出，区分了主张、前提及其支持或攻击关系（见图1(https://arxiv.org/html/2606.06646#S2.F1)）。基于该方案的一个标注语料库是名为UKP Argument Annotated Essays的说服性论文语料库[22](https://arxiv.org/html/2606.06646#bib.bib3)。该语料库以及其他著名的语料库（如AIFdb[12](https://arxiv.org/html/2606.06646#bib.bib8)）对于开发与基准测试论点挖掘系统至关重要。尽管这些语料库对于核心AM任务的基准测试具有不可估量的价值，但AM语料库的多样性和质量仍在不断提升。改进领域包括多模态和多语言语料库及研究[15](https://arxiv.org/html/2606.06646#bib.bib23)、[23](https://arxiv.org/html/2606.06646#bib.bib24)、[20](https://arxiv.org/html/2606.06646#bib.bib25)。

参见图注

图1：Stab和Gurevych引入的标注方案[21](https://arxiv.org/html/2606.06646#bib.bib7)。

为了真正实现在法律和科学等领域进行自动化的论证形式化，底层的索引必须捕捉更深层次的推理。尽管像ASPIC+[17](https://arxiv.org/html/2606.06646#bib.bib9)这样的框架基于推理规则提供了严格的逻辑结构，但我们选择Carneades论证框架（CAF）[5](https://arxiv.org/html/2606.06646#bib.bib10)作为目标，因为它与自然语言语义更契合。CAF明确地围绕论据模式（例如，“专家意见论证”和“事例论证”，定义在如Walton的分类学[26](https://arxiv.org/html/2606.06646#bib.bib5)中）来构建论证。此外，CAF还定义了诸如陈述类型（普通前提、假设和例外）以及证明标准等特征，这些标准根据特定上下文中提供的证据负担来指导陈述的可接受性。这种丰富性使得与简单模式相比，能够建模更复杂的推理。然而，这种复杂性带来了一个重大挑战：将原始文本映射到这些结构化特征仍然是一个问题，这限制了CAF在计算系统中的应用。

大语言模型（LLMs），如GPT-4[1](https://arxiv.org/html/2606.06646#bib.bib15)，为NLP和AM任务开辟了新的可能性[3](https://arxiv.org/html/2606.06646#bib.bib16)，提供了一条弥合这种模式差距的途径。LLMs在理解和生成自然语言及上下文方面展现出了前所未有的能力，并且已被证明在AM任务中通过特殊提示技术或微调[8](https://arxiv.org/html/2606.06646#bib.bib13)、[2](https://arxiv.org/html/2606.06646#bib.bib17)、[10](https://arxiv.org/html/2606.06646#bib.bib26)等方式大幅超越了先前的模型。在这些技术中，有一项工作提出了一个基于结构化提示的模块化框架，用于法律规则应用[19](https://arxiv.org/html/2606.06646#bib.bib27)。该方法将推理任务分解为可管理的步骤，并能够针对逻辑约束对LLM生成的输出进行形式化验证。它们推断隐含信息并生成结构化输出的能力[18](https://arxiv.org/html/2606.06646#bib.bib2)，使其成为生成像CAF这样框架所需复杂特征的有力候选。在此能力基础上，多智能体系统（MAS）的概念应运而生[24](https://arxiv.org/html/2606.06646#bib.bib14)、[27](https://arxiv.org/html/2606.06646#bib.bib28)。这种每个智能体都具有结构化角色的智能体方法，已在知识管理和NLP领域的各种工作中得到展示，包括[16](https://arxiv.org/html/2606.06646#bib.bib12)、[11](https://arxiv.org/html/2606.06646#bib.bib22]。该领域的基础工作之一是CRITIC框架，它允许LLMs使用工具验证并逐步改进其响应[9](https://arxiv.org/html/2606.06646#bib.bib20)。另一项近期工作引入了ACC-Collab，这是一个基于演员-评论家（Actor-Critic）方法、专注于协作的双智能体团队框架[4](https://arxiv.org/html/2606.06646#bib.bib21)。

## 3 问题与方法

为应对自动化形式化的挑战，我们设计了CAF-Gen，一个多智能体框架，它将带有基本论证结构标注的输入文本转换为丰富且结构有效的、符合Carneades模式的结构。该过程建立在两个LLM智能体（创建者与评审者）之间的协作迭代流水线上。这种架构确保了与原始结构的高保真映射，同时用形式化推理所需的复杂特征可靠地丰富了模型。

### 3.1 任务形式化

我们将CAF丰富化定义为一种保持结构的图变换，它将一个浅层论证图映射到一个符合Carneades的图上，用形式化推理所需的属性丰富每个节点和边，同时保持对输入结构的根植。

**源图**定义如下：

G_src = ⟨V_src, E_src⟩ (1)

它由组件 V_src 和有向关系 E_src 组成：

τ_src: V_src → {MajorClaim, Claim, Premise}, (2)
E_src ⊆ V_src × V_src × {Support, Attack}. (3)

这种表示编码了论证角色和极性，但不包含CAF下计算可接受性所需的任何逻辑属性。

**目标图**定义如下：

G_CAF = ⟨S, A⟩ (4)

它由陈述 S 和论证 A 组成。每个陈述 s ∈ S 都带有陈述类型 σ(s) ∈ T_stmt 和证明标准 π(s) ∈ P_std，其中 T_stmt 和 P_std 是CAF的陈述类型和证明标准分类体系[6](https://arxiv.org/html/2606.06646#bib.bib6)。每个论证 a ∈ A 是一个元组 a = ⟨prem(a), c(a), pol(a), w(a)⟩，包含前提 prem(a) ⊆ S、结论 c(a) ∈ S、极性 pol(a) ∈ {Pro, Con}，以及来自Walton分类学[26](https://arxiv.org/html/2606.06646#bib.bib5)的论据模式 w(a)。

目标是构建一个**丰富映射**：

Φ: G_src → G_CAF (5)

受限于两个根植约束。**组件根植**通过映射 μ: V_src → S 将每个源组件分配为一个陈述（主要主张成为论证结论），并固定 σ 和 π；μ 不必是单射的，因为冗余组件可能会被合并。**关系根植**将每个关系 (u, v, r) ∈ E_src 映射为一个论证，其结论为 μ(v)，其极性保持 r（Support ↦ Pro, Attack ↦ Con）。核心挑战在于 σ、π 和 w 在 G_src 中缺失，必须从文本中推断，而 Φ 需锚定于原始结构，而非引入无根节点或边。

### 3.2 丰富化工作流程

CAF-Gen 是一个旨在自动化这一丰富化过程的框架。它基于两个LLM智能体：CAF创建者和CAF评审者。这些智能体迭代工作，为输入语料库中的每个单元生成一个结构化的索引条目。该系统的概述见图2(https://arxiv.org/html/2606.06646#S3.F2)。

参见图注

图2：CAF-Gen系统概览。

CAF创建者和CAF评审者在迭代精炼循环中协同工作，以提升生成的CAF模型的质量。每次生成模型后，都会将其传递给评审者进行评估。如果模型被接受，则过程完成。然而，当出现问题时，会提供警告、建议和精炼意见，并与模型和输入数据一起重新提交给创建者。生成、评审和修订的整个循环持续进行，直到评审者接受模型或系统超过预定义的迭代次数。整个过程旨在逐步提高输出模型的准确性并检测错误。

我们方法实验中使用的数据集是完整的**UKP Argument Annotated Essays v2**[22](https://arxiv.org/html/2606.06646#bib.bib3)语料库。这个公开可用的语料库包含402篇说服性论文，按照先前介绍的[21](https://arxiv.org/html/2606.06646#bib.bib7)组件（主要主张、主张和前提）以及它们之间的论证关系（分类为支持或攻击）进行了连贯的标注。该子集在论点挖掘研究中的广泛采用使其成为我们研究的宝贵且可信的基准，而论文的说服性质为识别和丰富更细致的组件提供了空间。

### 3.3 智能体：迭代生成与质量保证

**CAF创建者**是流水线中的生成式智能体。其职责是获取语料库中的一个单元，并根据CAF模式构建一个候选条目。该过程涉及以下几个子任务：

1. **组件映射** – 识别并将主张和前提映射到CAF陈述，主要主张映射为结论。
2. **类型分类** – 根据每个陈述在论证中的角色，为其分配一个陈述类型，例如普通前提、假设或例外。
3. **证明标准分配** – 基于文本上下文和陈述类型，从预定义集合[7](https://arxiv.org/html/2606.06646#bib.bib4)（例如，证据微光、证据优势、排除合理怀疑）中选择一个证明标准。
4. **论证映射** – 识别并将支持/攻击关系映射到CAF论证。
5. **模式识别** – 为每个论证确定来自Walton分类学[26](https://arxiv.org/html/2606.06646#bib.bib5)（例如，后果论证、专家意见论证）的最可能的论据模式。

**CAF评审者**在流水线中扮演批评者的角色。它评估CAF创建者生成的结构，并在其被接受为最终索引之前确保其质量。关键检查（包含细致的子检查）可以定义如下：

1. **完整性 &**

CAF-Gen：一种用于丰富论证结构的多智能体系统

相似文章

CHAL：分层代理语言委员会

通用智能体的构建式治理

IdeaForge：基于知识图谱的多智能体框架，用于跨方法论创新分析与专利权利要求生成

用于三维框架系统自动化结构分析的智能体大语言模型

可发现的主体知识——面向主体化知识图谱功能的形式化框架（扩展版）

提交意见反馈