共识在战略层面的不足：将推理轨迹分歧作为知识表示信号

arXiv cs.AI 2026/06/04 04:00 论文

摘要

本文认为，在多智能体 LLM 系统中，追求共识对于涉及价值判断的任务而言是不够的，并提出一种知识表示层，将智能体推理轨迹的分歧归类为四种符号状态，以实现内容审核等系统中的策略性路由。

arXiv:2606.04223v1 公告类型：新论文摘要：多智能体系统通常通过投票、共识协议、辩论或容错聚合等方式来减少分歧。我们认为，这一目标对于涉及价值判断的任务而言是不够的——在这类任务中，分歧可能反映的是真实存在的规范性不确定性，而非智能体的错误。在人机协作审核中推理轨迹分歧相关前期研究的基础上，我们提出一种知识表示层，将推理轨迹和智能体决策抽象为符号化的分歧状态。给定能够产生显式推理轨迹和二元决策的智能体，我们根据推理相似性与结论一致性，区分出四种状态：收敛性同意、发散性同意、收敛性分歧和发散性分歧。这些状态支持可撤销的策略性路由规则。我们在内容审核场景中对该框架进行了实例化，并论证了感知分歧的路由机制能够在亚符号 LLM 审议与面向多智能体策略推理的符号知识表示之间架起桥梁。

查看原文

查看缓存全文

缓存时间: 2026/06/05 02:05

# 共识在策略上是不充分的：推理链分歧作为知识表示信号

来源：https://arxiv.org/html/2606.04223

Jarosław A\. Chudziak1,2 \\机构1华沙理工大学新伦理学实验室，波兰华沙 2华沙理工大学电子与信息技术学院计算机科学研究所，波兰华沙 \\邮箱\{michal\.wawer\.stud, jaroslaw\.chudziak\}@pw\.edu\.pl

###### 摘要

多智能体系统通常被设计为通过投票、共识协议、辩论或容错聚合来减少分歧。我们认为，对于涉及价值判断的任务而言，这一目标是不充分的——在这类任务中，分歧可能反映的是真实的规范性不确定性，而非智能体错误。在人机协作内容审核推理链分歧相关先期研究的基础上，我们提出一种知识表示层，将推理链和智能体决策抽象为符号化的分歧状态。给定能够生成显式推理链和二元决策的智能体，我们根据推理相似性与结论一致性，区分出四种状态：收敛一致（CA）、发散一致（DA）、收敛分歧（CD）和发散分歧（DD）。这些状态支持可废止的策略路由规则。我们在内容审核场景中对该框架进行实例化，并论证分歧感知路由在亚符号LLM推理与符号知识表示之间架起了一座桥梁，可用于多智能体策略推理。

## 1 引言

基于LLM的多智能体系统正日益被用作集体推理架构 \(?;?\)，其中多个智能体在产生最终输出之前进行审议、辩论或聚合判断 \(?;?\)。现有方法通常将智能体间的分歧视为一种缺陷，并试图通过多数投票、额外辩论轮次或鲁棒聚合来加以消除 \(?;?;?;?;?\)。对于分歧意味着噪声或推理失败的工具性任务而言，这一做法合情合理。但对于涉及价值判断的任务而言，这种处理方式就远不恰当了——在这类任务中，分歧本身可能是决策问题的稳定属性。

内容审核是一个典型案例 \(?\)。关于有害言论、针对特定群体的语言或政治批评的决策，涉及相互竞争的价值观、语境解读以及社会情境中的判断 \(?;?;?;?\)。在这类案例中，标注者之间的分歧并非总是需要平均消除的错误：它可能反映了视角差异或真实的价值多元主义 \(?;?\)。同样的观察也适用于LLM智能体：当具有不同价值取向的智能体产生分歧时，这种分歧本身可能是有价值的信息。

我们对此加以利用，通过扩展我们的先期研究 \(?\)，引入一个知识表示层，将智能体推理链和决策抽象为一组符号状态，以及将每种状态路由至策略元动作的可废止策略。本文有三项贡献。第一，我们将分歧重新定义为多智能体系统的一种可表示认识状态，而非聚合的障碍 \(?\)。第二，我们沿两个维度定义了一套紧凑的分类体系：推理相似性与结论一致性，从而产生四种状态：收敛一致（CA）、发散一致（DA）、发散分歧（DD）和收敛分歧（CD）。第三，我们将这些状态与可废止路由规则相关联，使系统不仅能推理*决定什么*，还能推理*是否应该决定*、是否应追加询问，以及是否应上报。

## 2 分歧作为知识表示信号

我们将基于LLM的多智能体系统 \(?\) 建模为一个有限智能体集合 $A=\{a_1,\dots,a_n\}$。对于案例 $c$（即一个内容项），每个智能体产生输出 $O_i(c)=\langle r_i, d_i, v_i, \gamma_i\rangle$，其中 $r_i$ 是显式推理链，$d_i \in D$ 是智能体的决策（此处 $D=\{\textsc{Keep}, \textsc{Remove}\}$），$v_i$ 是价值观或视角档案，$\gamma_i$ 是置信度分数。知识表示层将 $r_i$ 视为一种可观测的论证性产物，而非形式证明，这与如下标准观点一致：智能体各自拥有独立的信息状态，而系统必须确定集体响应 \(?;?\)。

智能体输出之间的两种关系构成了基本词汇。设 $sim(r_i, r_j)\in[0,1]$ 表示两条推理链的语义相似度，均值对式相似度为 $\overline{sim}(c)=\tfrac{2}{n(n-1)}\sum_{i<j}sim(r_i,r_j)$；给定阈值 $\theta_s$，$HighSim(c)\equiv\overline{sim}(c)\geq\theta_s$，$LowSim(c)\equiv\overline{sim}(c)<\theta_s$。该阈值是一个策略参数，而非通用语义边界。对于结论一致性，设 $p_d(c)=|\{a_i:d_i=d\}|/n$，$p^*(c)=\max_{d\in D}p_d(c)$；给定 $\theta_a$，$Agree(c)\equiv p^*(c)\geq\theta_a$，$Disagree(c)\equiv p^*(c)<\theta_a$。保守设置将 $\theta_a$ 推向全体一致；宽松设置接受绝对多数。

结合两个维度，可得四种符号状态：

$$CA(c) \equiv HighSim(c) \wedge Agree(c),$$
$$DA(c) \equiv LowSim(c) \wedge Agree(c),$$
$$CD(c) \equiv HighSim(c) \wedge Disagree(c),$$
$$DD(c) \equiv LowSim(c) \wedge Disagree(c).$$

这些并非单纯的经验性聚类，而是多智能体系统认识状态的符号抽象，可供控制器使用。如同形式论证和非单调推理中的处理方式，相互冲突的理由可能支持不同的结论。我们将由此产生的结构视为一个可表示的对象 \(?;?;?\)。最值得关注的状态是 $CD(c)$：当智能体推理相似但结论不同时，残留的分歧不太可能源于解读差异。更合理的解释是，不同智能体对案例的同一描述赋予了不同的价值权重——这是规范性多元主义的候选特征，而非错误。相比之下，$DD(c)$ 表明存在歧义或不稳定的解读；$DA(c)$ 表明通过独立理由达成了鲁棒共识；$CA(c)$ 则是最适合自动处理的情况。图1 (https://arxiv.org/html/2606.04223#S2.F1) 总结了该分类体系及下文定义的默认元动作。

参见说明图1：四种分歧状态由推理相似性与结论一致性的组合产生。每种状态对应一个默认元动作 $\sigma_R$（第3节 (https://arxiv.org/html/2606.04223#S3)）。收敛分歧被视为价值冲突最强的候选信号。

## 3 可废止策略路由规则

分歧状态本身并不决定审核标签，而是决定一种*元动作*：系统推理的是是否应当做出自动决定。设 $d^*(c)=\arg\max_{d\in D}p_d(c)$ 为得票最多的决策。我们考虑四种元动作：$Auto(c,d^*)$，自动接受最强决策；$AutoExplain(c,d^*)$，接受最强决策但保留多样化解释；$SeekContext(c)$，请求额外信息或启动新一轮审议；以及 $Escalate(c)$，将案例转交人工判断。

我们使用 $\Rightarrow$ 表示可废止推断，其后件在通常情况下成立，但可被更强的策略或风险约束所覆盖，这与非单调推理的精神一致 \(?\)。基础路由策略如下：

$$R_1:\quad CA(c) \Rightarrow Auto(c,d^*), \tag{1}$$
$$R_2:\quad DA(c) \Rightarrow AutoExplain(c,d^*), \tag{2}$$
$$R_3:\quad DD(c) \Rightarrow SeekContext(c), \tag{3}$$
$$R_4:\quad CD(c) \Rightarrow Escalate(c). \tag{4}$$

规则 $R_1$ 对应最简单的情形：论证与决策的双重收敛共同支持自动化处理。$R_2$ 处理"基于不同理由达成一致"的情形；由于理由存在差异，系统保留解释多样性，而非将其折叠为单一理由——当不同利益相关方需要不同解释时，这一点尤为重要 \(?;?\)。$R_3$ 处理发散分歧的情形：系统可能尚未形成对案例的稳定表征，因此获取更多上下文通常优于立即上报。$R_4$ 是核心规则。在 $CD$ 状态下，智能体共享大体相似的解读，但将其转化为了不同的决策；此时强制达成共识 \(?\) 可能掩盖而非解决规范冲突。

可废止性至关重要。即使是 $CA(c)$，当内容涉及法律敏感性或预测危害程度较高时，也可能被覆盖；反之，在低风险且上报成本较高的情况下，$CD(c)$ 也可能无需上报：$HighRisk(c) \Rightarrow Escalate(c)$，$LegalRequirement(c) \Rightarrow Escalate(c)$，以及 $LowRisk(c) \wedge HighEscCost(c) \Rightarrow AutoExplain(c,d^*)$。最终元动作由分歧状态规则与领域规则的交互决定，与经典可废止推理架构一致 \(?;?\)。从决策论角度看，每种元动作具有不同的成本结构——自动化面临做出不当决策的风险，$SeekContext$ 增加延迟，$Escalate$ 消耗稀缺的机构处理能力——而分歧状态为分配这些成本提供了结构化信号，对通过组合投票进行判断聚合的方法形成补充；后者本身并不决定*是否*应该聚合 \(?\)。

参见说明图2：分歧感知控制器的架构。LLM智能体在对象层面进行审议，生成推理链和决策 $\langle r_i, d_i\rangle$。知识表示层应用抽象函数 $\Phi$，提取四种符号状态之一 $\sigma\in\{CA, DA, DD, CD\}$。可废止规则 $R_1$–$R_4$ 随后将每种状态映射至策略元动作；收敛分歧路径（高亮显示）默认指向 $Escalate$，但任何规则均可被领域层默认规则所覆盖。

## 4 实证可信度检验：内容审核

上述框架具有规范性，规定了控制器应如何响应分歧结构。我们需要从一个较弱但有实用价值的意义上检验符号抽象是否可信：四种状态是否在经验上追踪到了不同的认识情境，尤其是人类也认为存在差异的情境？这是对知识表示层的合理性检验，而非对路由策略的基准测试。

我们复用 \(?\) 的实验设置。对于每个内容项 $c$，从同一基础模型实例化五个LLM智能体，并通过编码不同审核视角的系统提示加以区分：*危害聚焦*、*语境敏感*、*社区规范*、*自由表达*和*法律框架*。这将价值取向差异与基础能力差异隔离开来。每个智能体生成 $\langle r_i, d_i, v_i, \gamma_i\rangle$，其中 $d_i\in\{\textsc{Keep}, \textsc{Remove}\}$，$r_i$ 包含智能体的解读、考量因素、价值权衡及结论。

我们使用Measuring Hate Speech语料库 \(?;?\)，该语料库保留了标注者差异，支持视角主义分析。我们按人工标注者分歧程度分层抽样 $n=600$ 个条目。推理链被嵌入共享向量空间，逐对余弦相似度计算得出 $\overline{sim}(c)$；决策分布得出 $p^*(c)$。每个案例被标注为四种符号状态之一，从而得到抽象函数：

$$\Phi:\langle(r_i,d_i)_{i=1}^{n}\rangle \;\longmapsto\; \sigma\in\{CA,DA,DD,CD\}.$$

可信度检验围绕 $\Phi$ 提出两个问题：（i）分配至不同状态的案例在人工分歧程度上是否存在差异；（ii）与仅关注分歧幅度、忽略结论结构的基线方法相比，结构性区分 $\Phi$ 是否提供了额外信息？

## 5 初步结果与评估

表1 (https://arxiv.org/html/2606.04223#S5.T1) 报告了各状态下的案例分布及对应的平均人工标注者分歧度 $\bar{d}$。概念层面预测的排序 $DA<CA<DD<CD$ 得到了验证：发散一致最为稳定，收敛分歧最不稳定。两种分歧状态 $\{CD, DD\}$ 与两种一致状态 $\{CA, DA\}$ 之间的效应量为 Cohen's $d=0.80$（$p<10^{-11}$，$n=600$），表明结构性抽象所追踪到的内容，也是人类能够感知到的。

表1：符号状态下的案例分布及平均人工标注者分歧度 $\bar{d}\in[0,1]$。预测排序 $DA<CA<DD<CD$ 得到验证。

一个自然的基线是仅使用分歧幅度，例如 $1-\overline{sim}(c)$，而忽略结论结构。表2 (https://arxiv.org/html/2606.04223#S5.T2) 将二者作为高人工分歧预测指标进行比较：基于类别的路由在F1上高于仅使用分歧幅度的方法，且显著超过随机基准。仅使用分歧幅度的方法召回率较高，但精确率较低：它会标记许多智能体推理存在差异但不一定对应人工分歧的案例。这正是 $CD/DD$ 区分所要捕捉的内容——纯度量方法丢失了第二个维度（智能体是否仍在决策上收敛），而正是这一维度将可能涉及规范性的案例（$CD$）与可能存在歧义的案例（$DD$）区分开来。图3 (https://arxiv.org/html/2606.04223#S5.F3) 可视化了定性排序结果。

表2：标记高人工分歧案例的比较。基于类别的路由使用 $\Phi$；仅使用分歧幅度的方法使用 $1-\overline{sim}(c)$，并在相同操作点设置阈值。

此检验属于初步性质——仅使用单一语料库、基于提示的智能体差异化方法以及基于嵌入的相似度。更强的结论需要独立参数化的智能体和替代相似度函数。我们认为具有实质意义的结果是定性层面的——排序关系和一致/分歧差距，而非具体的F1数值。

参见说明图3：各符号状态下观测到的平均人工分歧度 $\bar{d}$，右侧为概念上预测的排名（1=最低，4=最高）。定性排序 $DA<CA<DD<CD$ 得到验证；

## 6 讨论：从共识到策略性上报

该框架重新界定了基于LLM的多智能体系统的设计目标。寻求共识的系统追问的是如何使智能体达成一致；而分歧感知系统追问的是分歧结构对下一步适当行动意味着什么。推理链是这一转变的核心：仅凭投票无法揭示智能体之间的分歧究竟源于对内容的误读……

共识在战略层面的不足：将推理轨迹分歧作为知识表示信号

相似文章

超越共识：混合智能体中的轨迹级综合

协商幻觉：多智能体大语言模型协商中的事实损耗与立场同质化诊断

基于符号图建模的冲突鲁棒多智能体推理

当大型语言模型发展语言：用于高效多智能体推理的符号通信

我越是用多个模型，就越觉得“AI共识”是个陷阱——分歧才是唯一值得关注的部分

提交意见反馈