共识在战略层面的不足:将推理轨迹分歧作为知识表示信号

arXiv cs.AI 论文

摘要

本文认为,在多智能体 LLM 系统中,追求共识对于涉及价值判断的任务而言是不够的,并提出一种知识表示层,将智能体推理轨迹的分歧归类为四种符号状态,以实现内容审核等系统中的策略性路由。

arXiv:2606.04223v1 公告类型:新论文 摘要:多智能体系统通常通过投票、共识协议、辩论或容错聚合等方式来减少分歧。我们认为,这一目标对于涉及价值判断的任务而言是不够的——在这类任务中,分歧可能反映的是真实存在的规范性不确定性,而非智能体的错误。在人机协作审核中推理轨迹分歧相关前期研究的基础上,我们提出一种知识表示层,将推理轨迹和智能体决策抽象为符号化的分歧状态。给定能够产生显式推理轨迹和二元决策的智能体,我们根据推理相似性与结论一致性,区分出四种状态:收敛性同意、发散性同意、收敛性分歧和发散性分歧。这些状态支持可撤销的策略性路由规则。我们在内容审核场景中对该框架进行了实例化,并论证了感知分歧的路由机制能够在亚符号 LLM 审议与面向多智能体策略推理的符号知识表示之间架起桥梁。
查看原文
查看缓存全文

缓存时间: 2026/06/05 02:05

# 共识在策略上是不充分的:推理链分歧作为知识表示信号

来源:https://arxiv.org/html/2606.04223

Jarosław A\. Chudziak1,2 \\机构1华沙理工大学新伦理学实验室,波兰华沙 2华沙理工大学电子与信息技术学院计算机科学研究所,波兰华沙 \\邮箱\{michal\.wawer\.stud, jaroslaw\.chudziak\}@pw\.edu\.pl

###### 摘要

多智能体系统通常被设计为通过投票、共识协议、辩论或容错聚合来减少分歧。我们认为,对于涉及价值判断的任务而言,这一目标是不充分的——在这类任务中,分歧可能反映的是真实的规范性不确定性,而非智能体错误。在人机协作内容审核推理链分歧相关先期研究的基础上,我们提出一种知识表示层,将推理链和智能体决策抽象为符号化的分歧状态。给定能够生成显式推理链和二元决策的智能体,我们根据推理相似性与结论一致性,区分出四种状态:收敛一致(CA)、发散一致(DA)、收敛分歧(CD)和发散分歧(DD)。这些状态支持可废止的策略路由规则。我们在内容审核场景中对该框架进行实例化,并论证分歧感知路由在亚符号LLM推理与符号知识表示之间架起了一座桥梁,可用于多智能体策略推理。

## 1 引言

基于LLM的多智能体系统正日益被用作集体推理架构 \(?;?\),其中多个智能体在产生最终输出之前进行审议、辩论或聚合判断 \(?;?\)。现有方法通常将智能体间的分歧视为一种缺陷,并试图通过多数投票、额外辩论轮次或鲁棒聚合来加以消除 \(?;?;?;?;?\)。对于分歧意味着噪声或推理失败的工具性任务而言,这一做法合情合理。但对于涉及价值判断的任务而言,这种处理方式就远不恰当了——在这类任务中,分歧本身可能是决策问题的稳定属性。

内容审核是一个典型案例 \(?\)。关于有害言论、针对特定群体的语言或政治批评的决策,涉及相互竞争的价值观、语境解读以及社会情境中的判断 \(?;?;?;?\)。在这类案例中,标注者之间的分歧并非总是需要平均消除的错误:它可能反映了视角差异或真实的价值多元主义 \(?;?\)。同样的观察也适用于LLM智能体:当具有不同价值取向的智能体产生分歧时,这种分歧本身可能是有价值的信息。

我们对此加以利用,通过扩展我们的先期研究 \(?\),引入一个知识表示层,将智能体推理链和决策抽象为一组符号状态,以及将每种状态路由至策略元动作的可废止策略。本文有三项贡献。第一,我们将分歧重新定义为多智能体系统的一种可表示认识状态,而非聚合的障碍 \(?\)。第二,我们沿两个维度定义了一套紧凑的分类体系:推理相似性与结论一致性,从而产生四种状态:收敛一致(CA)、发散一致(DA)、发散分歧(DD)和收敛分歧(CD)。第三,我们将这些状态与可废止路由规则相关联,使系统不仅能推理*决定什么*,还能推理*是否应该决定*、是否应追加询问,以及是否应上报。

## 2 分歧作为知识表示信号

我们将基于LLM的多智能体系统 \(?\) 建模为一个有限智能体集合 $A=\{a_1,\dots,a_n\}$。对于案例 $c$(即一个内容项),每个智能体产生输出 $O_i(c)=\langle r_i, d_i, v_i, \gamma_i\rangle$,其中 $r_i$ 是显式推理链,$d_i \in D$ 是智能体的决策(此处 $D=\{\textsc{Keep}, \textsc{Remove}\}$),$v_i$ 是价值观或视角档案,$\gamma_i$ 是置信度分数。知识表示层将 $r_i$ 视为一种可观测的论证性产物,而非形式证明,这与如下标准观点一致:智能体各自拥有独立的信息状态,而系统必须确定集体响应 \(?;?\)。

智能体输出之间的两种关系构成了基本词汇。设 $sim(r_i, r_j)\in[0,1]$ 表示两条推理链的语义相似度,均值对式相似度为 $\overline{sim}(c)=\tfrac{2}{n(n-1)}\sum_{i<j}sim(r_i,r_j)$;给定阈值 $\theta_s$,$HighSim(c)\equiv\overline{sim}(c)\geq\theta_s$,$LowSim(c)\equiv\overline{sim}(c)<\theta_s$。该阈值是一个策略参数,而非通用语义边界。对于结论一致性,设 $p_d(c)=|\{a_i:d_i=d\}|/n$,$p^*(c)=\max_{d\in D}p_d(c)$;给定 $\theta_a$,$Agree(c)\equiv p^*(c)\geq\theta_a$,$Disagree(c)\equiv p^*(c)<\theta_a$。保守设置将 $\theta_a$ 推向全体一致;宽松设置接受绝对多数。

结合两个维度,可得四种符号状态:

$$CA(c) \equiv HighSim(c) \wedge Agree(c),$$
$$DA(c) \equiv LowSim(c) \wedge Agree(c),$$
$$CD(c) \equiv HighSim(c) \wedge Disagree(c),$$
$$DD(c) \equiv LowSim(c) \wedge Disagree(c).$$

这些并非单纯的经验性聚类,而是多智能体系统认识状态的符号抽象,可供控制器使用。如同形式论证和非单调推理中的处理方式,相互冲突的理由可能支持不同的结论。我们将由此产生的结构视为一个可表示的对象 \(?;?;?\)。最值得关注的状态是 $CD(c)$:当智能体推理相似但结论不同时,残留的分歧不太可能源于解读差异。更合理的解释是,不同智能体对案例的同一描述赋予了不同的价值权重——这是规范性多元主义的候选特征,而非错误。相比之下,$DD(c)$ 表明存在歧义或不稳定的解读;$DA(c)$ 表明通过独立理由达成了鲁棒共识;$CA(c)$ 则是最适合自动处理的情况。图1 (https://arxiv.org/html/2606.04223#S2.F1) 总结了该分类体系及下文定义的默认元动作。

参见说明图1:四种分歧状态由推理相似性与结论一致性的组合产生。每种状态对应一个默认元动作 $\sigma_R$(第3节 (https://arxiv.org/html/2606.04223#S3))。收敛分歧被视为价值冲突最强的候选信号。

## 3 可废止策略路由规则

分歧状态本身并不决定审核标签,而是决定一种*元动作*:系统推理的是是否应当做出自动决定。设 $d^*(c)=\arg\max_{d\in D}p_d(c)$ 为得票最多的决策。我们考虑四种元动作:$Auto(c,d^*)$,自动接受最强决策;$AutoExplain(c,d^*)$,接受最强决策但保留多样化解释;$SeekContext(c)$,请求额外信息或启动新一轮审议;以及 $Escalate(c)$,将案例转交人工判断。

我们使用 $\Rightarrow$ 表示可废止推断,其后件在通常情况下成立,但可被更强的策略或风险约束所覆盖,这与非单调推理的精神一致 \(?\)。基础路由策略如下:

$$R_1:\quad CA(c) \Rightarrow Auto(c,d^*), \tag{1}$$
$$R_2:\quad DA(c) \Rightarrow AutoExplain(c,d^*), \tag{2}$$
$$R_3:\quad DD(c) \Rightarrow SeekContext(c), \tag{3}$$
$$R_4:\quad CD(c) \Rightarrow Escalate(c). \tag{4}$$

规则 $R_1$ 对应最简单的情形:论证与决策的双重收敛共同支持自动化处理。$R_2$ 处理"基于不同理由达成一致"的情形;由于理由存在差异,系统保留解释多样性,而非将其折叠为单一理由——当不同利益相关方需要不同解释时,这一点尤为重要 \(?;?\)。$R_3$ 处理发散分歧的情形:系统可能尚未形成对案例的稳定表征,因此获取更多上下文通常优于立即上报。$R_4$ 是核心规则。在 $CD$ 状态下,智能体共享大体相似的解读,但将其转化为了不同的决策;此时强制达成共识 \(?\) 可能掩盖而非解决规范冲突。

可废止性至关重要。即使是 $CA(c)$,当内容涉及法律敏感性或预测危害程度较高时,也可能被覆盖;反之,在低风险且上报成本较高的情况下,$CD(c)$ 也可能无需上报:$HighRisk(c) \Rightarrow Escalate(c)$,$LegalRequirement(c) \Rightarrow Escalate(c)$,以及 $LowRisk(c) \wedge HighEscCost(c) \Rightarrow AutoExplain(c,d^*)$。最终元动作由分歧状态规则与领域规则的交互决定,与经典可废止推理架构一致 \(?;?\)。从决策论角度看,每种元动作具有不同的成本结构——自动化面临做出不当决策的风险,$SeekContext$ 增加延迟,$Escalate$ 消耗稀缺的机构处理能力——而分歧状态为分配这些成本提供了结构化信号,对通过组合投票进行判断聚合的方法形成补充;后者本身并不决定*是否*应该聚合 \(?\)。

参见说明图2:分歧感知控制器的架构。LLM智能体在对象层面进行审议,生成推理链和决策 $\langle r_i, d_i\rangle$。知识表示层应用抽象函数 $\Phi$,提取四种符号状态之一 $\sigma\in\{CA, DA, DD, CD\}$。可废止规则 $R_1$–$R_4$ 随后将每种状态映射至策略元动作;收敛分歧路径(高亮显示)默认指向 $Escalate$,但任何规则均可被领域层默认规则所覆盖。

## 4 实证可信度检验:内容审核

上述框架具有规范性,规定了控制器应如何响应分歧结构。我们需要从一个较弱但有实用价值的意义上检验符号抽象是否可信:四种状态是否在经验上追踪到了不同的认识情境,尤其是人类也认为存在差异的情境?这是对知识表示层的合理性检验,而非对路由策略的基准测试。

我们复用 \(?\) 的实验设置。对于每个内容项 $c$,从同一基础模型实例化五个LLM智能体,并通过编码不同审核视角的系统提示加以区分:*危害聚焦*、*语境敏感*、*社区规范*、*自由表达*和*法律框架*。这将价值取向差异与基础能力差异隔离开来。每个智能体生成 $\langle r_i, d_i, v_i, \gamma_i\rangle$,其中 $d_i\in\{\textsc{Keep}, \textsc{Remove}\}$,$r_i$ 包含智能体的解读、考量因素、价值权衡及结论。

我们使用Measuring Hate Speech语料库 \(?;?\),该语料库保留了标注者差异,支持视角主义分析。我们按人工标注者分歧程度分层抽样 $n=600$ 个条目。推理链被嵌入共享向量空间,逐对余弦相似度计算得出 $\overline{sim}(c)$;决策分布得出 $p^*(c)$。每个案例被标注为四种符号状态之一,从而得到抽象函数:

$$\Phi:\langle(r_i,d_i)_{i=1}^{n}\rangle \;\longmapsto\; \sigma\in\{CA,DA,DD,CD\}.$$

可信度检验围绕 $\Phi$ 提出两个问题:(i)分配至不同状态的案例在人工分歧程度上是否存在差异;(ii)与仅关注分歧幅度、忽略结论结构的基线方法相比,结构性区分 $\Phi$ 是否提供了额外信息?

## 5 初步结果与评估

表1 (https://arxiv.org/html/2606.04223#S5.T1) 报告了各状态下的案例分布及对应的平均人工标注者分歧度 $\bar{d}$。概念层面预测的排序 $DA<CA<DD<CD$ 得到了验证:发散一致最为稳定,收敛分歧最不稳定。两种分歧状态 $\{CD, DD\}$ 与两种一致状态 $\{CA, DA\}$ 之间的效应量为 Cohen's $d=0.80$($p<10^{-11}$,$n=600$),表明结构性抽象所追踪到的内容,也是人类能够感知到的。

表1:符号状态下的案例分布及平均人工标注者分歧度 $\bar{d}\in[0,1]$。预测排序 $DA<CA<DD<CD$ 得到验证。

一个自然的基线是仅使用分歧幅度,例如 $1-\overline{sim}(c)$,而忽略结论结构。表2 (https://arxiv.org/html/2606.04223#S5.T2) 将二者作为高人工分歧预测指标进行比较:基于类别的路由在F1上高于仅使用分歧幅度的方法,且显著超过随机基准。仅使用分歧幅度的方法召回率较高,但精确率较低:它会标记许多智能体推理存在差异但不一定对应人工分歧的案例。这正是 $CD/DD$ 区分所要捕捉的内容——纯度量方法丢失了第二个维度(智能体是否仍在决策上收敛),而正是这一维度将可能涉及规范性的案例($CD$)与可能存在歧义的案例($DD$)区分开来。图3 (https://arxiv.org/html/2606.04223#S5.F3) 可视化了定性排序结果。

表2:标记高人工分歧案例的比较。基于类别的路由使用 $\Phi$;仅使用分歧幅度的方法使用 $1-\overline{sim}(c)$,并在相同操作点设置阈值。

此检验属于初步性质——仅使用单一语料库、基于提示的智能体差异化方法以及基于嵌入的相似度。更强的结论需要独立参数化的智能体和替代相似度函数。我们认为具有实质意义的结果是定性层面的——排序关系和一致/分歧差距,而非具体的F1数值。

参见说明图3:各符号状态下观测到的平均人工分歧度 $\bar{d}$,右侧为概念上预测的排名(1=最低,4=最高)。定性排序 $DA<CA<DD<CD$ 得到验证;

## 6 讨论:从共识到策略性上报

该框架重新界定了基于LLM的多智能体系统的设计目标。寻求共识的系统追问的是如何使智能体达成一致;而分歧感知系统追问的是分歧结构对下一步适当行动意味着什么。推理链是这一转变的核心:仅凭投票无法揭示智能体之间的分歧究竟源于对内容的误读……

相似文章

超越共识:混合智能体中的轨迹级综合

arXiv cs.AI

本文揭示,聚合多个LLM智能体的完整推理轨迹(而非仅其最终答案)即使在所有智能体一致同意的情况下也能纠正错误,引入了“聚合悖论”以及Self-Consistent Mixture of Agents方法。

基于符号图建模的冲突鲁棒多智能体推理

arXiv cs.AI

本文提出SIGMA,一种基于符号图的多智能体推理框架,显式建模LLM智能体之间的信任、冲突和中性关系,以实现冲突鲁棒且全局一致的预测,在六个基准测试上优于最先进的基线方法。