评判电路

arXiv cs.CL 2026/05/18 04:00 论文

摘要

本文研究了LLM-as-a-judge的内部机制，发现模型在中期到后期的多层感知机（MLP）中共享一个稀疏的潜在评估器子图，该子图处理抽象评判，而格式特定的终端分支将评判映射到输出令牌，揭示了格式导致的不一致性的原因。

arXiv:2605.16023v1 公告类型：新摘要：LLM-as-a-judge已成为大规模评估模型输出的主流范式，然而当输出格式改变时（例如，1-5评分与真/假标签），同一模型会给出系统性的不同分数。现有对这些格式导致的不一致性的诊断停留在输入-输出层面。本文利用位置感知边属性修补（PEAP），对Gemma-3、Qwen2.5和Llama-3的内部机制进行了因果研究。我们发现，在结构化理解和开放式偏好任务中，判断共享一个稀疏的、泛化的潜在评估器子图，位于中后期多层感知机中；零消融该子图会破坏判断，同时保持架构模块化模型中的世界知识。通过结构性地将抽象评判与输出格式分离，我们为所研究的开放权重模型上的格式导致的不一致性提供了一种机械论解释：在共享主干中计算的连续判断信号通过脆弱的、格式特定的终端分支映射，从而可以在请求输出格式的下游隔离格式无关的偏好。我们的发现表明，跨格式的基准级可靠性比较部分地测量的是格式化器几何形状，而非评估质量。

查看原文

查看缓存全文

缓存时间: 2026/05/18 06:35

# 判断回路 来源：https://arxiv.org/html/2605.16023 Nils Feldhus1,2谭雅·鲍默尔3,6埃琳娜·戈利姆布莱夫斯卡娅4钱俚·王1范·巴克·阮5亚伦·路易斯·艾特1,4克里斯托弗·埃伯特3沃伊切赫·萨梅克1,2,4景·杨1,2维拉·施密特1,3,6塞巴斯蒂安·默勒1,3西蒙·奥斯特曼3,6 1柏林工业大学2BIFOLD – 柏林学习与数据基础研究所 3德国人工智能研究中心 (DFKI)4弗劳恩霍夫海因里希·赫兹研究所 5马尔堡大学6欧洲可信人工智能研究中心 (CERTAIN) 通讯作者：[email protected]

###### 摘要

LLM-as-a-judge已成为大规模评估模型输出的主导范式，然而，同一模型在其输出格式发生变化时（例如，1-5分评分 vs. 真/假标签）会系统地分配不同的分数。现有对这些格式引起的不一致性的诊断止步于输入-输出层面。利用位置感知边归因修补（PEAP），我们因果地研究了Gemma-3、Qwen2.5和Llama-3的内部机制。我们发现，在结构化理解和开放式偏好任务中的判断共享一个稀疏的、泛化的潜在评估子图，该子图位于中后期多层感知器（MLPs）中；在架构模块化的模型中，对其施以零消融会摧毁判断能力，同时保留世界知识。通过将抽象判断与输出格式在结构上解耦，我们为所研究的开放权重模型上格式引起的不一致性提供了一个机制性解释：在共享主干中计算的连续判断信号通过脆弱的、特定格式的终端分支进行映射，从而允许在下游对格式无关的偏好进行隔离，而与所需的输出格式无关。我们的研究结果表明，跨格式的基准可靠性比较在一定程度上衡量的是格式器几何结构，而非评估质量。

# 判断回路

Nils Feldhus1,2 谭雅·鲍默尔3,6 埃琳娜·戈利姆布莱夫斯卡娅4 钱俚·王1 范·巴克·阮5 亚伦·路易斯·艾特1,4 克里斯托弗·埃伯特3 沃伊切赫·萨梅克1,2,4 景·杨1,2 维拉·施密特1,3,6 塞巴斯蒂安·默勒1,3 西蒙·奥斯特曼3,6
1柏林工业大学
2BIFOLD – 柏林学习与数据基础研究所
3德国人工智能研究中心 (DFKI)
4弗劳恩霍夫海因里希·赫兹研究所
5马尔堡大学
6欧洲可信人工智能研究中心 (CERTAIN)
通讯作者：[email protected]

参见图注

图1: 我们在一个MNLI最小对上的流水线概览：(1) PEAP (Haklay et al., 2025 (https://arxiv.org/html/2605.16023#bib.bib17)) 将跨令牌的因果边从差异输入令牌追踪到一个共享的潜在评估子电路 (CLE := crate ∩ Cclass)。(2) 我们通过三种方式验证该电路：零消融 (红色 ×) 将评估与世界知识分离；BDAS (Wu et al., 2023 (https://arxiv.org/html/2605.16023#bib.bib52)) 识别出LE激活空间中的一个一维判断方向；终端层中的任务格式器 (CTF,rate, CTF,class) 将该判断标量映射到具体的目标令牌。

## 1 引言

LLM-as-a-Judge (LaaJ) 范式现已在NLP领域广泛应用于基准评分、奖励建模和内容审核等评估任务——无需人工参与即可实现自动化质量评估 (Calderon et al., 2025 (https://arxiv.org/html/2605.16023#bib.bib3); Gao et al., 2025 (https://arxiv.org/html/2605.16023#bib.bib11); Li et al., 2024 (https://arxiv.org/html/2605.16023#bib.bib27))。然而，LLM作为自动化评估器的可靠性备受争议。Lee等人 (2025 (https://arxiv.org/html/2605.16023#bib.bib25)) 记录了一种矛盾性的分离——相对偏好通常一致，但绝对评分却不一致——并分离出两种特定的失败模式：重复评估中的自一致性，以及不同评分格式之间的跨尺度一致性。即使是大型专有模型在这两个维度上也会失败，从而削弱了任何LaaJ驱动的排行榜、奖励或安全判断的可重复性。Eshuijs等人 (2025 (https://arxiv.org/html/2605.16023#bib.bib9)) 从另一个角度证实了这一点，表明模型经常利用浅层分类捷径——例如，依赖诸如回复长度或情感极性之类的词汇线索——而不是整合全面评估所需的输入和目标的多个方面。对于参数小于70B的评估器，也存在类似的不一致性和校准失败 (Girrbach et al., 2025 (https://arxiv.org/html/2605.16023#bib.bib14))。先前没有任何工作研究过LLM判断背后的内部计算机制，而这是理解和提高LaaJ可靠性所必需的一步。具体来说，我们的结果将诊断问题从“模型是否一致地进行判断？”重新表述为“在从输入到输出令牌的计算路径中，格式引起的不一致性源自何处？”我们直接解决这一空白，证明Lee等人 (2025 (https://arxiv.org/html/2605.16023#bib.bib25)) 中观察到的一致性失败并非评估的失败，而是输出路由的失败：一个共享的内部子电路计算稳定的判断，然后特定格式的终端通路将该判断转换为所需的输出令牌——而正是这后一步导致了失败。我们假设LaaJ通过两个架构上可分离的子系统——一个共享的评估核心和一个特定格式的输出路由器——来实现判断，并且跨格式的不一致性定位于后者。为了验证这一点，我们使用位置感知边归因修补 (PEAP) (Haklay et al., 2025 (https://arxiv.org/html/2605.16023#bib.bib17)) 来证明不同的判断任务依赖于共享的计算通路。与以往的电路发现方法不同，PEAP处理跨令牌的边——这对于输入跨越分离语言跨度（例如，前提 vs. 假设）的判断电路来说是必要的属性——同时保持计算上的线性边数。借鉴关于Transformer电路中中间变量的文献 (Lepori et al., 2024 (https://arxiv.org/html/2605.16023#bib.bib26)) 以及已知的形式与功能语言机制分离的研究 (Hanna et al., 2026 (https://arxiv.org/html/2605.16023#bib.bib19))，我们明确测试LLM是否将抽象判断与脆弱的语法格式分离。我们通过三种独立的因果探针——累积边修补、子空间引导和跨格式激活迁移——对每个电路进行交叉验证，这些方法汇聚到相同的潜在评估组件上，并防止不可辨识性问题 (Miller et al., 2024 (https://arxiv.org/html/2605.16023#bib.bib35); Méloux et al., 2025 (https://arxiv.org/html/2605.16023#bib.bib32))。然后，我们验证了所发现的电路是模块化的且与任务无关，并且其中的评估信号编码在一个几何上可分离的子空间中（图1 (https://arxiv.org/html/2605.16023#S0.F1)）。

贡献：
1. (1) 我们证明LLM判断是由高度稀疏的跨任务电路计算的，这些电路在中后期MLPs中共享一个泛化的潜在评估器，并且可以在top-k ≤ 200条边的情况下恢复。
2. (2) 我们证明判断的模块化依赖于架构：Qwen在7B规模模块化，而Gemma仅在27B规模模块化。在模块化模型上，对潜在评估器进行零消融可以保留世界知识的同时瓦解判断能力；而在Gemma-3-12B上，这会同时降低两者，表明与世界知识通路紧密纠缠。
3. (3) 我们为跨格式LLM评估器的不一致性提供了一个机制性解释，将其定位到特定格式的输出路由，而非底层评估本身。

总之，这些结果表明LaaJ的格式不一致性是一个路由问题，而非评估问题——因此，修复可以针对格式器而不干扰模型的判断能力。

## 2 实验设置

核心发现。LLM-as-a-judge通过两个架构上可分离的子系统——一个共享的评估核心和一个特定格式的输出路由器——来实现判断。我们分三步进行验证：§3 (https://arxiv.org/html/2605.16023#S3) 发现候选子电路；§4 (https://arxiv.org/html/2605.16023#S4) 探测共享核心在功能上是否隔离；§5 (https://arxiv.org/html/2605.16023#S5) 通过跨格式激活迁移因果验证这种分离。

在我们的设置中，一个判断任务要求模型根据其输入条件为候选文本分配一个质量、偏好或正确性得分，产生一个标量评分或分类判定，而非自由形式的生成。我们的流水线操作于对比性最小对提示（图1 (https://arxiv.org/html/2605.16023#S0.F1)）；将评分与分类分解为潜在评估器和特定格式的任务格式器将在§4.1 (https://arxiv.org/html/2605.16023#S4.SS1) 中介绍。

#### 数据

我们选择了五个数据集，共同涵盖了LaaJ所部署的评估的三个维度：(i) 结构化语言正确性 (CoLA, MultiNLI, STS-B)，(ii) 偏好/质量判断 (RewardBench)，以及 (iii) 主观情感 (Yelp)。

*   • CoLA (语言可接受性) (): 将流利性和语法正确性作为质量标准。
*   • MultiNLI (自然语言推理) (Williams et al., 2018 (https://arxiv.org/html/2605.16023#bib.bib51)): 假设与前提之间的蕴含/中性/矛盾关系。
*   • STS-B (句子语义相似度) (Cer et al., 2017 (https://arxiv.org/html/2605.16023#bib.bib4)): 句子对之间的语义等价性。
*   • RewardBench (偏好评估) (Lambert et al., 2025 (https://arxiv.org/html/2605.16023#bib.bib23)): 开放式LLM-as-a-judge能力的标准测试平台。
*   • Yelp (情感，1-5星评论) (Zhang et al., 2015 (https://arxiv.org/html/2605.16023#bib.bib54)): 一个主观的、用户撰写的评估领域，具有自然的序数尺度。

#### 模型

我们评估了来自三个家族的五个经过指令微调的模型：Gemma-3 (12B-it, 27B-it) (Team et al., 2025 (https://arxiv.org/html/2605.16023#bib.bib12)), Qwen2.5 (7B-Instruct, 14B-Instruct) (Qwen et al., 2025 (https://arxiv.org/html/2605.16023#bib.bib40)), 和 Llama-3.1-8B-Instruct (Grattafiori et al., 2024 (https://arxiv.org/html/2605.16023#bib.bib16)), 通过 TransformerLens (Nanda and Bloom, 2022 (https://arxiv.org/html/2605.16023#bib.bib38)) 访问。我们将最小对子集的大小限制为 |S| = 500 用于MNLI；CoLA, STS-B, RewardBench, 和 Yelp 各自有 100-200 个有效语义对。分裂半可靠性检查 (App.L (https://arxiv.org/html/2605.16023#A12)) 确认在此子集大小下，任务内电路的IoU是可比较的。关于限制背后的计算几何约束以及我们的反向传播追踪预算的细节，请参见 App.G (https://arxiv.org/html/2605.16023#A7)。

#### 提示设计

对于每个数据集，我们构建对比性最小对：一个干净提示（正确评分）和一个损坏提示（不正确评分），具有匹配的令牌长度，用于PEAP归因¹。一半的对将较高评分分配给干净提示，另一半分配给损坏提示，这样每条边的归因在构建时是对称的（§3.1 (https://arxiv.org/html/2605.16023#S3.SS1)）。我们将每个输入格式化为1-5分评分提示；为了进行对比性电路分析（§4.1 (https://arxiv.org/html/2605.16023#S4.SS1)），我们另外将每个数据集与一个平行的分类控制提示（分类的 Yes/No, True/False, 或 Entailment/Contradiction 标签）配对在相同的实例上。确切的模板和填充/对齐细节见附录F (https://arxiv.org/html/2605.16023#A6) 和 G (https://arxiv.org/html/2605.16023#A7)。

¹对于MNLI，最小对来自蕴含、矛盾子集；中性实例被排除，这样干净和损坏提示具有语义上相反的黄金真实标签（App.G (https://arxiv.org/html/2605.16023#A7) 详细说明了每个任务的选择规则）。

## 3 在LLMs中发现判断电路

我们使用判断电路来指代模型用于从结构化提示计算评分的稀疏因果子电路；§4.1 (https://arxiv.org/html/2605.16023#S4.SS1) 将其分解为一个共享的评估核心 (CLE) 和一个特定格式的输出分支 (CTF)。我们的两阶段流水线首先应用PEAP来识别负责评估的因果通路，然后使用对比性控制任务将特定于任务的格式化机制与通用评估逻辑分离。

### 3.1 通过PEAP进行电路发现

在仅解码器的LLMs中进行电路发现，将前向传播概念化为一个计算图 G，其节点是MLPs和注意力头，有向边承载信息流，并寻求一个稀疏子图 C ⊂ G 来因果解释目标行为 (Vig et al., 2020 (https://arxiv.org/html/2605.16023#bib.bib47); Conmy et al., 2023 (https://arxiv.org/html/2605.16023#bib.bib7); Wang et al., 2023 (https://arxiv.org/html/2605.16023#bib.bib48))。位置感知边归因修补 (PEAP) (Haklay et al., 2025 (https://arxiv.org/html/2605.16023#bib.bib17)) 将边归因修补 (Hanna et al., 2024 (https://arxiv.org/html/2605.16023#bib.bib18)) 扩展到捕获跨令牌位置的因果边，此外还有令牌内部的边——这是判断电路必须交叉引用分离的语言跨度（例如，前提 vs. 假设）所必需的属性。具体来说，对于每条候选边，从发送者S到接收者R，PEAP通过接收者梯度 ∇R 与发送者在干净输入和损坏输入上的激活之差 (Sclean - Scorr) 的点积来估计因果重要性。一次反向传播即可同时获得所有接收者的梯度，因此，在每对最小对上，通过一次前向-反向扫描即可提取出关于注意力头和MLPs的完整排序边列表。我们通过一个对称极性校正（完整公式见附录A (https://arxiv.org/html/2605.16023#A1)）扩展了PEAP，该校正处理我们的双向最小对（§2 (https://arxiv.org/html/2605.16023#S2.SS0.SSS0.Px3)）时，不会在朴素梯度求和下抵消真正的因果信号。我们分别验证了提取的电路对完整模型是忠实的（附录C (https://arxiv.org/html/2605.16023#A3)），并且在数据重采样下是稳定的（附录L (https://arxiv.org/html/2605.16023#A12)）。

### 3.2 结构重叠：潜在评估器

跨任务的结构重叠是Transformer电路中存在共享计算的既定证据 (Tigges et al., 2024 (https://arxiv.org/html/2605.16023#bib.bib46); Ferrando and Costa-jussà, 2024 (https://arxiv.org/html/2605.16023#bib.bib10); Lan et al., 2024 (https://arxiv.org/html/2605.16023#bib.bib24))。给定两个电路 CA, CB，它们是在不同任务A和B上追踪并剪枝到其top-k条边的，我们通过Jaccard交集除以并集来量化相似性，既考虑唯一边的集合E，也考虑不同组件的集合N，并抽象掉令牌位置：
IoU_edge = |EA ∩ EB| / |EA ∪ EB|, IoU_node = |NA ∩ NB| / |NA ∪ NB|。
边IoU是更严格的度量；节点IoU则更宽松。

评判电路

相似文章

@ArizePhoenix：谁来评判评估者？当你使用LLM作为评判者时，你正在信任一个模型来决定你的代理、工作流……

MM-JudgeBias：评测 MLLM-as-a-Judge 组合偏差的基准

Magis-Bench: Evaluating LLMs on Magistrate-Level Legal Tasks

你的LLM评判者有多虚伪？大型语言模型语用能力中的听者-说者不对称性

揭示大语言模型中的数学推理：内部机制的方法学研究

提交意见反馈