RoPoLL: 鲁棒的LLM评审团面板

arXiv cs.AI 2026/07/01 04:00 论文

摘要

本文提出了RoPoLL，一种鲁棒的LLM评审团面板，用几何中位数聚合替代标准平均，以处理个别评审的偏见污染，相比标准PoLL提供了理论保证和实证优势。

arXiv:2606.30931v1 公告类型：新摘要：LLM评审团（LLM Jury）——即报告共识得分的LLM评估者面板（PoLL）——已成为单一评审LLM评估的实用替代方案，但其统计行为仍未被充分理解。我们在Huber污染模型下形式化定义了LLM评审团，并表明：当单个评审以有偏的、LLM典型的方式（模式崩溃、谄媚行为、安全拒绝）失效时，无论评审团规模如何，PoLL在任何正污染下都会产生无界偏差。将评审团共识视为经典鲁棒均值估计问题，我们提出了RoPoLL（鲁棒的LLM作为评审面板），它保留了PoLL面板，但将聚合函数替换为鲁棒均值估计器，具体实例化为几何中位数（GM）：无需调参，具有最优有限样本崩溃点1/2。有限样本误差界和匹配的信息论极小化下界在参数速率sigma*sqrt(d/N)上一致，但在崩溃基底上相差sqrt(d)倍，这一统计计算差距由多项式时间可计算的RoPoLL相对于难处理的Tukey半空间中位数付出。在13个开放权重评审（4B-675B）、三个奖励模型基准和四个污染体制（污染率高达50%）下，RoPoLL在每种有偏污染类型上都优于PoLL：在匹配计算量下，跨维度攻击提升约19%；在面对重尾拜占庭对手时，提升数个数量级。一个38B的3评审RoPoLL委员会在HelpSteer-2上，在30%双峰随机污染下以1.31倍优势战胜Mistral-Large-3（675B），以更优的准确度获得18倍参数优势；噪声真实标签控制实验证实，这一优势源于对有偏污染而非良性不精确的抵御。

查看原文

查看缓存全文

缓存时间: 2026/07/01 05:36

# RoPoLL: 鲁棒的 LLM 评审团  
**来源**：https://arxiv.org/html/2606.30931  

**Anish Acharya**  
Amazon Web Services  
[email protected]  

**Kris W. Pan**  
Amazon Web Services  
[email protected]  

**Brian Verkhovsky**  
Amazon Web Services  
[email protected]  

**摘要**。LLM 评审团，即 *LLM 评估专家组 (PoLL)* (Verga et al., 2024 (https://arxiv.org/html/2606.30931#bib.bib5))，通过报告共识分数，已成为单一裁判 LLM 评估的实用替代方案，但其统计行为仍不明确。我们在 Huber 污染模型下形式化了 LLM 评审团的设置，并证明：在任意正污染率下，每当单一裁判以 LLM 典型方式（模式崩溃、谄媚、安全拒绝）失败时，PoLL 会产生无界偏差，无论评审团规模多大。我们将评审团共识问题视为经典鲁棒均值估计的一个实例，并提出 RoPoLL（鲁棒的 LLM 作为裁判专家组），它保留 PoLL 面板，并将聚合函数替换为鲁棒均值估计器。在经典鲁棒估计器中，我们使用几何中位数 (GM) 实例化 RoPoLL，这是一种无需调参、保持联合距离的均值估计器，实现了最优有限样本崩溃点 1/2。我们建立了有限样本误差界和信息论极小化下界，两者在参数速率 σ√{d/N} 上匹配，但在崩溃底限上相差一个因子 √{d}——这是一个统计-计算鸿沟，多项式时间的 RoPoLL 相对于（棘手的）Tukey 半空间中位数需要付出的代价。在 13 个开放权重裁判（4B–675B）、三个奖励模型基准和四种腐败机制（污染率高达 50%）上，RoPoLL 在每种有偏腐败类型上都优于 PoLL：在跨维度攻击中，在匹配计算量下提升约 19%；在重尾拜占庭对手（其无界一阶矩使得任何正崩溃点的聚合器无条件优于平均）下提升数个数量级。一个 3 裁判的 RoPoLL 委员会（38B）在 HelpSteer-2 上，面对 30% 双模随机腐败，以 1.31 倍的性能超越 Mistral-Large-3（675B）——参数优势达 18 倍，且准确率严格更高。Noisy-GT 对照实验证实，这种优势来自有偏污染，而非良性的高斯不精确性（此时 PoLL 是统计最优的）。总的来说，我们证明：对一个小型多样委员会的鲁棒聚合，是扩展单个大型 LLM 裁判的一种参数高效且统计严谨的替代方案。  

通信：[email protected]  

![[未附标题的图片]](https://arxiv.org/html/2606.30931v1/x1.png)  

###### 目录  
1. [引言](#S1)  
2. [相关工作](#S2)  
3. [问题设置](#S3)  
   1. [系统智能体与奖励空间](#S3.SS1)  
   2. [参考协议、评估准则与解析器](#S3.SS2)  
   3. [LLM 评审团与聚合函数](#S3.SS3)  
   4. [Huber 污染模型与伴随假设](#S3.SS4)  
   5. [观测模型与方差缩减](#S3.SS5)  
   6. [PoLL 的脆弱性](#S3.SS6)  
4. [鲁棒的 LLM 裁判专家组](#S4)  
   1. [选择鲁棒估计器](#S4.SS1)  
   2. [几何中位数：定义与性质](#S4.SS2)  
   3. [Weiszfeld 迭代](#S4.SS3)  
5. [理论保证](#S5)  
   1. [有限样本误差界](#S5.SS1)  
   2. [极小化下界](#S5.SS2)  
6. [实验](#S6)  
   1. [设置](#S6.SS1)  
   2. [重尾腐败](#S6.SS2)  
   3. [跨维度腐败](#S6.SS3)  
   4. [有界均值保持腐败：零值与反转](#S6.SS4)  
   5. [干净基线参数效率](#S6.SS5)  
   6. [评审团规模消融与腐败类型依赖](#S6.SS6)  
   7. [Noisy-GT 对照：系统偏差，而非不精确性](#S6.SS7)  
   8. [发布语料库](#S6.SS8)  
   9. [裁判间相关结构](#S6.SS9)  
   10. [经验指标相关性 γ̄_W](#S6.SS10)  
   11. [实用建议](#S6.SS11)  
7. [结论](#S7)  
8. [参考文献](#bib)  
9. [A 完整证明与全面理论推导](#A1)  
    1. [命题 1 证明（方差缩减）](#A1.SS1)  
    2. [命题 2 证明（PoLL 的无界偏差）](#A1.SS2)  
    3. [命题 3 证明](#A1.SS3)  
    4. [Weiszfeld 迭代：完整推导、收敛性与代价](#A1.SS4)  
    5. [引理 1 证明](#A1.SS5)  
    6. [引理 2 证明](#A1.SS6)  
    7. [定理 1 证明](#A1.SS7)  
    8. [引理 3 证明](#A1.SS8)  
    9. [定理 2 证明](#A1.SS9)  
10. [B 额外实验](#A2)  
    1. [合成二维模拟：直观理解](#A2.SS1)  
    2. [逐模型与逐维度校准崩溃](#A2.SS2)  

## 1 引言  

可靠的评估仍然是对齐大型语言模型 (LLM) 的瓶颈。人类评估虽然是金标准，但无法扩展到现代对齐流水线所需的迭代开发周期。因此，该领域已收敛于 *LLM 作为裁判* 范式 (Zheng et al., 2023 (https://arxiv.org/html/2606.30931#bib.bib1))，其中另一个 LLM（通常是前沿模型）充当裁判，根据一个或多个质量属性对输出进行评分。后续工作训练了开放裁判以匹配这种行为 (Kim et al., 2024 (https://arxiv.org/html/2606.30931#bib.bib7))，并标准化了基于评估准则的评估协议 (Li et al., 2023 (https://arxiv.org/html/2606.30931#bib.bib8); Dubois et al., 2024 (https://arxiv.org/html/2606.30931#bib.bib9); Ye et al., 2024 (https://arxiv.org/html/2606.30931#bib.bib10))。然而，单一裁判是一个统计上的单点失效点。其骨干网络表现出的系统偏差，例如位置、冗长性、自我增强、谄媚和拒绝伪影，已被充分记录 (Wang et al., 2023 (https://arxiv.org/html/2606.30931#bib.bib6); Panickssery et al., 2024 (https://arxiv.org/html/2606.30931#bib.bib2); Saito et al., 2023 (https://arxiv.org/html/2606.30931#bib.bib3); Stureborg et al., 2024 (https://arxiv.org/html/2606.30931#bib.bib4))；它们未经验证地传播到每个分数，并且评估的成本-质量曲线被固定为该单一模型。  

一个自然的补救措施是委员会评估。由 Verga 等人 (2024 (https://arxiv.org/html/2606.30931#bib.bib5)) 提出的 *LLM 评估专家组 (PoLL)* 实例化的 *LLM 评审团*，集成了更小、更多样化、更便宜的骨干网络，并报告其分数的算术平均值作为共识——在他们的实验中，足以匹配或超越单个大型裁判。相关的多模型评估器包括同行排名讨论 (Li et al., 2024 (https://arxiv.org/html/2606.30931#bib.bib11))、多智能体辩论 (Chan et al., 2024 (https://arxiv.org/html/2606.30931#bib.bib12)) 和更深/更宽的裁判网络 (Zhang et al., 2024 (https://arxiv.org/html/2606.30931#bib.bib14))；这些方法改变了面板结构，但继承了 PoLL 的聚合规则。  

当裁判误差轻尾且集中在真实值附近时，PoLL 是最优的聚合器，此时对 N 个裁判进行平均能以参数速率 1/N 缩减方差（命题 1 (https://arxiv.org/html/2606.30931#Thmproposition1)，§3.5 (https://arxiv.org/html/2606.30931#S3.SS5)）；图 ̃10 (https://arxiv.org/html/2606.30931#S6.F10)（§6.5 (https://arxiv.org/html/2606.30931#S6.SS5)）展示了这在干净基线上经验性地带来的参数效率。  

#### 问题：拜占庭故障，而非高斯噪声。  

真实的 LLM 裁判失败方式完全不像高斯噪声。一个产生畸形 JSON 的裁判会触发解析器回退到全零分数，将单个观测值抛到分数空间的边界上。一个具有谄媚偏差的裁判会将每个响应评为接近最大值，抹平真正的质量差异。一个擅长一个属性的裁判可能会灾难性地错误评分另一个属性，产生一个每轴看似合理但联合异常（跨属性混淆）的向量。一个解析器产生幻觉的裁判可能发出完全超出有界分数范围的值。这四种故障模式——*模式崩溃*、*谄媚*、*跨属性混乱* 和 *重尾幻觉*——都是远离真实值的 *有偏点质量*，而非对称扰动，并且每种模式在真实部署中都以非平凡频率发生：在我们的语料库中，对于 HelpSteer 3 多语言提示，仅解析器故障就在最小裁判（Gemma-4B）上达到 33%，而在 13 裁判面板上，HelpSteer 3 上的平均率为 3.4%，HelpSteer 2 上的平均率为 0.6%（图 ̃2 (https://arxiv.org/html/2606.30931#S3.F2)，§3.4 (https://arxiv.org/html/2606.30931#S3.SS4)）。这正是经典鲁棒统计文献 (Huber, 1964 (https://arxiv.org/html/2606.30931#bib.bib31); Tukey, 1960 (https://arxiv.org/html/2606.30931#bib.bib15); Small, 1990 (https://arxiv.org/html/2606.30931#bib.bib27); Vardi and Zhang, 2000 (https://arxiv.org/html/2606.30931#bib.bib28); Minsker, 2015 (https://arxiv.org/html/2606.30931#bib.bib30); Lugosi and Mendelson, 2019 (https://arxiv.org/html/2606.30931#bib.bib16)) 和拜占庭鲁棒优化文献 (Blanchard et al., 2017 (https://arxiv.org/html/2606.30931#bib.bib17); Yin et al., 2018 (https://arxiv.org/html/2606.30931#bib.bib18); El Mhamdi et al., 2018 (https://arxiv.org/html/2606.30931#bib.bib19); Acharya et al., 2022 (https://arxiv.org/html/2606.30931#bib.bib33), 2025 (https://arxiv.org/html/2606.30931#bib.bib32)) 识别为不适合 PoLL 式聚合的机制。Huber ε-污染模型（假设 2 (https://arxiv.org/html/2606.30931#Thmassumption2)）将上述四种故障模式作为污染分布 Qi 的具体实例（零值、反转、双模随机和柯西远距离；在 §3.4 (https://arxiv.org/html/2606.30931#S3.SS4) 中明确映射，并在 §6.2 (https://arxiv.org/html/2606.30931#S6.SS2)–6.4 (https://arxiv.org/html/2606.30931#S6.SS4) 中评估），而直接计算（命题 2 (https://arxiv.org/html/2606.30931#Thmproposition2)，§3.6 (https://arxiv.org/html/2606.30931#S3.SS6)）表明，在 *任意* 正污染率下，PoLL 的条件偏差随腐败移位线性增长，并且在整个腐败类上无界，与 N 无关：激发评审团动机的 1/N 方差缩减无法拯救一个本身偏差无界的聚合器。  

请参阅标题  
(a) HelpSteer 2  
请参阅标题  
(b) HelpSteer 3  
请参阅标题  
(c) UltraFeedback  

图 1：在重尾柯西远距离腐败下，PoLL 与 RoPoLL 对比。中等评审团（N=3，≈89B）的 RMSE 与逐例腐败率 r（对数 y 轴），最佳单一开放权重裁判作为灰色虚线参考；此处坐标中位数与 RoPoLL 竞争性相当，因此省略（完整三方法比较见图 ̃12 (https://arxiv.org/html/2606.30931#S6.F12)）。每个腐败槽位生成为 ŷ = y⋆ + 10 + 2(s_max - s_min) T，其中 T 为分量独立的标准柯西分布：一种有偏重尾拜占庭攻击，均值与方差无定义，实现了命题 2 (https://arxiv.org/html/2606.30931#Thmproposition2) 中的对抗选择。  

#### 我们的方法概述。  

我们提出 RoPoLL（鲁棒的 LLM 作为裁判专家组），作为 PoLL 算术平均聚合步骤的即插即用替代方案，使用鲁棒均值估计器。在经典候选者中——坐标中位数 (CoMed)、截尾均值与几何中位数 (GM)——只有 GM 同时是 *无需调参*（无需污染率超参数，与截尾均值不同）、*保持联合距离*（在完整评分向量上的欧氏距离上操作，而 CoMed 解耦坐标并遗漏了示例 1 (https://arxiv.org/html/2606.30931#Thmexample1) 中的跨属性结构），并且达到了最优 1/2 崩溃点（定义 8 (https://arxiv.org/html/2606.30931#Thmdefinition8)，命题 3 (https://arxiv.org/html/2606.30931#Thmproposition3)）；比较细节见 §4.1 (https://arxiv.org/html/2606.30931#S4.SS1)。我们使用几何中位数（定义 7 (https://arxiv.org/html/2606.30931#Thmdefinition7)）实例化 RoPoLL，通过修改的 Weiszfeld 迭代（算法 1 (https://arxiv.org/html/2606.30931#alg1)，§4.3 (https://arxiv.org/html/2606.30931#S4.SS3)）以每次查询 O(Nd log(1/ε)) 计算。CoMed 和截尾均值作为 §6 (https://arxiv.org/html/2606.30931#S6) 中的经验基线。  

#### 贡献。  

- **形式化。** 我们首次将 LLM 评审团聚合问题作为鲁棒均值估计问题给出正式处理（§3 (https://arxiv.org/html/2606.30931#S3)）：将 LLM 作为裁判流水线建模为马尔可夫核（定义 4 (https://arxiv.org/html/2606.30931#Thmdefinition4)），定义 LLM 评审团（定义 5 (https://arxiv.org/html/2606.30931#Thmdefinition5)），并在 Huber 污染模型（假设 2 (https://arxiv.org/html/2606.30931#Thmassumption2)）下将裁判失败刻画为拜占庭故障。命题 2 (https://arxiv.org/html/2606.30931#Thmproposition2) 证明 PoLL 在该模型下允许无界偏差。  
- **算法与理论。** 我们提出 RoPoLL（§4 (https://arxiv.org/html/2606.30931#S4)）并建立其理论保证（§5 (https://arxiv.org/html/2606.30931#S5)）：一个有限样本上界 ‖ŷ_GM - y⋆‖₂ ≤ C_{α+β} ρ，带有显式绝对常数（定理 1 (https://arxiv.org/html/2606.30931#Thmtheorem1)）；一个在等相关指标假设下的相关评审团扩展（引理 3 (https://arxiv.org/html/2606.30931#Thmlemma3)，在我们的裁判面板上测量得到经验指标相关性 γ̄_W ∈ [0.45, 0.53]，见第 ̃6.10 (https://arxiv.org/html/2606.30931#S6.SS10) 节）；以及一个信息论极小化下界（定理 2 (https://arxiv.org/html/2606.30931#Thmtheorem2)），它在参数速率 σ√{d/N} 上匹配，并在崩溃底限上相差一个 √{d} 的统计-计算鸿沟，归因于 GM 相对于（棘手的）Tukey 半空间中位数的多项式时间可处理性。  
- **大规模经验验证。** 我们在三个具有互补真值来源的基准上评估了 13 个开放权重 LLM 裁判，涵盖四个模型规模层级（4B–675B 参数）：HelpSteer 2 (Wang et al., 2024 (https://arxiv.org/html/2606.30931#bib.bib20))、HelpSteer 3 (Wang et al., 2025 (https://arxiv.org/html/2606.30931#bib.bib26)) 和 UltraFeedback (Cui et al., 2024 (https://arxiv.org/html/2606.30931#bib.bib24))。我们将面板设计为按规模层和架构多样性分层，并引入四种腐败机制（§6.1 (https://arxiv.org/html/2606.30931#S6.SS1)）。RoPoLL 在每种有偏腐败类型上始终优于 PoLL：在跨维度攻击上，在匹配计算量下提升约 19%；在重尾拜占庭对手下提升数个数量级。一个 3 裁判的 RoPoLL 委员会（38B）在 HelpSteer-2 上，面对 30% 双模随机腐败，以 1.31 倍的性能超越 Mistral-Large-3（675B）——参数优势达 18 倍，且准确率严格更高。Noisy-GT 对照实验证实，这种优势来自有偏污染，而非良性的高斯不精确性（此时 PoLL 是统计最优的）。我们发布了包含裁判分数、真值标签、腐败配置和议会讨论记录的完整语料库。  

（注：原文“发布了……完整的语料库”内容在翻译中被截断，但根据上下文，这里应完整翻译为：“我们发布了包含裁判分数、真值标签、腐败配置和议会讨论记录的完整语料库。”但原文是“We release a complete corpus of judge scores, ground-truth labels, corruption configurations, and judge-panel deliberation logs.” 由于已经翻译了前面的内容，这里补充完整。）

RoPoLL: 鲁棒的LLM评审团面板

相似文章

面向可靠LLM判断的边际自适应置信度排序

抛硬币裁判？LLM-as-a-Judge评估的可靠性与偏见

通过感知扰动与奖励建模缓解多模态LLM评判中的感知判断偏差

多利益相关方LLM对齐：将估计与聚合分解

LLM-as-Judge的几何学：为何LLM间共识并非人类对齐

提交意见反馈