RoPoLL: 鲁棒的LLM评审团面板
摘要
本文提出了RoPoLL,一种鲁棒的LLM评审团面板,用几何中位数聚合替代标准平均,以处理个别评审的偏见污染,相比标准PoLL提供了理论保证和实证优势。
arXiv:2606.30931v1 公告类型:新
摘要:LLM评审团(LLM Jury)——即报告共识得分的LLM评估者面板(PoLL)——已成为单一评审LLM评估的实用替代方案,但其统计行为仍未被充分理解。我们在Huber污染模型下形式化定义了LLM评审团,并表明:当单个评审以有偏的、LLM典型的方式(模式崩溃、谄媚行为、安全拒绝)失效时,无论评审团规模如何,PoLL在任何正污染下都会产生无界偏差。将评审团共识视为经典鲁棒均值估计问题,我们提出了RoPoLL(鲁棒的LLM作为评审面板),它保留了PoLL面板,但将聚合函数替换为鲁棒均值估计器,具体实例化为几何中位数(GM):无需调参,具有最优有限样本崩溃点1/2。有限样本误差界和匹配的信息论极小化下界在参数速率sigma*sqrt(d/N)上一致,但在崩溃基底上相差sqrt(d)倍,这一统计计算差距由多项式时间可计算的RoPoLL相对于难处理的Tukey半空间中位数付出。在13个开放权重评审(4B-675B)、三个奖励模型基准和四个污染体制(污染率高达50%)下,RoPoLL在每种有偏污染类型上都优于PoLL:在匹配计算量下,跨维度攻击提升约19%;在面对重尾拜占庭对手时,提升数个数量级。一个38B的3评审RoPoLL委员会在HelpSteer-2上,在30%双峰随机污染下以1.31倍优势战胜Mistral-Large-3(675B),以更优的准确度获得18倍参数优势;噪声真实标签控制实验证实,这一优势源于对有偏污染而非良性不精确的抵御。
查看缓存全文
缓存时间: 2026/07/01 05:36
# RoPoLL: 鲁棒的 LLM 评审团 **来源**:https://arxiv.org/html/2606.30931 **Anish Acharya** Amazon Web Services [email protected] **Kris W. Pan** Amazon Web Services [email protected] **Brian Verkhovsky** Amazon Web Services [email protected] **摘要**。LLM 评审团,即 *LLM 评估专家组 (PoLL)* (Verga et al., 2024 (https://arxiv.org/html/2606.30931#bib.bib5)),通过报告共识分数,已成为单一裁判 LLM 评估的实用替代方案,但其统计行为仍不明确。我们在 Huber 污染模型下形式化了 LLM 评审团的设置,并证明:在任意正污染率下,每当单一裁判以 LLM 典型方式(模式崩溃、谄媚、安全拒绝)失败时,PoLL 会产生无界偏差,无论评审团规模多大。我们将评审团共识问题视为经典鲁棒均值估计的一个实例,并提出 RoPoLL(鲁棒的 LLM 作为裁判专家组),它保留 PoLL 面板,并将聚合函数替换为鲁棒均值估计器。在经典鲁棒估计器中,我们使用几何中位数 (GM) 实例化 RoPoLL,这是一种无需调参、保持联合距离的均值估计器,实现了最优有限样本崩溃点 1/2。我们建立了有限样本误差界和信息论极小化下界,两者在参数速率 σ√{d/N} 上匹配,但在崩溃底限上相差一个因子 √{d}——这是一个统计-计算鸿沟,多项式时间的 RoPoLL 相对于(棘手的)Tukey 半空间中位数需要付出的代价。在 13 个开放权重裁判(4B–675B)、三个奖励模型基准和四种腐败机制(污染率高达 50%)上,RoPoLL 在每种有偏腐败类型上都优于 PoLL:在跨维度攻击中,在匹配计算量下提升约 19%;在重尾拜占庭对手(其无界一阶矩使得任何正崩溃点的聚合器无条件优于平均)下提升数个数量级。一个 3 裁判的 RoPoLL 委员会(38B)在 HelpSteer-2 上,面对 30% 双模随机腐败,以 1.31 倍的性能超越 Mistral-Large-3(675B)——参数优势达 18 倍,且准确率严格更高。Noisy-GT 对照实验证实,这种优势来自有偏污染,而非良性的高斯不精确性(此时 PoLL 是统计最优的)。总的来说,我们证明:对一个小型多样委员会的鲁棒聚合,是扩展单个大型 LLM 裁判的一种参数高效且统计严谨的替代方案。 通信:[email protected] ![[未附标题的图片]](https://arxiv.org/html/2606.30931v1/x1.png) ###### 目录 1. [引言](#S1) 2. [相关工作](#S2) 3. [问题设置](#S3) 1. [系统智能体与奖励空间](#S3.SS1) 2. [参考协议、评估准则与解析器](#S3.SS2) 3. [LLM 评审团与聚合函数](#S3.SS3) 4. [Huber 污染模型与伴随假设](#S3.SS4) 5. [观测模型与方差缩减](#S3.SS5) 6. [PoLL 的脆弱性](#S3.SS6) 4. [鲁棒的 LLM 裁判专家组](#S4) 1. [选择鲁棒估计器](#S4.SS1) 2. [几何中位数:定义与性质](#S4.SS2) 3. [Weiszfeld 迭代](#S4.SS3) 5. [理论保证](#S5) 1. [有限样本误差界](#S5.SS1) 2. [极小化下界](#S5.SS2) 6. [实验](#S6) 1. [设置](#S6.SS1) 2. [重尾腐败](#S6.SS2) 3. [跨维度腐败](#S6.SS3) 4. [有界均值保持腐败:零值与反转](#S6.SS4) 5. [干净基线参数效率](#S6.SS5) 6. [评审团规模消融与腐败类型依赖](#S6.SS6) 7. [Noisy-GT 对照:系统偏差,而非不精确性](#S6.SS7) 8. [发布语料库](#S6.SS8) 9. [裁判间相关结构](#S6.SS9) 10. [经验指标相关性 γ̄_W](#S6.SS10) 11. [实用建议](#S6.SS11) 7. [结论](#S7) 8. [参考文献](#bib) 9. [A 完整证明与全面理论推导](#A1) 1. [命题 1 证明(方差缩减)](#A1.SS1) 2. [命题 2 证明(PoLL 的无界偏差)](#A1.SS2) 3. [命题 3 证明](#A1.SS3) 4. [Weiszfeld 迭代:完整推导、收敛性与代价](#A1.SS4) 5. [引理 1 证明](#A1.SS5) 6. [引理 2 证明](#A1.SS6) 7. [定理 1 证明](#A1.SS7) 8. [引理 3 证明](#A1.SS8) 9. [定理 2 证明](#A1.SS9) 10. [B 额外实验](#A2) 1. [合成二维模拟:直观理解](#A2.SS1) 2. [逐模型与逐维度校准崩溃](#A2.SS2) ## 1 引言 可靠的评估仍然是对齐大型语言模型 (LLM) 的瓶颈。人类评估虽然是金标准,但无法扩展到现代对齐流水线所需的迭代开发周期。因此,该领域已收敛于 *LLM 作为裁判* 范式 (Zheng et al., 2023 (https://arxiv.org/html/2606.30931#bib.bib1)),其中另一个 LLM(通常是前沿模型)充当裁判,根据一个或多个质量属性对输出进行评分。后续工作训练了开放裁判以匹配这种行为 (Kim et al., 2024 (https://arxiv.org/html/2606.30931#bib.bib7)),并标准化了基于评估准则的评估协议 (Li et al., 2023 (https://arxiv.org/html/2606.30931#bib.bib8); Dubois et al., 2024 (https://arxiv.org/html/2606.30931#bib.bib9); Ye et al., 2024 (https://arxiv.org/html/2606.30931#bib.bib10))。然而,单一裁判是一个统计上的单点失效点。其骨干网络表现出的系统偏差,例如位置、冗长性、自我增强、谄媚和拒绝伪影,已被充分记录 (Wang et al., 2023 (https://arxiv.org/html/2606.30931#bib.bib6); Panickssery et al., 2024 (https://arxiv.org/html/2606.30931#bib.bib2); Saito et al., 2023 (https://arxiv.org/html/2606.30931#bib.bib3); Stureborg et al., 2024 (https://arxiv.org/html/2606.30931#bib.bib4));它们未经验证地传播到每个分数,并且评估的成本-质量曲线被固定为该单一模型。 一个自然的补救措施是委员会评估。由 Verga 等人 (2024 (https://arxiv.org/html/2606.30931#bib.bib5)) 提出的 *LLM 评估专家组 (PoLL)* 实例化的 *LLM 评审团*,集成了更小、更多样化、更便宜的骨干网络,并报告其分数的算术平均值作为共识——在他们的实验中,足以匹配或超越单个大型裁判。相关的多模型评估器包括同行排名讨论 (Li et al., 2024 (https://arxiv.org/html/2606.30931#bib.bib11))、多智能体辩论 (Chan et al., 2024 (https://arxiv.org/html/2606.30931#bib.bib12)) 和更深/更宽的裁判网络 (Zhang et al., 2024 (https://arxiv.org/html/2606.30931#bib.bib14));这些方法改变了面板结构,但继承了 PoLL 的聚合规则。 当裁判误差轻尾且集中在真实值附近时,PoLL 是最优的聚合器,此时对 N 个裁判进行平均能以参数速率 1/N 缩减方差(命题 1 (https://arxiv.org/html/2606.30931#Thmproposition1),§3.5 (https://arxiv.org/html/2606.30931#S3.SS5));图 ̃10 (https://arxiv.org/html/2606.30931#S6.F10)(§6.5 (https://arxiv.org/html/2606.30931#S6.SS5))展示了这在干净基线上经验性地带来的参数效率。 #### 问题:拜占庭故障,而非高斯噪声。 真实的 LLM 裁判失败方式完全不像高斯噪声。一个产生畸形 JSON 的裁判会触发解析器回退到全零分数,将单个观测值抛到分数空间的边界上。一个具有谄媚偏差的裁判会将每个响应评为接近最大值,抹平真正的质量差异。一个擅长一个属性的裁判可能会灾难性地错误评分另一个属性,产生一个每轴看似合理但联合异常(跨属性混淆)的向量。一个解析器产生幻觉的裁判可能发出完全超出有界分数范围的值。这四种故障模式——*模式崩溃*、*谄媚*、*跨属性混乱* 和 *重尾幻觉*——都是远离真实值的 *有偏点质量*,而非对称扰动,并且每种模式在真实部署中都以非平凡频率发生:在我们的语料库中,对于 HelpSteer 3 多语言提示,仅解析器故障就在最小裁判(Gemma-4B)上达到 33%,而在 13 裁判面板上,HelpSteer 3 上的平均率为 3.4%,HelpSteer 2 上的平均率为 0.6%(图 ̃2 (https://arxiv.org/html/2606.30931#S3.F2),§3.4 (https://arxiv.org/html/2606.30931#S3.SS4))。这正是经典鲁棒统计文献 (Huber, 1964 (https://arxiv.org/html/2606.30931#bib.bib31); Tukey, 1960 (https://arxiv.org/html/2606.30931#bib.bib15); Small, 1990 (https://arxiv.org/html/2606.30931#bib.bib27); Vardi and Zhang, 2000 (https://arxiv.org/html/2606.30931#bib.bib28); Minsker, 2015 (https://arxiv.org/html/2606.30931#bib.bib30); Lugosi and Mendelson, 2019 (https://arxiv.org/html/2606.30931#bib.bib16)) 和拜占庭鲁棒优化文献 (Blanchard et al., 2017 (https://arxiv.org/html/2606.30931#bib.bib17); Yin et al., 2018 (https://arxiv.org/html/2606.30931#bib.bib18); El Mhamdi et al., 2018 (https://arxiv.org/html/2606.30931#bib.bib19); Acharya et al., 2022 (https://arxiv.org/html/2606.30931#bib.bib33), 2025 (https://arxiv.org/html/2606.30931#bib.bib32)) 识别为不适合 PoLL 式聚合的机制。Huber ε-污染模型(假设 2 (https://arxiv.org/html/2606.30931#Thmassumption2))将上述四种故障模式作为污染分布 Qi 的具体实例(零值、反转、双模随机和柯西远距离;在 §3.4 (https://arxiv.org/html/2606.30931#S3.SS4) 中明确映射,并在 §6.2 (https://arxiv.org/html/2606.30931#S6.SS2)–6.4 (https://arxiv.org/html/2606.30931#S6.SS4) 中评估),而直接计算(命题 2 (https://arxiv.org/html/2606.30931#Thmproposition2),§3.6 (https://arxiv.org/html/2606.30931#S3.SS6))表明,在 *任意* 正污染率下,PoLL 的条件偏差随腐败移位线性增长,并且在整个腐败类上无界,与 N 无关:激发评审团动机的 1/N 方差缩减无法拯救一个本身偏差无界的聚合器。 请参阅标题 (a) HelpSteer 2 请参阅标题 (b) HelpSteer 3 请参阅标题 (c) UltraFeedback 图 1:在重尾柯西远距离腐败下,PoLL 与 RoPoLL 对比。中等评审团(N=3,≈89B)的 RMSE 与逐例腐败率 r(对数 y 轴),最佳单一开放权重裁判作为灰色虚线参考;此处坐标中位数与 RoPoLL 竞争性相当,因此省略(完整三方法比较见图 ̃12 (https://arxiv.org/html/2606.30931#S6.F12))。每个腐败槽位生成为 ŷ = y⋆ + 10 + 2(s_max - s_min) T,其中 T 为分量独立的标准柯西分布:一种有偏重尾拜占庭攻击,均值与方差无定义,实现了命题 2 (https://arxiv.org/html/2606.30931#Thmproposition2) 中的对抗选择。 #### 我们的方法概述。 我们提出 RoPoLL(鲁棒的 LLM 作为裁判专家组),作为 PoLL 算术平均聚合步骤的即插即用替代方案,使用鲁棒均值估计器。在经典候选者中——坐标中位数 (CoMed)、截尾均值与几何中位数 (GM)——只有 GM 同时是 *无需调参*(无需污染率超参数,与截尾均值不同)、*保持联合距离*(在完整评分向量上的欧氏距离上操作,而 CoMed 解耦坐标并遗漏了示例 1 (https://arxiv.org/html/2606.30931#Thmexample1) 中的跨属性结构),并且达到了最优 1/2 崩溃点(定义 8 (https://arxiv.org/html/2606.30931#Thmdefinition8),命题 3 (https://arxiv.org/html/2606.30931#Thmproposition3));比较细节见 §4.1 (https://arxiv.org/html/2606.30931#S4.SS1)。我们使用几何中位数(定义 7 (https://arxiv.org/html/2606.30931#Thmdefinition7))实例化 RoPoLL,通过修改的 Weiszfeld 迭代(算法 1 (https://arxiv.org/html/2606.30931#alg1),§4.3 (https://arxiv.org/html/2606.30931#S4.SS3))以每次查询 O(Nd log(1/ε)) 计算。CoMed 和截尾均值作为 §6 (https://arxiv.org/html/2606.30931#S6) 中的经验基线。 #### 贡献。 - **形式化。** 我们首次将 LLM 评审团聚合问题作为鲁棒均值估计问题给出正式处理(§3 (https://arxiv.org/html/2606.30931#S3)):将 LLM 作为裁判流水线建模为马尔可夫核(定义 4 (https://arxiv.org/html/2606.30931#Thmdefinition4)),定义 LLM 评审团(定义 5 (https://arxiv.org/html/2606.30931#Thmdefinition5)),并在 Huber 污染模型(假设 2 (https://arxiv.org/html/2606.30931#Thmassumption2))下将裁判失败刻画为拜占庭故障。命题 2 (https://arxiv.org/html/2606.30931#Thmproposition2) 证明 PoLL 在该模型下允许无界偏差。 - **算法与理论。** 我们提出 RoPoLL(§4 (https://arxiv.org/html/2606.30931#S4))并建立其理论保证(§5 (https://arxiv.org/html/2606.30931#S5)):一个有限样本上界 ‖ŷ_GM - y⋆‖₂ ≤ C_{α+β} ρ,带有显式绝对常数(定理 1 (https://arxiv.org/html/2606.30931#Thmtheorem1));一个在等相关指标假设下的相关评审团扩展(引理 3 (https://arxiv.org/html/2606.30931#Thmlemma3),在我们的裁判面板上测量得到经验指标相关性 γ̄_W ∈ [0.45, 0.53],见第 ̃6.10 (https://arxiv.org/html/2606.30931#S6.SS10) 节);以及一个信息论极小化下界(定理 2 (https://arxiv.org/html/2606.30931#Thmtheorem2)),它在参数速率 σ√{d/N} 上匹配,并在崩溃底限上相差一个 √{d} 的统计-计算鸿沟,归因于 GM 相对于(棘手的)Tukey 半空间中位数的多项式时间可处理性。 - **大规模经验验证。** 我们在三个具有互补真值来源的基准上评估了 13 个开放权重 LLM 裁判,涵盖四个模型规模层级(4B–675B 参数):HelpSteer 2 (Wang et al., 2024 (https://arxiv.org/html/2606.30931#bib.bib20))、HelpSteer 3 (Wang et al., 2025 (https://arxiv.org/html/2606.30931#bib.bib26)) 和 UltraFeedback (Cui et al., 2024 (https://arxiv.org/html/2606.30931#bib.bib24))。我们将面板设计为按规模层和架构多样性分层,并引入四种腐败机制(§6.1 (https://arxiv.org/html/2606.30931#S6.SS1))。RoPoLL 在每种有偏腐败类型上始终优于 PoLL:在跨维度攻击上,在匹配计算量下提升约 19%;在重尾拜占庭对手下提升数个数量级。一个 3 裁判的 RoPoLL 委员会(38B)在 HelpSteer-2 上,面对 30% 双模随机腐败,以 1.31 倍的性能超越 Mistral-Large-3(675B)——参数优势达 18 倍,且准确率严格更高。Noisy-GT 对照实验证实,这种优势来自有偏污染,而非良性的高斯不精确性(此时 PoLL 是统计最优的)。我们发布了包含裁判分数、真值标签、腐败配置和议会讨论记录的完整语料库。 (注:原文“发布了……完整的语料库”内容在翻译中被截断,但根据上下文,这里应完整翻译为:“我们发布了包含裁判分数、真值标签、腐败配置和议会讨论记录的完整语料库。”但原文是“We release a complete corpus of judge scores, ground-truth labels, corruption configurations, and judge-panel deliberation logs.” 由于已经翻译了前面的内容,这里补充完整。)
相似文章
面向可靠LLM判断的边际自适应置信度排序
本文提出了一种针对LLM作为评判系统的基于边际的置信度排序方法,通过学习专用估计器来确保置信度与人类分歧风险之间的单调性,具有泛化保证,并在多个数据集上提高了排序准确性。
抛硬币裁判?LLM-as-a-Judge评估的可靠性与偏见
本文研究了LLM-as-a-Judge评估的运行间可靠性,发现平均13.6%的成对偏好会发生翻转,GPT-4o-mini存在显著的首位偏见,并建议采用多试次聚合与位置随机化。
通过感知扰动与奖励建模缓解多模态LLM评判中的感知判断偏差
本文识别出多模态LLM评判者存在的感知判断偏差,即它们倾向于过度奖励流畅但视觉错误的回答,并提出了数据集PPJD以及利用GRPO与批量排序奖励训练的模型Perception-Judge,以缓解此偏差并提升基于感知的评估质量。
多利益相关方LLM对齐:将估计与聚合分解
本文识别了多利益相关方任务中LLM评估者的权重噪声,并提出了DecompR方法,该方法通过反事实校准的权重将效用估计从聚合中解耦。
LLM-as-Judge的几何学:为何LLM间共识并非人类对齐
本文从几何角度分析了为何作为裁判的LLM彼此之间高度一致,但与人类仅弱相关,发现LLM间共识在主观评分标准上反映的是坍塌子空间,而非真正的人类对齐。基于人类数据的后验校准提高了对齐,但即使经过校准的LLM也未达到人类的可靠性。