RankJudge:一个多轮LLM-as-a-Judge合成基准生成器

arXiv cs.CL 论文

摘要

RankJudge是一个基准生成器,它创建带有注入缺陷的配对多轮对话,用于评估LLM评判者在复杂对话中正确识别更好和更差回复的能力。

arXiv:2605.21748v1 公告类型:新 摘要:随着基于LLM的交互式应用被创建和优化,模型开发者需要沿多个可能维度评估生成文本的质量。对于较简单的系统,人工评估可能可行,但在像对话式聊天机器人这样的复杂系统中,生成的文本量可能超出人工标注资源。模型开发者已开始严重依赖自动评估,即也使用LLM来评判生成质量。然而,现有的LLM-as-a-judge基准大多聚焦于简单问答任务,这些任务无法匹配多轮对话的复杂性。我们介绍了RankJudge,一个用于在基于参考文档的多轮对话中评估LLM-as-a-judge的基准生成器。RankJudge创建对话对,其中一轮对话被注入单一缺陷。这种构造使得配对对话可以明确标记为更好或更差,并将失败类别精确隔离到单轮,从而实现了严格的联合正确性评判标准。我们在机器学习、生物医学和金融领域实现了RankJudge,评估了21个前沿LLM评判者,并通过Bradley-Terry模型对这些评判者进行排名。我们的公式还允许为每个对话对分配难度评级,我们利用这些评级动态策划评估切片以减少标签噪声,这通过人工标注得到了确认。我们发现,在部分可观察性、较宽松的正确性标准和另一种随机游走评分算法下,评判者排名是稳定的。
查看原文
查看缓存全文

缓存时间: 2026/05/22 08:43

# 多轮 LLM-as-a-Judge 合成基准生成器

**来源:** https://arxiv.org/html/2605.21748

Zhenwei Tang<sup>1,2</sup> Zhaoyan Liu<sup>1</sup> Rasa Hosseinzadeh<sup>1</sup> Tongzi Wu<sup>1</sup> Keyvan Golestan<sup>1</sup> Jesse C. Cresswell<sup>1</sup>

<sup>1</sup>Layer 6 AI<sup>2</sup>University of Toronto

\{joseph, zhaoyan, rasa, tongzi, keyvan, jesse\}@layer6.ai

###### 摘要

随着基于交互式 LLM 的应用程序被创建和优化,模型开发者需要在许多可能的维度上评估生成文本的质量。对于较简单的系统,人工评估可能可行,但在像对话式聊天机器人这样的复杂系统中,生成文本的数量可能会超出人工标注资源的承受能力。模型开发者已开始严重依赖自动评估,即也使用 LLM 来判断生成质量。然而,现有的 LLM-as-a-judge 基准主要关注简单的问答任务,与多轮对话的复杂性不符。我们引入了 RankJudge,这是一个用于评估 LLM-as-a-judge 在多轮对话中的表现的基准生成器,这些对话基于参考文档。RankJudge 创建成对的对话,其中一段对话在某一轮次中注入了一个单一的缺陷。这种构造使得成对对话可以被明确地标记为更好或更差,并将失败类别精确地隔离到单个轮次,从而实现了严格的联合正确性判断标准。我们在机器学习、生物医学和金融领域实现了 RankJudge,评估了 21 个前沿 LLM 裁判,并通过 Bradley-Terry 模型对这些裁判进行排名。我们的公式还允许使用难度评级对每个对话对进行排名,我们利用这一点动态策划评估子集以减少标签噪声,这一点通过人工标注得到了确认。我们发现裁判排名在部分可观测性、更粗略的正确性标准以及一种替代的随机游走评分算法下是稳定的。

## 1 引言

大型语言模型越来越多地被其他大型语言模型(LLMs)评估。成对评估(Zheng 等人,2023 (https://arxiv.org/html/2605.21748#bib.bib9);Chiang 等人,2024 (https://arxiv.org/html/2605.21748#bib.bib5))已成为人类偏好收集的主要可扩展替代方案。由于裁判模型现在被用于评分训练数据、把关发布以及排名检查点,裁判*质量*本身已成为一个核心假设。基于弱裁判构建的排行榜可能会悄无声息地奖励错误的行为。因此,对裁判本身进行压力测试是一个首要问题,而现有的裁判基准仅部分地解决了这个问题。当前的裁判基准存在反复出现的缺点:现实世界中的 LLM 助手产生的对话是多轮且基于参考的,而大多数裁判基准则对孤立的单轮响应进行评分。部署中重要的失败模式,如后续轮次与早期轮次矛盾,或内容级别的约束在几轮后悄然失效(Cemri 等人,2025 (https://arxiv.org/html/2605.21748#bib.bib22);Laban 等人,2025 (https://arxiv.org/html/2605.21748#bib.bib19)),在单轮设置中根本无法显现。另一个缺点是,仅基于裁决的正确性将“选对了边”与“理解了原因”混为一谈:一个裁判如果偏好更好的对话,但将缺陷归因于错误的轮次或类别,那么它通过错误的推理得出了正确的结论,而现有的排行榜无法区分这两者。最后,固定池上的静态精度无法提供原则性的方法来识别哪些项目实际上能区分强裁判和弱裁判(Hendrycks 等人,2021 (https://arxiv.org/html/2605.21748#bib.bib23);Northcutt 等人,2021 (https://arxiv.org/html/2605.21748#bib.bib25);Gema 等人,2025 (https://arxiv.org/html/2605.21748#bib.bib24))。

参见说明 图 1:RankJudge 概览,一个用于多轮裁判评估的基准*生成器*。

在本文中,我们介绍了 RankJudge,一个用于多轮、基于参考的裁判评估的基准*生成器*。每个项目是一对对话,它们从同一参考文档中独立采样,并基于两个条件轴:用户行为原型和有针对性的助手失败类型,其中失败恰好被注入到较差分支的一个轮次中。如图 1 (https://arxiv.org/html/2605.21748#S1.F1) 所示,由于缺陷是由生成器*预先构建*的,因此在任何裁判看到该对之前,从生成提示本身就可以唯一确定每个项目的真实标签元组:更好的对话、有缺陷的轮次和失败类别。在评估时,我们要求每个裁判对裁决、轮次和类型进行联合预测,并且仅当所有三个组件都匹配时才给予评分。这种一致性检查区分了正确的判断和正确的猜测。基准构建是*完全合成*的,不需要每个项目的人工标签,这使我们能够密集地扩展覆盖范围,并在生成器或验证器升级时确定性地重新生成池。我们使用两种互补方法确保标签的准确性。首先,一个三层自动验证器级联检查连贯性、遵从性和依据性,并且仅当目标缺陷被隔离到正确的轮次时才保留一对对话。此外,两个对话中的每一个其他声明必须完全由源支持。其次,我们使用 Bradley-Terry 模型分析裁判如何对测试对进行评分(Chiang 等人,2024 (https://arxiv.org/html/2605.21748#bib.bib5))。这为我们提供了每个对的校准难度评级,并允许我们*动态地*策划一个精炼的评估子集,方法是通过移除难度评分最高的项目,即前 Elo 尾部。人工审计和一个留出的微调实验都独立地将该尾部标记为包含标签噪声的子集。

我们将 RankJudge 应用于在三个不同的知识密集型领域生成基准:机器学习、生物医学和金融,并在每个领域评估了 21 个前沿裁判,涵盖专有和开源权重家族。排行榜将裁判分隔了接近 1200 个 Elo 点,并且几个开源权重检查点排名高于专有前沿裁判。二分框架还允许部分可观测性,因此可以在不同的对话对子集上对裁判进行评分,同时保持其在同一尺度上的位置,这降低了所需计算量。得到的排名在匹配子采样、更粗略的正确性标准以及经验交互传播(EIP)交叉检查(Hu 等人,2026 (https://arxiv.org/html/2605.21748#bib.bib1))下是稳定的。RankJudge 还揭示了模型能力上限:较弱的裁判将其预测坍缩到单个失败类别,而不是分散在分类法中,并且对一个中等排名的前沿裁判进行有针对性的提示重写未能将其提升到准确率-成本帕累托前沿,暴露了一个提示无法弥补的能力差距。

我们将贡献总结如下:
- • RankJudge 是一个用于多轮、基于参考的裁判评估的基准生成器,其真实标签裁决、有缺陷的轮次和失败类型在生成提示中被指定,并在联合正确性标准下进行评分。
- • 一个半自动化的发现循环揭示了多轮助手失败类型,而双条件生成独立模拟了用户行为和助手失败轴。
- • 构建完全合成;一个三层自动验证器和基于 Elo 的高难度尾部策划通过人工审计和一个留出微调实验进行了验证,这两个实验独立标识了一个基本重叠的噪声切片。
- • 在机器学习、生物医学和金融领域的实例化产生了跨越专有和开源权重裁判家族的排行榜,这些排行榜在各种条件下保持稳定,并揭示了较弱裁判中的系统性类别偏差。

## 2 相关工作

**多轮 LLM 基准。** LLM 评估已从像 MMLU(Hendrycks 等人,2021 (https://arxiv.org/html/2605.21748#bib.bib23))和 GSM8K(Cobbe 等人,2021 (https://arxiv.org/html/2605.21748#bib.bib60))这样的单轮基准(它们忽略了驱动现实世界实用性的用户-模型-环境动态(Wang 等人,2024 (https://arxiv.org/html/2605.21748#bib.bib20);Deshpande 等人,2025 (https://arxiv.org/html/2605.21748#bib.bib11)))转向多轮框架(Zheng 等人,2023 (https://arxiv.org/html/2605.21748#bib.bib9);Kwan 等人,2024 (https://arxiv.org/html/2605.21748#bib.bib13);Fan 等人,2026 (https://arxiv.org/html/2605.21748#bib.bib15);Eisenstein 等人,2026 (https://arxiv.org/html/2605.21748#bib.bib14)),这些框架探究正确性、有帮助性和交互模式(Li 等人,2025b (https://arxiv.org/html/2605.21748#bib.bib12))。这些工作中出现了一个一致的发现:单轮能力并不能迁移到多轮成功(Wang 等人,2024 (https://arxiv.org/html/2605.21748#bib.bib20)),并且由于复合不可靠性,前沿模型在各轮之间急剧退化(Laban 等人,2025 (https://arxiv.org/html/2605.21748#bib.bib19))。这些动态激励我们将重点放在多轮、基于参考的对话上,将其作为必须*对裁判质量本身进行压力测试*的场景。

**LLM-as-a-Judge。** 奖励模型对于对齐和改进 LLM 的能力至关重要(Ouyang 等人,2022 (https://arxiv.org/html/2605.21748#bib.bib44);Christiano 等人,2017 (https://arxiv.org/html/2605.21748#bib.bib43))。传统的标量奖励模型(Stiennon 等人,2020 (https://arxiv.org/html/2605.21748#bib.bib42))给出一个指示响应质量的单一“裁决”。然而,标量模型存在某些局限性,例如它们容易受到攻击(Xu 等人,2025b (https://arxiv.org/html/2605.21748#bib.bib45)),并且缺乏定位或分类特定错误的能力。LLMs 在模仿人类推理和基于预定义标准评估输入方面表现出强大的能力,同时具有可扩展性和有效性。LLM-as-a-judge 的概念(Zheng 等人,2023 (https://arxiv.org/html/2605.21748#bib.bib9);Wang 等人,2023 (https://arxiv.org/html/2605.21748#bib.bib54);Liu 等人,2023 (https://arxiv.org/html/2605.21748#bib.bib53))已被广泛用于诸如为 LLM 对齐提供丰富奖励信号(Lee 等人,2024 (https://arxiv.org/html/2605.21748#bib.bib47))、作为评估者生成思维链(CoT)推理以及最终判断(Kim 等人,2024 (https://arxiv.org/html/2605.21748#bib.bib49);Saha 等人,2025 (https://arxiv.org/html/2605.21748#bib.bib46))以及数据标注(Luo 等人,2025 (https://arxiv.org/html/2605.21748#bib.bib50);Chen 等人,2024 (https://arxiv.org/html/2605.21748#bib.bib52))等任务。这些裁判既可以通过直接提示通用 LLM 来实现(Zheng 等人,2023 (https://arxiv.org/html/2605.21748#bib.bib9);Wang 等人,2025c (https://arxiv.org/html/2605.21748#bib.bib51)),也可以作为专门的微调评估模型来实现(Whitehouse 等人,2026 (https://arxiv.org/html/2605.21748#bib.bib28);Chen 等人,2026a (https://arxiv.org/html/2605.21748#bib.bib48))。现有框架通常采用逐点或成对评估协议。逐点方法(Liu 等人,2023 (https://arxiv.org/html/2605.21748#bib.bib53);Kim 等人,2024 (https://arxiv.org/html/2605.21748#bib.bib49))独立地对响应进行评分,而成对方法(Zheng 等人,2023 (https://arxiv.org/html/2605.21748#bib.bib9);Whitehouse 等人,2026 (https://arxiv.org/html/2605.21748#bib.bib28))通过比较响应来预测相对偏好。

**表 1:** LLM 裁判元评估基准的比较。轮次:S = 单轮,M = 多轮。Drv. = 推导的元评估目标:✓ 表示无需新的人类偏好标注,△ 表示部分人工策划,– 表示完全依赖人工判断。Usr. = 受控用户行为。Doc. = 文档依据。Diag. = 超出胜者或分数的诊断标签。Pipe. = 自动基准生成,其中 △ 表示部分。Eval.: Acc. = 项目级别准确率或一致性;Disc. = 扰动辨别能力;Rank = 裁判或系统排名。

**LLM-as-a-Judge 的基准测试。** MT-Bench(Zheng 等人,2023 (https://arxiv.org/html/2605.21748#bib.bib9);Bai 等人,2024 (https://arxiv.org/html/2605.21748#bib.bib10))通过报告与人类的一致性,帮助建立了聊天助手的 LLM-as-a-judge 评估。裁判元评估的早期工作集中在单轮设置上:LLMBar(Zeng 等人,2024 (https://arxiv.org/html/2605.21748#bib.bib34))使用自然和对抗性成对示例,DHP(Wang 等人,2025b (https://arxiv.org/html/2605.21748#bib.bib36))使用扰动来衡量自然语言生成评估能力,ReIFE(Liu 等人,2025 (https://arxiv.org/html/2605.21748#bib.bib37))变化 LLMs、协议和数据集。JudgeBench(Tan 等人,2025 (https://arxiv.org/html/2605.21748#bib.bib2))将事实性和正确性数据集转换为元评估基准,JuStRank(Gera 等人,2025 (https://arxiv.org/html/2605.21748#bib.bib38))通过系统级别与人类排名的排名一致性来研究裁判,而 ContextualJudgeBench(Xu 等人,2025a (https://arxiv.org/html/2605.21748#bib.bib35))将评估基于外部文档。其他工作研究用于代码评估的 LLM-as-a-Judge(Wang 等人,2025a (https://arxiv.org/html/2605.21748#bib.bib58))以及评估者对抗鲁棒性(Li 等人,2025a (https://arxiv.org/html/2605.21748#bib.bib39))、位置偏差(Shi 等人,2025 (https://arxiv.org/html/2605.21748#bib.bib40))和公平性(Zhang 等人,2023 (https://arxiv.org/html/2605.21748#bib.bib41))。MEDAL(Mendonça 等人,2026 (https://arxiv.org/html/2605.21748#bib.bib18))最接近我们的设置,因为它使用多智能体管道生成多语言多轮对话,并使用 GPT-4.1 自动化标注,然后通过人工策划进行筛选以获得最终基准。表 1 (https://arxiv.org/html/2605.21748#S2.T1) 从多个维度比较了 RankJudge 与之前的基准:我们是第一个自动化管道,用于生成基于外部文档、以用户行为为条件并通过注入受控错误类型构建的多轮裁判基准。

## 3 方法

令 \(\mathcal{T} = \{t_1, \ldots, t_K\}\) 表示一个由 \(K\) 种助手失败类型组成的分类体系。一个多轮对话 \(C = (u_1, a_1, \ldots, u_R, a_R)\) 由 \(R\) 个轮次组成,每个轮次是一个(用户,助手)消息对。每个基准项目是一个元组 \((C_A, C_B, y^\star, r^\star, t^\star)\),其中 \(C_A\) 和 \(C_B\) 是两个基于同一参考文档的对话,\(y^\star \in \{A, B\}\) 标识更好的对话,\(r^\star \in \{1, \ldots, R\}\) 是较差对话中单一注入缺陷所在的轮次,而 \(t^\star \in \mathcal{T}\) 是其失败类别。在轮次 \(r^\star\) 处,注入一个缺陷类型 \(t^\star\),使得 \((y^\star, r^\star, t^\star)\) 是每个项目唯一确定的(见第 3.1 节 (https://arxiv.org/html/2605.21748#S3.SS1))。一个裁判是一个函数 \(J: (C_A, C_B) \mapsto (\hat{y}, \hat{r}, \hat{t})\),它联合预测更好的对话、有缺陷的轮次以及有缺陷轮次的失败类别。这种联合预测使得能够检查裁判对*为什么*一个对话优于另一个对话的理解。我们仅当每个组件都与真实标签匹配时才给予裁判评分:
\[
c = \mathbf{1}\!\left[\hat{y} = y^\star \land \hat{r} = r^\star \land \hat{t} = t^\star\right] \in \{0,1\}.
\]

相似文章

面向LLM-as-a-Judge的动态评估准则生成与优化

arXiv cs.CL

本文提出了一种无需训练的方法,可以在无需人工标注的情况下自动生成细粒度的评估准则用于LLM-as-a-Judge,并进一步介绍了一种迭代微调策略,使准则生成器的性能超过更大的专有模型。

评判电路

arXiv cs.CL

本文研究了LLM-as-a-judge的内部机制,发现模型在中期到后期的多层感知机(MLP)中共享一个稀疏的潜在评估器子图,该子图处理抽象评判,而格式特定的终端分支将评判映射到输出令牌,揭示了格式导致的不一致性的原因。

AICompanionBench:评测 LLM 作为裁判在 AI 伴侣安全领域的表现

arXiv cs.AI

AICompanionBench 推出了首个公开可用的基准数据集,包含 2,123 条真实 AI 伴侣对话,并按九个安全风险类别进行标注,用于评估 20 个 LLM 作为安全裁判的表现。结果显示,强模型能较好地处理显性有害内容,但在操控等细微风险的识别以及对无害对话的误判问题上仍存在明显不足。