面向LLM-as-a-Judge的动态评估准则生成与优化
摘要
本文提出了一种无需训练的方法,可以在无需人工标注的情况下自动生成细粒度的评估准则用于LLM-as-a-Judge,并进一步介绍了一种迭代微调策略,使准则生成器的性能超过更大的专有模型。
arXiv:2605.30568v1 公告类型:新
摘要:LLM-as-a-Judge是一种可扩展的人类评估替代方案,但现有的基于准则的方法依赖于人工标注数据,如参考答案或专家制定的准则。我们提出了一种无需任何人工标注即可自动生成细粒度评估准则的方法。我们的免训练方法在数据集特定和实例特定粒度上生成准则,在四个基准上实现了与现有方法相当的性能。我们进一步提出了一种方法,通过元评判奖励信号迭代微调准则生成器模型。微调后的生成器在成对评估和点评估方面均优于所有现有基线。值得注意的是,一个微调后的14B准则生成器在准则生成方面优于一个更大的专有模型,展示了我们微调策略的有效性。
查看缓存全文
缓存时间: 2026/06/01 09:25
# 生成与优化面向LLM评判的动态评估标准
**来源:** https://arxiv.org/html/2605.30568
**作者:** Zijie Wang, Eduardo Blanco
**机构:** 亚利桑那大学计算机科学系
**邮箱:** {zijiewang, eduardoblanco}@arizona.edu
###### 摘要
LLM作为评判(LLM-as-a-Judge)是一种可扩展的人工评估替代方案,但现有基于标准的方法依赖人工标注数据(如参考答案或专家制定的标准)。我们提出了一种无需任何人工标注即可自动生成细粒度评估标准的方法。我们的无训练方法可在数据集粒度和实例粒度生成标准,在四个基准测试中达到了与现有方法竞争的性能。我们进一步提出了一种方法,通过元评判奖励信号迭代微调标准生成模型。微调后的生成器在成对评估和逐点评估中均优于所有现有基线。值得注意的是,一个微调后的14B标准生成器在标准生成方面优于一个更大的专有模型,显示了微调策略的有效性。
---
## 1 引言
LLM作为评判已成为评估LLM输出的一种有前景的范式,缓解了传统基于相似度的指标(如BLEU、ROUGE和BERTScore)的局限性(Lin, 2004; Papineni et al., 2002; Zhang et al., 2020)。该方法已在多种应用中取得成功,包括自然语言生成评估(Zeng et al., 2024)、合成数据验证(Leang et al., 2025)以及LLM对齐中的自我奖励(Yuan et al., 2024)。然而,LLM评判会表现出对无关启发式信息的偏好,例如回答长度(Dubois et al., 2024)和候选回答的顺序(Wang et al., 2024a)等。为缓解这些偏好,以往工作探索了训练专门的LLM评估器(Kim et al., 2024a,b; Deshpande et al., 2024)。然而,这些方法需要大量的计算成本和高质量的训练数据。另一种研究方向集中在无训练方法上,利用评估标准——一组结构化标准,用于指定评估哪些维度以及如何评分——来引导LLM评判实现更一致和可解释的评估。在此方向上,多项研究采用了细粒度的、基于分解的标准。Kim等人(2025)开发了一个带有实例特定标准的元评估基准,多项工作将整体评估分解为检查清单或加权子标准(Furuhashi et al., 2025; Lee et al., 2025; Li et al., 2025, 2026)。其他努力则致力于跨任务整理可重用的评估指标,例如AutoMetric(Ryan et al., 2026)。尽管有这些努力,现有方法通常依赖人工标注数据,如专家制定的标准示例和参考答案,这限制了它们在金融、健康和安全等关键领域的适用性,因为这些领域很难获得专家标注。
本文从评估标准的角度着手改进LLM作为评判系统。我们研究了在无需任何人工标注数据(如参考答案、标准示例或标注训练数据)的情况下自动生成细粒度标准的方法。具体来说,我们提出了一种两阶段方法。首先,我们引入了一种无训练方法,直接在多种粒度上生成评估标准——从数据集粒度到实例粒度——无需人工标注示例或参考答案。其次,我们研究了通过偏好学习微调标准生成模型,利用来自元评判对生成标准进行评估得到的奖励信号。跨四个LLM和四个基准的实验表明,我们的无训练方法达到了与若干基线和人工制定标准相当的性能,而来自微调生成器的标准进一步改进了LLM评判,优于所有现有方法。我们的贡献如下:111数据、代码和模型可在https://github.com/wang-zijie/generating_dynamic_rubric获取。
- 我们提出了一种无需训练即可生成细粒度标准的方法,与现有方法相比性能相当。
- 我们提出了一种使用元评判反馈对标准生成模型进行偏好微调的方法,无需任何人工标注数据。
- 我们使用四个LLM和四个基准进行了实验,在成对评估和逐点评估设置中均达到了最先进的性能。
- 我们提供了定性分析和案例研究,揭示了偏好微调如何改变标准框架,从而解释了观察到的性能提升。
## 2 相关工作
### 2.1 基于LLM的自动评估
随着LLM微调方法的进步,近期工作探索了各种基于学习的方法来改进LLM评判模型。Prometheus 2(Kim et al., 2024b)是一个开源LLM评估器,在包含预定义标准和参考答案的人工标注数据集上训练(Kim et al., 2024a)。GLIDER(Deshpande et al., 2024)是另一个开源LLM评估器,在合成数据上训练,采用跨度高亮提供可解释的细粒度评估。Hercule(Doddapaneni et al., 2025)是一个多语言LLM评估器,在通过机器翻译获得的多语言数据上微调。JudgeLRM(Chen et al., 2025)专注于通过采用基于RL的偏好训练和专门的奖励函数来改进LLM评判的推理能力。MetaRewarding(Wu et al., 2025)引入了一个自我改进框架,利用LLM评判自己的判断,并使用该反馈来完善评判能力。在本工作中,我们证明了一个无训练方法可以产生与最先进LLM和LLM评判相竞争的评价结果。
### 2.2 用于自动评估的细粒度与动态标准
另一条工作线专注于无训练方法来改进LLM评判的评估质量,特别是通过提高评估标准的质量。FLASK(Ye et al., 2024)提出了一个细粒度评估框架,将回答质量分解为与人类判断一致的技能特定维度,尽管它依赖于固定的、手动策划的技能分类。BiGGen Bench(Kim et al., 2025)提供了一个带有实例特定标准的元评估基准,并证明了这些标准对LLM评判有益。RubricHub(Li et al., 2026)引入了一个自动标准生成框架,基于参考答案和预定义原则。AutoMetric(Ryan et al., 2026)提出了一个任务特定的评估框架,生成带有标准的评估指标,从策划的MetricBank中检索,并通过回归优化其组合以最大化与人类判断的相关性;然而,该方法在生成和优化时都依赖真实值。Li等人(2025)提出了一种将评估分解为多个标准并用动态权重聚合分数的方法;然而,他们的方法仅限于成对评估。CheckEval(Lee et al., 2025)采用基于检查清单的评估方法,将高层次标准分解为离散的是/否问题,但依赖人类知识来选择评估维度和子维度(例如,维度“流畅性”及其子维度“语法”和“可读性”)。Furuhashi等人(2025)进一步研究了不同检查清单生成策略下的基于检查清单的评估,并观察到这类方法仅在成对设置中效果良好,而在逐点评估中获益较少。这些方法通常依赖人工标注数据,如参考答案或预定义的评估维度。我们的方法支持逐点和成对设置,无需任何此类数据,因此适用于这些资源不可用的领域。
| 数据集 | #数据 | 评估方案 | 评分范围 | 参考答案 | 人工制定标准 | 实例特定标准 |
|--------|------|----------|----------|----------|--------------|--------------|
| HelpSteer2 (Wang et al., 2024b) | 1,038 | 逐点 | 0–4 | ✗ | ✓ | ✗ |
| BiGGen Bench (Kim et al., 2025) | 2,776 | 逐点 | 1–5 | ✓ | ✓ | ✓ |
| AlpacaEval (Dubois et al., 2024) | 321 | 成对 | — | ✗ | ✓ | ✗ |
| MT-Bench (Zheng et al., 2023) | 941 | 成对 | — | ✗ | ✓ | ✗ |
| BiGGen Bench (Kim et al., 2025) | 2,792 | 成对 | — | ✓ | ✓ | ✓ |
表1:评估基准概览。我们在三个成对基准和两个逐点基准上评估,涵盖通用指令遵循、多轮对话和专门领域。“实例特定标准”表示基准是否为每个实例提供了评估标准;“人工制定标准”表示这些标准是否由人类专家编写。
### 2.3 基于标准的奖励建模
除了改进LLM作为评判系统,近期工作还研究了利用基于标准的奖励信号进行RL微调。Rubrics as Rewards(Gunjal et al., 2026)研究了一种在策略强化学习方法,利用生成的标准作为奖励信号。Gupta等人(2025)通过动态生成任务特定标准而不是依赖静态标准进行奖励建模来应对奖励破解问题。AutoRule(Wang and Xiong, 2025)自动从人类偏好数据中提取规则,构建基于规则的奖励以改进指令遵循能力。然而,所有这些方法都依赖黄金参考答案作为生成或提取标准的监督代理。最后,基于检查清单的标准也被用于偏好调优。Viswanathan等人(2025)提出用LLM评判评估的动态、指令特定检查清单替代传统奖励模型。我们是首个研究通过元评判的奖励信号来微调标准生成模型的工作。
## 3 生成动态标准
我们将利用标准评估LLM作为评判系统形式化,并描述我们无需人类偏好数据即可生成细粒度评估标准的方法。我们首先定义两种评估设置(第3.1节)和评估基准(第3.2节),然后介绍我们的无训练标准生成方法(第3.3节)和偏好学习方法(第3.4节)。
### 3.1 任务形式化
我们考虑LLM作为评判范式中常用的两种评估设置:**成对评估**和**逐点评估**。
#### 成对评估
给定一个实例输入 \(x\) 和两个候选回答 \(y_1, y_2\),评判模型 \(\mathcal{J}\) 决定 \(\mathcal{J}(x, y_1, y_2) \in \{1, 2\}\),指示哪个回答更受偏好。我们通过测量**人类一致率**来评估成对评判:即评判的偏好与人类标注者多数投票一致的实例比例。
#### 逐点评估
给定一个实例输入 \(x\) 和一个单一回答 \(y\),评判模型 \(\mathcal{J}\) 产生一个标量分数 \(\mathcal{J}(x, y) \in [a, b]\),其中 \([a, b]\) 表示评分范围(例如,整体评分为整数 \([1, 5]\),或标准级聚合为连续值 \([0, 1]\))。我们通过计算数据集所有(实例, 回答)对上的Spearman和Pearson相关系数来衡量与真实值(即人类分数)的一致性。注意,由于这些相关度量具有尺度不变性,评判分数与人类分数不必范围相同。
#### 标准粒度
我们区分本工作中使用的两种标准特异性级别。**数据集特定**标准定义了一个固定的评估指令,统一应用于基准或领域内的所有实例,捕捉实例间共享的一般质量维度。**实例特定**标准为每个实例单独生成,提供针对该特定实例定制的标准。
### 3.2 基准
我们在四个涵盖成对和逐点设置的元评估基准上进行评估(表1)。
#### 逐点基准
HelpSteer2(Wang et al., 2024b)包含1,038个实例,在五个维度(有用性、正确性、连贯性、复杂性、冗长性)上以整数 \([0, 4]\) 评分。我们使用有用性、正确性和连贯性的平均值作为真实分数,因为复杂性和冗长性与质量没有单调关系(例如,更高的冗长性并不内在更好或更差)。它没有提供参考答案或实例特定标准。
BiGGen Bench(Kim et al., 2025)提供了4个模型下695个提示的人类分数(\([1, 5]\)),共2,776个实例,以及每个实例的评分标准,定义了每个分数级别意味着什么。它提供了参考答案和实例特定标准。
#### 成对基准
长度控制的AlpacaEval(Dubois et al., 2024)包含321个回答对,每个回答对由4名评估者提供人类偏好标注;我们使用多数投票作为真实标签。它没有提供参考答案或实例特定标准。
MT-Bench(Zheng et al., 2023)由多轮对话组成,包含3,355个人类偏好标注,分为1,204个唯一对。我们取多数投票并排除平局,得到941个评估对。
我们还重新将BiGGen Bench用于成对评估:比较每个提示下的所有模型对,并将较高的人类分数作为更偏好的回答,排除平局。这产生了2,792个成对评估对。
### 3.3 多粒度无训练标准生成
我们提出一种无训练的方法相似文章
基于LLM的自动化评分中可学习的评估技能:通过迭代优化构建评分标准
本文提出为LLM学习评估技能,以自动化评分任务的评分标准构建,达到与专家编写的评分标准相当的性能,且无需人工编写的示例。
LP-Eval: 用于衡量法律命题生成质量的评分标准与数据集
本文介绍了LP-Eval,这是一个由法律专家标注的、用于评估大语言模型生成法律命题质量的评分标准与数据集。结果表明,基于评分标准的LLM评估比直接打分更接近专家评估。
RankJudge:一个多轮LLM-as-a-Judge合成基准生成器
RankJudge是一个基准生成器,它创建带有注入缺陷的配对多轮对话,用于评估LLM评判者在复杂对话中正确识别更好和更差回复的能力。
ARES:可扩展LLM强化学习的自动评估标准合成
ARES提出了一种框架,能够从预训练文档中自动构建基于评估标准的强化学习数据,生成问答对和加权评估标准,从而为开放式的LLM回答提供实例级别的奖励监督,在多维开放式任务上优于现有方法。
PReMISE:将策略规则作为LLM评估者的度量规范
介绍了PReMISE,一个用于发现和审计LLM评估者策略级规则的框架,涵盖四个维度:结构充分性、可靠性、偏好匹配度和对抗鲁棒性。