@omarsar0: 如果你使用LLM作为评判者,这篇值得一读。(收藏它)这实际上是最有效的使用L…

X AI KOLs Following 论文

摘要

BinEval是一个新框架,它将LLM评估标准分解为原子化的二元问题,提高了可解释性,并实现了有针对性的提示优化,在事实一致性基准上取得了强劲的结果。

如果你使用LLM作为评判者,这篇值得一读。 (收藏它) 这实际上是使用LLM-as-a-Judge进行评测的最有效方式之一。 整体性的评判分数既隐藏了其推理过程,也掩盖了其天花板效应。 BINEVAL将每个评估标准分解为原子化的“是/否”问题,对每个输出独立地回答每个问题,然后聚合这些判断结果,得到校准后的多维分数。 每个问题级别的判断都是可检查的,因此你可以准确诊断出输出得分低的根本原因,而这些判断结果本身也可以直接作为有针对性的提示改进信号。 在SummEval、Topical-Chat和QAGS上,它匹配或超越了UniEval和G-Eval,且无需训练,在事实一致性方面尤其表现出色。 论文:https://arxiv.org/abs/2606.27226 在我们的学院中学习构建有效的AI智能体:https://academy.dair.ai
查看原文
查看缓存全文

缓存时间: 2026/06/28 01:54

如果你使用 LLM-as-judge,这篇文章值得一读。

(收藏它)

这实际上是利用 LLM-as-a-Judge 进行评估的最有效方法之一。

整体评估分数既隐藏了推理过程,也隐藏了天花板效应。

BinEval 将每个评估标准分解为原子化的二元问题(是/否问题),对每个输出独立回答每个问题,然后将判断结果汇总为经过校准的多维分数。

每个问题层面的判断都是可检查的,因此你可以精确诊断输出得分低的原因,并且相同的判断结果可直接作为有针对性的提示改进信号。

在 SummEval、Topical-Chat 和 QAGS 上,它匹配或超越了 UniEval 和 G-Eval,无需训练,尤其在事实一致性方面表现强劲。

论文:https://arxiv.org/abs/2606.27226

在我们的学院中学习构建高效的 AI 智能体:https://academy.dair.ai


提问而非评判:用于可解释的 LLM 评估与自我改进的二元问题问题

来源:https://arxiv.org/html/2606.27226 Kushal ChawlaPengshan CaiZefang LiuChenyang ZhuShi-Xiong ZhangSambit Sahu

摘要

评估 LLM 的输出仍然是 NLP 中的一个主要瓶颈:人工评估昂贵且缓慢,词汇指标在开放式生成任务上与人类判断的相关性较差,而整体性的 LLM 评估器常常产生难以调试的不透明分数。我们提出 BinEval,这是一个将评估标准分解为原子化的二元问题,并将得出的判断结果聚合成可解释的多维分数的框架。给定一个任务提示,一个元提示生成细粒度的评估问题,LLM 为每个输出独立回答这些问题,从而提供透明的问题级反馈以及校准后的总体分数。这种分解使评估更易于检查、诊断,并能直接用于提示优化。在 SummEval、Topical-Chat 和 QAGS 上,BinEval 匹配或超越了包括 UniEval 和 G-Eval 在内的强基线,尤其在 QAGS 等事实一致性基准上表现强劲。除了与人类判断具有竞争力的相关性外,BinEval 更好地匹配了人类分数分布,并避免了先前 LLM 评估器中常见的天花板效应,从而更好地区分边缘性输出和明显有缺陷的输出。我们还表明,相同的问题级反馈支持迭代提示优化,在自我更新和跨模型更新设置下,改进了摘要任务的评估提示和 IFBench 上的生成提示。总而言之,BinEval 提供了一个任务无关、无需训练且可解释的评估框架,结合了强大的实证性能与实际的诊断和优化价值。

大规模语言模型,评估,提示优化,可解释性

1 引言

大规模语言模型(LLM)的快速发展使得生成变得容易,而评估变得困难。现代系统可以生成流畅、上下文恰当的输出,涵盖摘要、对话、推理和指令遵循等任务,但评估这些输出仍然是一个主要瓶颈。人工评估缓慢且昂贵,词法指标如 ROUGE(Lin,2004 (https://arxiv.org/html/2606.27226#bib.bib7))、BLEU(Papineni 等,2002 (https://arxiv.org/html/2606.27226#bib.bib11))和 BERTScore(Zhang 等,2020 (https://arxiv.org/html/2606.27226#bib.bib17))无法捕捉语义正确性和事实性,而整体性的 LLM 评估器(Zheng 等,2023 (https://arxiv.org/html/2606.27226#bib.bib19);Liu 等,2023 (https://arxiv.org/html/2606.27226#bib.bib8))常常产生难以诊断的不透明分数。

这个瓶颈在迭代开发中尤其代价高昂。比较提示、模型或解码策略需要不仅准确而且可操作的反馈。单一的标量分数往往不够:如果一份摘要得到一个平庸的评分,仍不清楚问题出在事实不一致、相关性弱、内容缺失还是流畅性差。

我们的前提很简单:与其要求模型给出一个笼统的判断,不如让它回答一组细小、可核查的问题。因此,我们提出了 BinEval,它将每个评估标准分解为原子化的二元问题(是/否问题),并将得出的判断结果聚合成可解释的分数。这种分解将评估从黑箱判决转变为结构化的诊断信号,使得评估和改进生成器都更容易检查、调试和优化。

BinEval 包含三个部分。首先,一个元提示将任务提示分解为按评估维度组织的原子化问题。其次,一个评估器独立回答每个问题,并将答案聚合为每个维度和总体的分数。第三,一个两阶段的优化循环利用问题级反馈来改进评估提示和生成提示。

我们在 SummEval(Fabbri 等,2021 (https://arxiv.org/html/2606.27226#bib.bib4))、Topical-Chat(Mehri 和 Eskenazi,2020 (https://arxiv.org/html/2606.27226#bib.bib9))和 QAGS(Wang 等,2020 (https://arxiv.org/html/2606.27226#bib.bib13))上评估 BinEval,并在摘要和 IFBench 上研究迭代提示更新。

我们的贡献是:

  • •**一个可解释评估的通用框架。**我们将评估标准分解为原子化的二元问题,得到一种任务无关且模块化的方法。
  • •**无需任务特定训练的强大性能。**在 SummEval、Topical-Chat 和 QAGS 上,BinEval 匹配或超越了经过训练的评估器和整体性的 LLM 评估器。
  • •**迭代提示改进。**我们引入了一个两阶段的优化循环,改进了摘要和 IFBench 的提示。
  • •**可调试的分数。**每个 BinEval 分数都基于包含解释的单独判断,使得评估器的行为更容易检查和诊断。

2 相关工作

**传统评估指标。**词法重叠指标——ROUGE(Lin,2004 (https://arxiv.org/html/2606.27226#bib.bib7))、BLEU(Papineni 等,2002 (https://arxiv.org/html/2606.27226#bib.bib11))和 METEOR(Banerjee 和 Lavie,2005 (https://arxiv.org/html/2606.27226#bib.bib1))——仍然是摘要和翻译评估的标准,但它们常常难以捕捉开放式生成任务的语义等价性。基于嵌入的指标如 BERTScore(Zhang 等,2020 (https://arxiv.org/html/2606.27226#bib.bib17))和 MoverScore(Zhao 等,2019 (https://arxiv.org/html/2606.27226#bib.bib18))通过在表示空间中操作来改进语义匹配,而基于生成的指标如 BARTScore(Yuan 等,2021 (https://arxiv.org/html/2606.27226#bib.bib16))将评估视为文本生成。最近的无参考方法如 ParaPLUIE(Lemesle 等,2025 (https://arxiv.org/html/2606.27226#bib.bib24))使用模型困惑度测量意义保留,无需黄金参考,而 OmniScore(Alam 等,2026 (https://arxiv.org/html/2606.27226#bib.bib25))等框架使用确定性学习的评估器来支持可扩展的多语言评估。

**LLM 作为评估器。**最近的工作越来越多地利用 LLM 本身作为评估器。G-Eval(Liu 等,2023 (https://arxiv.org/html/2606.27226#bib.bib8))使用思维链推理后跟李克特量表评分,而 AlpacaEval(Li 等,2023 (https://arxiv.org/html/2606.27226#bib.bib6))和 MT-Bench / Chatbot Arena(Zheng 等,2023 (https://arxiv.org/html/2606.27226#bib.bib19))依赖成对或偏好判断。该范式还扩展到专门的开源评估器,如 Prometheus 2(Kim 等,2024 (https://arxiv.org/html/2606.27226#bib.bib23)),它近似于人类和专有模型判断的深度。然而,这些评估器仍然容易受到位置、冗长和自我增强偏差的影响(Zheng 等,2023 (https://arxiv.org/html/2606.27226#bib.bib19))。最近的基准如 JudgeBiasBench(Zhou 等,2026 (https://arxiv.org/html/2606.27226#bib.bib26))通过对评估器偏差进行分类并提出去偏策略,进一步系统化了这些问题。

**多维评估。**多维评估旨在将质量分解为可解释的方面,如连贯性、忠实性、信息量和相关性。UniEval(Zhong 等,2022 (https://arxiv.org/html/2606.27226#bib.bib20))是一个关键的前期例子:它将评估重新表述为布尔问答,并针对多个维度微调了一个基于 T5 的评估器。最近的工作同样将评估分解为信息量和忠实性等方面(Alam 等,2026 (https://arxiv.org/html/2606.27226#bib.bib25)),而 QAEval(Yue 等,2025 (https://arxiv.org/html/2606.27226#bib.bib27))等混合框架将基于规则的可靠性评估与评估器混合(Mixture of Evaluators)结合,用于开放式生成任务。这些方法共同强化了将评估分解为更小、更结构化的判断的价值。

**用于评估的原子化分解。**FActScore(Min 等,2023 (https://arxiv.org/html/2606.27226#bib.bib10))开创了“先分解后验证”的范式,将长文本生成分解为原子化事实并逐一验证。相关框架如 ARES(Saad-Falcon 等,2024 (https://arxiv.org/html/2606.27226#bib.bib12))和 RAGAS(E 等,2024 (https://arxiv.org/html/2606.27226#bib.bib3))将类似的分解思想扩展到检索增强生成,而 OpenFActScore(Lage 和 Ostermann,2025 (https://arxiv.org/html/2606.27226#bib.bib28))通过原子化评估实现了开源事实核查。这些方法表明,细粒度分解可以改进事实评估,尽管它们通常分解生成的内容而不是评估标准本身。

**提示优化。**提示优化已逐渐从手动指令工程转向自动化和程序化改进。DSPy(Khattab 等,2023 (https://arxiv.org/html/2606.27226#bib.bib5))提供了一个声明式、自我改进的语言模型流水线框架,MIPRO(Opsahl-Ong 等,2024 (https://arxiv.org/html/2606.27226#bib.bib29))等算法对指令和演示进行贝叶斯搜索。OPRO(Yang 等,2023 (https://arxiv.org/html/2606.27226#bib.bib15))和 APE(Zhou 等,2023 (https://arxiv.org/html/2606.27226#bib.bib22))同样使用语言模型迭代生成和优化提示。更近期的方法如 MARS(Zhang 等,2025 (https://arxiv.org/html/2606.27226#bib.bib30))引入了多智能体苏格拉底式优化,而 LLM-AutoDiff(Yin 和 Wang,2025 (https://arxiv.org/html/2606.27226#bib.bib31))将文本输入视为图结构工作流中的可训练参数。这些方法激励我们使用分歧驱动的提示改进作为有针对性的优化信号。

3 方法

我们分三个部分介绍 BinEval:二元问题生成(第 3.1 节 (https://arxiv.org/html/2606.27226#S3.SS1))、二元评估与评分(第 3.2 节 (https://arxiv.org/html/2606.27226#S3.SS2))以及迭代提示优化(第 3.3 节 (https://arxiv.org/html/2606.27226#S3.SS3) 和 3.4 节 (https://arxiv.org/html/2606.27226#S3.SS4))。

3.1 二元问题生成

令 (T) 表示定义生成要求的任务提示,例如摘要指令、对话系统提示或指令遵循规范。我们定义一个分解函数,它将 (T) 映射到一组二元问题:

[ \mathcal{Q} = \mathcal{F}_{\text{LLM}}(T; M) = {q_1, q_2, \dots, q_N}. ]

其中 (M) 是一个元提示,指示 LLM 执行两步分解。

第 1 步 – 总结。 我们首先将任务提示 (T) 总结为一个显式的需求集 (\mathcal{R} = {r_1, r_2, \dots, r_K})。每个需求 (r_k) 捕捉一个不同的评估标准,例如输出是否包含关键信息或遵守格式约束。此总结步骤旨在帮助模型在进行更细粒度分解之前形成对完整任务的连贯表示。

第 2 步 – 分解。 对于每个需求 (r_k),我们生成一个或多个二元问题,使得回答“是”表示输出满足该需求,回答“否”表示违反。包含多个隐含子任务的需求被分解为单独的问题,每个问题配有一个简洁的违反示例以阐明否定情况。这种设计受到先前工作的启发,该工作表明复杂推理通常可以通过将任务分解为可以顺序或模块化解决的更简单子问题来改进 (Zhou et al., 2022 (https://arxiv.org/html/2606.27226#bib.bib32); Khot et al., 2022 (https://arxiv.org/html/2606.27226#bib.bib33))。在我们的设置中,同样的直觉表明,当模型回答针对简化子问题的目标二元问题而不是做出单一的整体判断时,评估会变得更容易。

问题可以组织成评估维度。对于一组维度 (\mathcal{D}),例如连贯性、一致性、流畅性和相关性,问题划分如下:

[ \mathcal{Q} = \bigcup_{d \in \mathcal{D}} \mathcal{Q}_d, ]

其中 (\mathcal{Q}_d) 包含特定于维度 (d) 的问题。元提示 (M) 是任务无关的:相同的元提示可以为摘要、对话、指令遵循或任何其他任务生成适当的二元问题,只需改变 (T)。

3.2 二元评估与评分

给定一个评估器 LLM (E),一个输入 (x)(如源文档、对话记录或指令),一个输出 (y)(如生成的摘要、对话回复或补全),以及一个二元问题 (q_i),我们定义二元评估函数

[ f_E(x, y, q_i) \in {0, 1}, ]

其中如果评估器回答“是”,则 (f_E(x, y, q_i) = 1),否则为 0。除了每个二元判断外,评估器还会生成一个自然语言解释 (e_i),从而实现可解释性。

维度 (d) 的分数为:

[ S_d(x, y) = \frac{1}{|\mathcal{Q}d|} \sum{q_i \in \mathcal{Q}_d} f_E(x, y, q_i). ]

所有 (N) 个问题的总体分数为:

[ S(x, y) = \frac{1}{N} \sum_{i=1}^{N} f_E(x, y, q_i). ]

两个分数都在 ([0, 1]) 范围内,其中 1 表示满足所有标准。为了与使用不同量表的现有评估框架进行比较,可以通过仿射缩放将分数从 ([0, 1]) 映射到任何目标区间 ([a, b]):

[ S’(x, y) = S(x, y) \cdot (b - a) + a. ]

3.3 跨模型提示更新

BinEval 的二元问题框架使得评估器之间可以进行跨模型提示更新。其关键见解是,源评估器和目标评估器在特定二元问题上的分歧提供了细粒度的改进信号:与整体分数差异不同,二元问题的分歧精确地指出了哪些标准在不同模型之间被不一致地判断。这使得可以使用更强的源模型作为参考,并迭代更新不同(通常是较弱)目标模型的提示,直到其评估器行为更接近源模型。此外,在将模型迁移到不同的模型家族时,它有助于更新提示以保持相似的性能。

设 (E_{\text{src}}) 表示源评估器,视作参考模型,并设 (E_{\text{tgt}}) 表示目标评估器,其提示为 (P)

相似文章