PReMISE:将策略规则作为LLM评估者的度量规范
摘要
介绍了PReMISE,一个用于发现和审计LLM评估者策略级规则的框架,涵盖四个维度:结构充分性、可靠性、偏好匹配度和对抗鲁棒性。
arXiv:2605.30803v1 Announce Type: new
摘要:LLM评估者越来越多地被用于评估开放式回答,但其分数在很大程度上取决于条件化它们的规则。一个模糊的规则要求回答“有帮助且基于事实”,可能会奖励那些编造事实或违背用户意图的精心润色的回答。我们将可重用规则视为度量规范:改变规则会改变固定评估者所引发的回答质量度量。我们引入了PReMISE,这是一个框架,给定成对的人类偏好数据后,(i)发现一个策略级规则集,以及(ii)在LLM评估者使用下,沿四个维度审计任何规则集:结构充分性、可靠性、偏好匹配度和对抗鲁棒性。在规则来源中,没有原始来源同时具备可靠性、偏好预测性和对抗鲁棒性;高评估者间一致性并不意味着低可利用性。PReMISE是唯一一个同时在适用性、特异性和有效维度上得分非平凡的规则来源。我们贡献了两个审计导向的修复操作:偏好排序选择将评估者在配对响应上的准确率从$65.0\%$提升到$68.6\%$,与最强规则发现基线相当,并在我们的跨评估者扫描中在三名评估者中的两名中领先;可靠性约束优化将对抗性响应获得高分的比率从$46.4\%$降低到$36.0\%$,同时评估者间一致性变化很小($\alpha{=}.531\to.519$)。
查看缓存全文
缓存时间: 2026/06/01 09:25
# PReMISE: 策略评分标准作为LLM评估者的测量规范
来源:https://arxiv.org/html/2605.30803
Swastik Roy,Rajkumar Pujari,Tharindu Kumarage,Charith Peris, Rahul Gupta,Anna Rumshisky,Pradeep Natarajan,Venkatesh Saligrama
Amazon AGI
通讯:\{roswasti,pujarira,tharindd,perisc,gupra,arrumshi,natarap,prof\}@amazon\.com
###### 摘要
LLM评估者被越来越多地用于评估开放式回答,但它们的得分高度依赖于约束它们的评分标准。一个模糊的评分标准要求回答“有帮助且符合事实”,可能会奖励那些编造事实或违反用户意图的华丽回答。我们将可重用的评分标准视为测量规范:改变评分标准会改变由固定评估者诱导的回答质量测量。我们引入PReMISE,这是一个框架,给定成对的人类偏好数据,(i) 发现一组策略级别的评分标准,以及(ii) 沿着四个轴审计任何基于LLM评估者的评分标准集:结构充分性、可靠性、偏好拟合和对抗鲁棒性。在跨评分标准来源中,没有原始来源同时具有可靠性、偏好预测性和对抗鲁棒性;高评分者间一致性并不意味着低可利用性。PReMISE是唯一同时在适用性、特异性和有效维度上获得非平凡得分的评分标准来源。我们贡献了两个针对审计的修复操作:偏好排名选择将配对回答上的评估者准确率从65.0%68.5%提高到68.6%80.2%,与最强的评分标准发现基线竞争,并在我们的跨评估者扫描中领先三个评估者中的两个;可靠性约束细化将利用性回答获得高分的比率从46.4%降低到36.0%,同时评分者间一致性变化很小(α=0.531→0.519)。
PReMISE: 策略评分标准作为LLM评估者的测量规范
参考图1:通过其评分标准条件评估者评估的六种策略评分标准方法,在四个PReMISE审计轴上,偏好拟合展开为其三个结构子轴(适用性、特异性、有效维度;§4.3)。每个轴内归一化,使领先者锚定在外六边形;边缘徽章标记轴领先者。PReMISE(绿色)是整个集合中唯一未被支配的评分标准。
## 1 引言
LLM评估日益成为衡量开放式回答质量的问题。当输出具有可验证的正确性信号(如数学推导、可执行代码)时,可以直接检查质量。对于写作、对话、安全及其他开放式任务,实际替代方案是基于书面评分标准的自动评估者:诸如事实支持、指令遵循、安全性或边界情况处理等标准。评分标准如今已成为旗舰级评估基准的基石(Arora等人,2025年;Kim等人,2024a,2025年),约束着“LLM作为评估者”的流程和奖励模型,并愈发作为训练信号本身(Guan等人,2024年;Srivastava等人,2025年)。我们关注可重用的策略级评分标准:旨在跨多个提示应用而非编码特定项目答案的评分标准。公开的模型规范(OpenAI,2024年;Bai等人,2022b)和章程是典型例子。其重用性正是其后果显著之处:评分标准中的缺陷可能传播到整个基准、过滤流程或训练部署中。我们的研究对象是*由评分标准诱导的评估者*。给定一个固定的自动评分者\(J\),一个评分标准\(r\)会诱导出一个基于评分标准的评估者\(M_{J,r}(p,x) = J(p,x; r)\),用于对提示\(p\)的回答\(x\)进行评分。同一个自动评分者配以两个不同的评分标准就是两个不同的评估者;下游流程消费的是这个基于评分标准的评估者,而非仅评分标准文本本身。一个评分标准可能听起来合理,却诱导出糟糕的评估者:一个模糊的评分标准要求“有帮助、符合事实且清晰”,可能导致自动评分者对一篇流畅但虚构了60天退货窗口的回答给出高分,即使政策规定电子产品必须在30天内退货。糟糕的回答是一个问题;更深的评估问题是,基于评分标准的评估者未能检测出这一点。因此,目标并非直接训练更好的模型,而是编辑评分标准,使得诱导出的评估者对人类真正愿意接受的回答给出高分。要判断一个基于评分标准的评估者是否可信,我们必须检查它诱导的评分过程。我们将其组织为四个轴:**结构充分性**(评分标准是否结构良好——原子化、不重叠、覆盖相关行为?Zhang等人,2026年;Zhang,2026年);**可靠性**(独立评估者是否给出相同分数?Huynh等人,2026年;Bavaresco等人,2025年;Pan等人,2026年;Weng等人,2026年);**偏好拟合**(使用评分标准是否在无评分标准先验的基础上*增加*了信息?Findeis等人,2025年;Xie等人,2025年;Wang和Xiong,2025年;Guo等人,2025年;Arabzadeh等人,2024年);以及**对抗鲁棒性**(在预期构念被违反的情况下,获得高分的容易程度?Zhao等人,2025年;Pombal等人,2026年;Arabzadeh等人,2024年)。这些要求各不相同(见图1):一致性不等于有效性,偏好拟合不等于鲁棒性——评估者可能就一个有缺陷的解释达成一致,而一个能预测普通回答偏好的评分标准仍可能容许利用其措辞的对抗性回答。每个轴不仅命名一个测量指标,也指向一个修复目标:当评分标准在某轴上失败时,针对该轴的编辑可以提升其所产生的评估者。我们引入PReMISE,一个用于审计和改进基于评分标准的评估者的框架。给定成对的人类偏好数据,PReMISE可以挖掘候选的可重用评分标准;给定任意评分标准集,它沿着上述四个轴审计该集诱导出的评估者;当审计暴露出失败时,它提供修复操作来编辑评分标准并重新评估产生的评估者。图2勾勒了端到端框架;每个轴的操作细节推迟到第3节。**贡献**。我们将可重用的评分标准视为可编辑的自动LLM评估者规范:改变评分标准会改变由固定评估者诱导的回答质量测量。基于此框架,我们贡献了一个“发现–审计–修复”流程:
(i) **发现**:一个基于偏好的评分标准发现流程,其评分标准是唯一同时在每个提示的适用性、对源分布的特异性以及有效维度上获得非平凡得分的;
(ii) **审计**:一个四轴框架(结构充分性、可靠性、偏好拟合和对抗鲁棒性),将评分标准来源置于共同基础上,并揭示没有来源能主导所有四个轴;
(iii) **修复**:两个针对审计的操作——偏好排名选择,将配对回答上的评估者准确率从65.0%提高到68.6%(跨三个评估者和两个提示模板的跨源均值),以及可靠性约束细化,将已验证的愚弄率从46.4%降低到36.0%,同时\(\Delta\alpha=-0.012\)。
参考图2:PReMISE框架。一个策略评分标准、一个成对偏好数据集以及一个固定的评分协议定义了一个基于评分标准的测量过程。PReMISE沿着四个轴审计评估者——结构充分性、可靠性、偏好拟合和对抗鲁棒性——并利用审计失败来指导评分标准的选择或细化。
## 2 相关工作
### 2.1 LLM评估与训练中的评分标准
我们的工作遵循一条评估方法论研究路线,将评估视为设计好的测量系统而非中性记分板(Liang等人,2023年;Ribeiro等人,2020年;Kiela等人,2021年)。评分标准如今锚定了非可验证任务评估流程的很大一部分,既通过每实例评分标准基准(Arora等人,2025年;Kim等人,2025年;Ye等人,2024年;Song等人,2024年),也通过运行时编写的基于评分标准的评估者模型(Kim等人,2024b,a;Vu等人,2024年;Deshpande等人,2024年)。评分标准还在日益增长的关于AI反馈、审议对齐以及非可验证目标基于评分标准奖励的后训练文献中作为训练信号(Bai等人,2022b;Lee等人,2024年;Guan等人,2024年;Srivastava等人,2025年;Jian等人,2025年;Jia等人,2025年;Montero等人,2026年;Bhattarai等人,2026年;Yu等人,2026年)。
### 2.2 策略级评分标准及其从偏好中的发现
跨提示可重用的策略级评分标准最突出地出现在公开的模型规范和章程中(OpenAI,2024年;Anthropic,2023年;Bai等人,2022b)。另一条研究路线直接从数据中归纳此类评分标准:Inverse CAI(Findeis等人,2025年)将偏好标注压缩为一小组原则;Auto-Rubric(Xie等人,2025年)将隐式奖励模型信号从少量偏好对转换为层次化评分标准;AutoRule(Wang和Xiong,2025年)从偏好上的链式思维理由中提取基于规则的奖励;CritiQ(Guo等人,2025年)在数据质量领域从人工标注的偏好中挖掘可重用的言语标准。AgentEval(Arabzadeh等人,2024年)采用类似的评分标准归纳方法,但以任务描述而非偏好为起点。这些方法是我们主要的基线评分标准来源:每个方法都产生一个策略级评分标准,我们的框架使我们能够首次在同一轴上度量它们。
### 2.3 审计评分标准、评估者与规范
以往关于评分标准质量的大多数工作只审计单一轴。结构良好性已通过基准测试和原子性消融研究得到检验(Zhang等人,2026年;Zhang,2026年;Shen等人,2026年),这建立在教育领域评分标准设计的长期传统之上(Jonsson和Svingby,2007年)。可靠性通过评分者间一致性(Krippendorff,2011年)、评分标准编辑下的评估者一致性、评估者元评估以及评分标准或提示扰动下的评估者不变性来测量(Huynh等人,2026年;Bavaresco等人,2025年;Pan等人,2026年;Weng等人,2026年;Elazar等人,2021年;Sclar等人,2024年)。对抗鲁棒性属于更广泛的奖励黑客、规范博弈和奖励模型过度优化文献的一部分(Skalse等人,2022年;Krakovna等人,2020年;Gao等人,2023年;Lambert等人,2024年),最近通过短令牌攻击、自偏好偏差和聚合压力测试进行评估者侧文档化(Zhao等人,2025年;Li等人,2025年;Pombal等人,2026年;Liu等人,2026年;Shihab等人,2025年)。在策略级评分标准审计领域,最接近的工作是Zhang等人(2025年),它通过测量跨模型行为差异来揭示精心编写规范中的矛盾和模糊之处;这与我们的测量属性审计是互补的。在评分标准归纳方法中,Arabzadeh等人(2024年)的“判别力”测试(通过随机句子删除来剪枝标准)是我们所知唯一对评分标准本身进行显式对抗检查的工作;我们将其推广为已验证愚弄率的构造。我们的框架借鉴了LLM评估中朝着原理性测量仪器发展的更广泛推动力(Sühr等人,2025年;Ye等人,2025年;Lin,2025年)。
## 3 PReMISE
PReMISE操作于基于评分标准的回答质量测量。给定成对的人类偏好数据\(\mathcal{D} = \{ (p_i, y_i^+, y_i^-) \}_{i=1}^n\),其中\(y_i^+\)是人类偏好的回答,以及一个固定的自动评分者\(J\),一个评分标准\(R = \{ c_1, \ldots, c_K \}\)会诱导出一个向量值评估者\(s_R(p, x; J) = \big( J(p, x; c_1), \ldots, J(p, x; c_K) \big) \in [0,10]^K\)。该框架包含三个操作。首先,它可以从\(\mathcal{D}\)中发现一个可重用的评分标准集\(R\)。其次,它可以审计任何评分标准集(无论是PReMISE发现的、手工编写的还是其他方法产生的),在相同的评估者\(J\)下。第三,它可以编辑评分标准以针对审计暴露出的失败进行修复。相似文章
面向LLM-as-a-Judge的动态评估准则生成与优化
本文提出了一种无需训练的方法,可以在无需人工标注的情况下自动生成细粒度的评估准则用于LLM-as-a-Judge,并进一步介绍了一种迭代微调策略,使准则生成器的性能超过更大的专有模型。
基于LLM的自动化评分中可学习的评估技能:通过迭代优化构建评分标准
本文提出为LLM学习评估技能,以自动化评分任务的评分标准构建,达到与专家编写的评分标准相当的性能,且无需人工编写的示例。
PRISM:评估LLM审稿人的多维度基准
介绍PRISM,一个用于评估基于大语言模型的同行评审员的多维度基准,涵盖分析深度、新颖性评估、缺陷识别和建设性。研究结果表明,大语言模型在单个维度上能与人类评审员匹敌甚至超越,但缺乏跨所有维度的平衡表现,因此最适合作为人类评审的补充工具。
是时候 REFLECT 了:我们能信任 LLM 评判者来评估基于证据的研究代理吗?
本文介绍了 REFLECT,这是一个用于评估 LLM 评判者在深度研究代理评估中可靠性的元评估基准。实验表明,当前的 LLM 评判者仍然不可靠,在推理、工具使用和报告质量失败方面的整体准确率低于 55%。
LP-Eval: 用于衡量法律命题生成质量的评分标准与数据集
本文介绍了LP-Eval,这是一个由法律专家标注的、用于评估大语言模型生成法律命题质量的评分标准与数据集。结果表明,基于评分标准的LLM评估比直接打分更接近专家评估。