论大型语言模型评估中提示排名的稳定性

arXiv cs.CL 论文

摘要

本文系统研究了常见变异来源下,大型语言模型评估中提示排名的稳定性,发现表现最佳的提示经常发生变化。为此,提出了一种基于下置信界的稳定性感知选择策略,以提高鲁棒性。

arXiv:2606.24381v1 Announce Type: new 摘要:基于提示的交互已成为使用大型语言模型(LLMs)的主要范式,其中评估多个候选提示,并选择排名最高的用于下游任务。这一工作流程隐含假设提示排名在评估条件的微小变化下是稳定的。本文系统研究了常见变异来源(包括随机种子和有限评估子集)下的提示排名稳定性。在三个开放权重的大语言模型和两个基准任务上,我们发现虽然整体排名相关性通常为中等至较高,但表现最佳的提示身份频繁变化,导致不可靠的选择决策。为解决此问题,我们提出了一种简单的基于下置信界的稳定性感知选择策略,该策略同时考虑了性能和方差。我们的结果表明,该方法在不稳定设置中提高了鲁棒性,同时在更稳定的环境中保持竞争力。这些发现强调了在提示选择和LLM基准测试中考虑评估不确定性的重要性。
查看原文
查看缓存全文

缓存时间: 2026/06/24 07:47

# 论大型语言模型评估中提示排名的稳定性
来源:https://arxiv.org/html/2606.24381
11institutetext:University of Amsterdam, Amsterdam, Netherlands11email:s\.du@uva\.nl22institutetext:Northeastern University, Boston, MA, USA33institutetext:University of California San Diego, La Jolla, CA, USA44institutetext:Duke University, Durham, NC, USA###### 摘要

基于提示的交互已成为使用大型语言模型(LLM)的主导范式,其中对多个候选提示进行评估,并选择排名最高的用于下游任务。这种工作流程隐含地假设提示排名在评估条件的微小变化下是稳定的。在本文中,我们系统研究了在常见变异性来源(包括随机种子和有限评估子集)下提示排名的稳定性。在三个开放权重LLM和两个基准任务上,我们发现虽然整体排名相关性通常为中等至高,但表现最佳的提示的身份经常发生变化,导致不可靠的选择决策。为解决此问题,我们提出一种简单的基于下置信界的稳定性感知选择策略,该策略同时考虑了性能与方差。我们的结果表明,这种方法在非稳定设置下提高了鲁棒性,同时在更稳定的状态下保持竞争力。这些发现凸显了在提示选择和LLM基准测试中考虑评估不确定性的重要性。

## 1引言

随着人工智能模型的不断进步,大型语言模型(LLM)越来越多地通过基于提示的接口进行访问,其中任务行为通过自然语言指令而非任务特定训练来指定\[11 (https://arxiv.org/html/2606.24381#bib.bib4),9 (https://arxiv.org/html/2606.24381#bib.bib5),2 (https://arxiv.org/html/2606.24381#bib.bib6)\]。因此,提示设计和提示选择已成为基于LLM系统的研究和部署的核心。在许多实际工作流程中,多个候选提示在基准测试上进行评估,按性能排名,然后选择单个“最佳”提示用于下游使用。

这些实践背后一个常见但往往隐含的假设是提示性能排名是稳定的。即,在给定评估协议下表现优于其他提示的提示,预期在评估条件的微小变化下仍保持优势。这一假设支持了诸如基于平均准确率选择提示或报告单个表现最佳提示等广泛实践。

然而,在实践中,提示评估受到多种变异性来源的影响。评估协议通常依赖于有限的评估预算、基准数据集的子采样或不同的随机种子。虽然先前工作研究了随机解码下的输出变异性或对少量示例的敏感性,但提示评估本身通常被视为确定性的。特别是,提示*排名*(而非绝对分数)的稳定性几乎没有受到系统性的关注。

重要的是,提示排名的不稳定性具有直接的实际影响。当多个提示达到相似的平均性能时,即使评估分数的微小波动也可能导致其相对顺序的变化。这种排名不稳定性可能使提示选择决策对评估噪声过度敏感,导致脆弱或不可重复的结果。

在这项工作中,我们挑战了稳定提示排名的假设。我们不关注绝对性能方差,而是研究在现实评估变异性下提示的相对顺序如何变化。具体而言,我们提出以下问题:(1)提示性能排名在随机种子和评估子集大小上的稳定性如何?(2)排名不稳定性如何影响常见的提示选择策略?(3)能否通过简单的稳定性感知准则使提示选择更加鲁棒?

为回答这些问题,我们进行了一项系统的实证研究,其中固定的一组提示在受控的评估条件变化下被反复评估。我们的结果揭示了显著的排名不稳定性,特别是在小评估子集上,并表明仅基于平均性能选择提示可能导致不可靠的决策。同时,我们证明通过简单的下置信界准则纳入稳定性考量,可以在噪声评估条件下提高鲁棒性,同时在更稳定的设置中保持竞争力。

我们的贡献如下:

(1)我们首次系统研究了在现实评估变异性(包括随机种子和有限评估预算)下的提示排名稳定性。

(2)我们展示了高排名相关性不一定意味着稳定的提示选择,揭示了全局排名一致性与决策级一致性之间的差距。

(3)我们提出一种基于下置信界的简单稳定性感知选择方法,该方法在噪声评估条件下提高了鲁棒性,且不牺牲稳定状态下的性能。

## 2相关工作

### 2.1提示工程与提示敏感性

提示工程已成为控制大型语言模型行为的关键技术,无需额外训练\[12 (https://arxiv.org/html/2606.24381#bib.bib7),5 (https://arxiv.org/html/2606.24381#bib.bib8)\]。先前工作探索了指令设计、推理线索、输出约束和提示集成,表明提示表述可以显著影响模型性能。一些研究还报告了LLM输出对提示措辞、格式和示例选择的敏感性。

### 2.2评估变异性与基准鲁棒性

评估变异性已在多种背景下得到研究,包括模型初始化的随机性、随机解码和数据集子采样\[3 (https://arxiv.org/html/2606.24381#bib.bib9),4 (https://arxiv.org/html/2606.24381#bib.bib10)\]。先前工作表明,基准分数可能对评估噪声敏感,尤其是在数据有限或随机设置下。自举方法和统计显著性检验已被提出用于量化模型评估中的不确定性。

与这些研究相比,我们的重点不是估计绝对分数的置信区间,而是理解评估变异性如何影响提示的*相对顺序*。

### 2.3排名稳定性与模型选择

虽然排名稳定性已在信息检索和模型选择等领域得到研究,但这些工作通常关注模型级别的比较\[10 (https://arxiv.org/html/2606.24381#bib.bib11)\]。相比之下,我们在提示级别研究排名稳定性,其中性能差异通常细微,评估噪声起着更大作用。一些工作指出,即使聚合性能指标看起来稳定,基于排名的决策也可能对噪声敏感\[8 (https://arxiv.org/html/2606.24381#bib.bib12)\]。

我们的工作将这一视角引入LLM的提示评估。据我们所知,这是首次在受控的评估变异性下系统研究提示排名稳定性,并将排名不稳定性与提示选择鲁棒性联系起来的工作。

## 3方法

在本节中,我们将提示评估形式化为一个随机排序问题,其中评估变异性导致提示性能和排名结果具有随机性。在此形式化下,提示排名不再确定,而是取决于底层采样分布,提示选择对应于在不确定性下识别鲁棒的最优解。

\includestandalone

[width=0.8]figures/method

图1:所提出的提示评估和选择框架概述。该流水线通过在应用稳定性感知选择策略之前进行多种子子采样来模拟评估变异性。

### 3.1问题形式化

令P={p1,p2,...,pM}表示给定任务的固定候选提示集,D表示评估数据集。在评估条件c(例如,特定的随机种子和示例子集)下,每个提示pi被分配一个性能得分si(c),如准确率。

这诱导了提示上的一个排序:

π(c)=rank({si(c)}i=1M),

其中排序顺序中的较低位置对应性能更优的提示。

我们考虑多个评估条件C={c1,...,cK},通过改变随机种子和评估子集获得。我们的目标是分析排序{π(c)}在不同条件下的稳定性。

### 3.2评估变异性

我们将评估变异性建模为来自两个来源:

随机种子变化:不同种子导致数据集的不同子样本。

子集大小变化:我们在大小为k∈{50,100,200}的子集上进行评估,以模拟有限的评估预算。

对于每个条件c,所有提示在相同的子集上进行评估以确保公平比较。这产生一个大小为|C|×M的得分矩阵,其中每一行对应提示上的一个排序。

### 3.3排序稳定性指标

为量化排序之间的相似性,我们计算评估条件之间的成对相关性。

##### 秩相关性。

给定两个排序π(c1)和π(c2),我们使用Spearman的ρ(捕捉排序位置之间的相关性)和Kendall的τ(衡量成对顺序一致性)来衡量它们的一致性。这些指标反映了评估条件之间的全局排序一致性。

##### Top-k一致性。

为评估决策级稳定性,我们进一步考虑top-k一致性指标。Top-1一致性衡量识别出相同最佳提示的评估条件的比例,而top-k一致性量化不同条件下top-k提示集之间的平均重叠。这些指标捕捉了超出全局排序一致性的提示选择决策的可靠性。

对于成对top-k一致性,我们计算两个评估条件下的top-k提示集之间的平均重叠比率:

Top-k(π(c1),π(c2))=|Tk(c1)∩Tk(c2)|k,

其中Tk(c)表示条件c下的top-k提示集。

### 3.4提示选择策略

我们考虑基于多次评估运行的两种提示选择策略。

##### 基于均值的选择。

我们计算每个提示在所有条件下的平均得分:

s̄i=1K∑c∈C si(c),

并选择平均性能最高的提示:

p*mean = arg maxi s̄i。

##### 稳定性感知选择(LCB)。

为考虑变异性,我们定义一个下置信界(LCB)得分:

LCBi = s̄i - z·σi√K,

其中σi是提示pi得分的标准差,z控制惩罚强度。

我们选择:

p*LCB = arg maxi LCBi。

该策略倾向于选择平均性能高且方差低的提示。我们将此LCB得分作为简单的不确定性感知启发式方法,而非严格的统计置信区间,因为评估条件的数量有限。

### 3.5选择鲁棒性评估

我们使用留一种子出(LOSO)协议评估选择鲁棒性。

对于每个保留条件ctest,我们:

1. 使用剩余条件C∖{ctest}选择提示。
2. 在ctest上评估所选提示。

我们报告所有保留条件下测试性能的平均值和标准差。

该协议衡量选择策略对未见评估设置的泛化能力。

## 4实验

我们使用开放权重指令微调LLM在零样本设置下进行实验,采用贪婪解码。所有实验使用固定模型,以隔离评估变异性的影响,排除模型特定因素。

### 4.1设置

#### 4.1.1模型

我们在三个具有可比参数规模但不同训练方案的典型开放权重指令微调大型语言模型上评估提示排名稳定性:Mistral-7B-Instruct-v0.3(Mistral)\[1 (https://arxiv.org/html/2606.24381#bib.bib1)\], Phi-3-mini-4k-instruct(Phi)\[6 (https://arxiv.org/html/2606.24381#bib.bib2)\], 和 Qwen2.5-7B-Instruct(Qwen)\[7 (https://arxiv.org/html/2606.24381#bib.bib3)\].

Mistral-7B-Instruct-v0.3 是一个70亿参数的指令微调模型,专为强大的通用推理和指令遵循而设计。

Phi-3-mini-4k-instruct 是一个紧凑型指令微调模型,在一系列推理和知识任务上具有竞争力。

Qwen2.5-7B-Instruct 是一个70亿规模的指令微调模型,展示了强大的多语言和通用知识能力。

选择这些模型旨在覆盖多样的训练范式和能力,同时保持可比的模型大小,使我们能够隔离评估变异性对提示排名稳定性的影响。

#### 4.1.2任务

我们在两个具有自动评估的基准任务上进行评估。GSM8K 需要多步数值推理,对累积错误敏感。MMLU 是一个多学科多选题问答基准,涵盖广泛的主题。这些任务在结构和难度上存在显著差异,使我们能够检查任务相关的稳定性效应。

#### 4.1.3提示

对于每个任务,我们构建一个固定的20个候选提示集。这些提示在指令措辞、推理指导和输出约束方面有所不同,同时针对相同的底层任务。所有提示在每次评估运行中在相同条件下进行评估。提示池由作者手动构建,以代表提示工程中常用的不同指令风格、推理线索和输出约束。

### 4.2结果

在本节中,我们从三个互补的角度分析提示排名稳定性:(1)全局排序一致性,(2)表现最佳提示的决策级一致性,以及(3)评估变异性下提示选择的鲁棒性。特别是,表1 (https://arxiv.org/html/2606.24381#S4.T1)报告了量化评估条件对之间一致性的成对一致性指标,而表2 (https://arxiv.org/html/2606.24381#S4.T2)报告了量化与所有条件下聚合的众数参考排序一致性的全局一致性指标。

表1:不同模型(Mistral、Phi和Qwen)下的排名稳定性。指标表示在npairs=10个种子对上计算得到的均值±标准差。

#### 4.2.1评估变异性下的排名稳定性

表1 (https://arxiv.org/html/2606.24381#S4.T1)报告了随机种子间的排名稳定性。在不同模型上,小评估提示排名表现出

相似文章

面向比较图的可靠LLM评估的提示扰动

arXiv cs.CL

提出了一种提示扰动框架,该框架生成扰动的提示变体,通过图级一致性检查过滤掉结构不一致的比较模式,然后应用标准排名方法产生更可靠的LLM排名。

面向可靠LLM判断的边际自适应置信度排序

arXiv cs.LG

本文提出了一种针对LLM作为评判系统的基于边际的置信度排序方法,通过学习专用估计器来确保置信度与人类分歧风险之间的单调性,具有泛化保证,并在多个数据集上提高了排序准确性。

谁在翻转?自模型与跨模型反论点揭示LLM答案的不稳定性

Hugging Face Daily Papers

本文引入了一种受控协议,通过用合理的反论点挑战正确答案来评估大型语言模型的答案稳定性,揭示了不同模型之间翻转率的巨大差异,而仅凭准确率指标无法捕捉这些差异。作者发布了该协议、挑战记录以及精心策划的MaxFlip挑战集,以支持稳定性评估。

超越静态排行榜:LLM智能体评估的预测有效性

Hugging Face Daily Papers

本文认为,针对LLM智能体基准测试的聚合得分排行榜未能捕捉到与部署相关的维度,并且表现出排名不稳定性。文章提出根据预测有效性(即样本内排名与样本外排名之间的相关性)来对配置进行排序,并引入了一个十二层级的测量体系以及可证伪的分布外准则。