当重排序适得其反：基于不确定性的少样本重排序门控方法

arXiv cs.CL 2026/07/01 04:00 论文

few-shot reranking uncertainty gating llm in-context-learning efficiency

摘要

本文挑战了重排序总是能提升少样本选择性能的假设，提出了一种无需训练的门控重排序方法，该方法利用模型不确定性来决定何时进行重排序，从而将计算成本降低15%至80%，同时略微提升性能。

arXiv:2606.31087v1 公告类型: 新摘要: 少样本选择通常假设对检索到的样例进行重排序总能提升性能。我们通过识别昂贵的重排序步骤实际上可能降低性能来挑战这一观点。相反，我们提出了\emph{无需训练的门控重排序}，该方法基于模型的不确定性来决定是否对少样本样例进行重排序。在覆盖7个NLU数据集和9个机器翻译领域-语言组合的8个LLM上的大量实验表明，我们的方法将计算成本降低15\%-80\%，同时平均性能提升高达2\%。这些发现表明，更高的计算成本并不保证更好的性能，并且重排序仅在对高不确定性实例进行时最有益。

查看原文

查看缓存全文

缓存时间: 2026/07/01 05:32

# 基于不确定性的少样本排序门控机制
来源：https://arxiv.org/html/2606.31087
Orian Dabod1， Amir DN Cohen2， Gabriel Stanovsky1

1耶路撒冷希伯来大学，2OriginAI / 以色列拉马特甘 orian\.dabod@mail\.huji\.ac\.il

###### 摘要

少样本选择通常假设对检索到的示例进行排序总能提升性能。我们挑战了这一观点，指出昂贵的排序步骤实际上可能会导致性能下降。为此，我们提出*无训练的门控排序*，它根据模型的不确定性来决定是否对少样本示例进行排序。在8个LLM上的大量实验，涵盖7个NLU数据集和9种MT领域-语言组合，表明我们的方法在将平均性能提升高达2%的同时，将计算成本降低了15%-80%。这些发现表明，更高的计算成本并不能保证更好的性能，并且排序仅在对高不确定性实例进行目标性应用时才最有益。

当排序有害时：用于少样本排序的基于不确定性的门控机制

Orian Dabod1， Amir DN Cohen2， Gabriel Stanovsky1
1耶路撒冷希伯来大学，2OriginAI / 以色列拉马特甘
orian\.dabod@mail\.huji\.ac\.il

## 1 引言

近期研究发现，自适应少样本选择可以提高LLM在上下文学习任务上的性能(Agrawal et al., 2023 (https://arxiv.org/html/2606.31087#bib.bib37)；Chitale et al., 2024 (https://arxiv.org/html/2606.31087#bib.bib32)；Liu et al., 2022 (https://arxiv.org/html/2606.31087#bib.bib49))。特别是，有几项工作采用了“检索-然后-排序”的方法，获取一个广泛的候选池，并使用训练过的交叉编码器Li et al. (2023 (https://arxiv.org/html/2606.31087#bib.bib43))；Wang et al. (2024b (https://arxiv.org/html/2606.31087#bib.bib42))；Rubin et al. (2022 (https://arxiv.org/html/2606.31087#bib.bib50)) 或无训练评分器为特定的推理样本选择示例Wu et al. (2023 (https://arxiv.org/html/2606.31087#bib.bib51))；Peng et al. (2024 (https://arxiv.org/html/2606.31087#bib.bib9))。然而，使用重复的LLM调用进行排序会增加计算成本，总的Token消耗在MT上可增加13.4倍，在NLU上可增加29.5倍。^1^1计算方法：按任务计算，所有模型和数据集的Token总和。

图1：机器翻译（MT，以BLEU衡量）和自然语言理解（NLU）任务中，通过选择性排序实现的相对性能影响与计算Token节省的对比。大多数模型（3B–70B）表现出性能提升，尽管最优节省窗口从MT的15-50%转移到大多数NLU模型的大约50-80%。

为了解决这些问题，我们提出*无训练的门控排序*，这是一种简单而有效的方法，它利用LLM初始生成结果的困惑度，仅在模型不确定时才对示例进行排序。我们并非对所有实例都进行排序，而是仅当输入的困惑度超过预定义的阈值时才应用排序步骤。

我们的方法在提高效率的同时，在各种模型和数据集上匹配或略微超越了性能。图1 (https://arxiv.org/html/2606.31087#S1.F1) 显示，调整排序的困惑度阈值可以节省15%-80%的计算量，同时保持或超过基线性能。我们的手动分析证实，排序对困难实例有明显提升，但对简单实例应用时可能会降低性能。总体而言，我们的方法在从3B到70B参数的8个模型上，涵盖了9种语言对和专门领域的组合以及7个NLU数据集，提供了一种资源与性能之间的便捷权衡。^2^2代码和实验数据在补充材料中供审查，并在接收后将公开提供。

## 2 基于困惑度的少样本示例排序

我们提出了一种简单的方法，根据模型内在的不确定性自适应地分配计算资源来选择少样本示例。

#### 形式化定义。

给定一个LLM M、一个输入x以及一个由候选示例组成的大型池C = ((x_1, y_1)， ..., (x_n, y_n))，每个示例包含输入和对应的标准标签，根据它们与x的相关性排序。我们寻找一个函数：

T(M, x, C) ↦ {c_1， ..., c_k | c_i ∈ C} (1)

即，根据x从池中选择k个演示样本。

#### 方法。

我们首先在不进行排序的情况下生成一个预测ŷ = M(x, c_1， ..., c_k)，并使用它来计算一个归一化的不确定性分数U ∈ [0,1]。该分数源自生成结果的逆困惑度：

U(M, x, C) = 1 - PPL_M(ŷ ∣ x, c_1， ..., c_k)^(-1) (2)

其中，PPL计算ŷ在给定x和前k个示例条件下的条件困惑度。U的取值范围是[0,1]，值越大表明模型对其自身的预测越不确定。

然后，我们基于预定义的不确定性阈值τ定义我们的示例选择函数T：

T(M, x, C) = { ((x_1, y_1)， ...(x_k, y_k)) U ≤ τ， rerank(M, x, C) U > τ } (3)

其中rerank被定义为条件熵排序Peng et al. (2024 (https://arxiv.org/html/2606.31087#bib.bib9))：

rerank(M, x, C) = Top-k_{(x_i, y_i) ∈ C} ( -PPL_M(x ∣ (x_i, y_i)) ) (4)

在实践中，我们校准阈值τ以在开发集上最大化性能。在校准阶段，我们应用窗口大小为5的移动平均来平滑局部方差。

全局（全部）| 小模型 | 更大模型
--- | --- | ---
方法 | 性能↑ | 节省 % | 性能↑ | 节省 % | 性能↑ | 节省 %
**机器翻译 (BLEU / COMET)**
不排序 | 37.09 / 81.05 | 100.0 | 33.37 / 79.46 | 100.0 | 38.33 / 81.57 | 100.0
完全排序 | 38.32 / 81.37 | 0.0 | 34.77 / 79.89 | 0.0 | 39.51 / 81.86 | 0.0
门控 (开发集校准) | 38.42† / 81.39 | 20.86 | 34.95† / 79.94 | 20.52 | 39.58† / 81.88 | 20.98
门控 (测试集校准) | 38.69† / 81.43 | 17.42 | 35.19† / 79.98 | 19.22 | 39.85† / 81.92 | 16.82
**自然语言理解 (准确率)**
不排序 | 79.88 | 100.0 | 77.16 | 100.0 | 80.78 | 100.0
完全排序 | 80.73 | 0.0 | 78.45 | 0.0 | 81.50 | 0.0
门控 (开发集校准) | 80.81 | 54.3 | 78.60 | 50.2 | 81.55 | 55.6
门控 (测试集校准) | 81.41† | 47.16 | 79.30† | 46.69 | 82.11† | 47.32

表1：跨任务和模型大小的性能总结。性能列显示MT的BLEU/COMET和NLU的准确率。**粗体**表示行的最大值；<u>下划线</u>值超过了完全排序性能。门控 (开发集校准) 使用开发集τ，而门控 (测试集校准) 使用测试集τ。†表示相对于不排序有统计显著性的提升 (p < 0.05)。为了透明性提供了精确的p值。

## 3 评估

### 3.1 实验设置

下面列出关键的实验细节，更多细节见附录。

#### 任务和模型。

我们在8个参数范围从3B到70B的LLM上评估我们的方法，并与完全排序基线Peng et al. (2024 (https://arxiv.org/html/2606.31087#bib.bib9))进行比较，评估在自然语言理解（NLU）和机器翻译（MT）任务上的性能。具体来说，我们采用了Peng et al. (2024 (https://arxiv.org/html/2606.31087#bib.bib9)) 使用的NLU基准：SST-2， SST-5 Socher et al. (2013 (https://arxiv.org/html/2606.31087#bib.bib45))， CR， AgNews， Subj Wang et al. (2019 (https://arxiv.org/html/2606.31087#bib.bib46))， MNLI Williams et al. (2018 (https://arxiv.org/html/2606.31087#bib.bib47))， 和 QNLI Wang et al. (2019 (https://arxiv.org/html/2606.31087#bib.bib46))。对于MT，我们使用三个特定领域的语料库Koehn and Knowles (2017 (https://arxiv.org/html/2606.31087#bib.bib26))：EMEA (医学) Tiedemann (2012 (https://arxiv.org/html/2606.31087#bib.bib19))， JRC-Acquis (法律) Steinberger et al. (2006 (https://arxiv.org/html/2606.31087#bib.bib20))， 和 KDE (技术) Tiedemann (2012 (https://arxiv.org/html/2606.31087#bib.bib19))。我们考虑了英语与西班牙语、葡萄牙语和德语之间的两个翻译方向，每个领域产生六个方向。我们为每个领域-方向组合采样了1，000个平行句对，分为200个用于阈值调整的开发示例和800个用于评估的测试示例。所有结果平均在20个随机分割上，以保证统计稳健性。

#### 基线。

基线包括基于检索的k-样本选择，使用BM25 Robertson and Zaragoza (2009 (https://arxiv.org/html/2606.31087#bib.bib25)) 和基于e5-base-v2或多语言e5-base（取决于语言）的稠密检索Wang et al. (2022 (https://arxiv.org/html/2606.31087#bib.bib24), 2024a (https://arxiv.org/html/2606.31087#bib.bib27))，以及总是排序 (τ=0，对每个输入进行O(N)排序)。我们还将门控信号与简单的输入代理（例如，源长度、源熵）和一个不确定性代理（Token级logit差距 - TARG）Wang et al. (2025 (https://arxiv.org/html/2606.31087#bib.bib7)) 进行了比较。

#### 超参数和指标。

我们固定k=5个示例和候选池大小N=100，报告MT质量使用BLEU Papineni et al. (2002 (https://arxiv.org/html/2606.31087#bib.bib21)) 和COMET (wmt22-comet-da) Rei et al. (2022 (https://arxiv.org/html/2606.31087#bib.bib22))，以及NLU质量使用准确率。根据推理计算的缩放定律Kaplan et al. (2020 (https://arxiv.org/html/2606.31087#bib.bib41)) 和标准的开源模型服务指标Griggs et al. (2024 (https://arxiv.org/html/2606.31087#bib.bib48))，我们使用所有处理阶段（(a) 初始草稿生成，(b) 触发排序后的二次生成，(c) 所有对于N=100个候选的条件困惑度计算）中输入和输出Token的未加权总和来评估效率。我们报告相对于总是排序基线的相对节省。

### 3.2 结果

我们的实验得出了几个有趣的观察。

#### 总是排序并非MT和NLU中少样本选择的最优策略。

对每个查询应用排序效率低下，且对维持质量并非必要。表1 (https://arxiv.org/html/2606.31087#S2.T1) 证明，我们实用的经验门控方法平均计算成本分别降低了20.86%（MT）和54.3%（NLU），同时实现了与完全排序相当的性能（平均BLEU 38.42 vs 38.32；平均准确率 80.81 vs 80.73）。此外，使用事后测试集校准的门控阈值实现了相当的成本降低（17.42% / 47.16%），同时略微提升了完全排序的性能（平均BLEU +0.37，平均准确率 +0.68），这表明存在改进空间。

#### 通过不确定性进行选择性排序可以提升性能，尤其是对于较小的模型。

跨模型规模，选择性排序保持与完全排序基线的强烈竞争力。表1 (https://arxiv.org/html/2606.31087#S2.T1) 强调，这种动态对于小模型最为明显：完全排序性能（平均BLEU 34.77 / 平均准确率 78.45）在我们的事后门控（测试集校准）（平均BLEU +0.42 / 平均准确率 +0.85）和实用门控（开发集校准）结果（平均BLEU +0.18 / 平均准确率 +0.15）上略有提升，同时分别产生了19.22% / 46.69%和20.52% / 50.2%的平均Token节省。在最优门控（测试集校准）设置中，更大的模型显示出较小但正向的边际（平均BLEU +0.34 / 平均准确率 +0.61），而门控（开发集校准）则产生了强大的节省（20.98%和55.6%）和可比的性能（平均BLEU +0.07 / 平均准确率 +0.05），表明即使在规模上，选择性应用仍然是一个高效的替代方案。

#### 通过不确定性进行选择性排序提供了一种有效的方法，在最小化对任务性能影响的同时优化性能。

如图1 (https://arxiv.org/html/2606.31087#S1.F1) 所示，调整门控阈值提供了一种平衡成本和质量的方法。这种权衡依赖于LLM初始不确定性与排序器效用之间的相关性。这使我们能够将平均Token消耗量减少15%到80%。

#### 不确定性门控优于其他门控方法。

替代的门控信号未能实现相同的质量和效率平衡。如表2 (https://arxiv.org/html/2606.31087#S3.T2) 所示，我们将我们的方法与用于相同门控目的的几种其他基线指标进行了比较：输入文本的困惑度（源熵）、词数（词长），以及TARG (Wang et al., 2025 (https://arxiv.org/html/2606.31087#bib.bib7))。

| 策略 | 任务 | 分数 | 节省 |
| :--- | :--- | :--- | :--- |
| 不排序 | MT | 37.09 | 100.0% |
| | NLU | 79.88 | 100.0% |
| 完全排序 | MT | 38.32 | 0.0% |
| | NLU | 80.73 | 0.0% |
| TARG | MT | 38.15 | 8.6% |
| | NLU | 80.46 | 35.6% |
| 源熵 | MT | 38.19 | 11.8% |
| | NLU | 80.46 | 42.2% |
| 词长 | MT | 38.11 | 17.1% |
| | NLU | 80.37 | 38.1% |
| **不确定性 (我们的)** | **MT** | **38.42** | **20.9%** |
| | **NLU** | **80.81** | **54.3%** |

表2：MT和NLU所有模型平均门控指标的比较。每种策略的阈值 (τ) 在开发集上校准，并在测试集上评估。不确定性实现了最佳的性能-效率平衡。

## 4 手动定性分析

| 错误原因 | MT | NLU | 总体 |
| :--- | :--- | :--- | :--- |
| **排序错误** | | | |
| 结构/模板 | 2 | 12 | 14 |
| 高方差 | 4 | 7 | 11 |
| 其他 | 5 | 0 | 5 |
| **不排序错误** | | | |
| 领域/术语偏移 | 15 | 8 | 23 |
| 高方差 | 9 | 9 | 18 |
| 关系映射 | 0 | 9 | 9 |
| BLEU误导 | 4 | 0 | 4 |
| 其他 | 2 | 4 | 6 |

表3：当排序相比于基线降低性能时，以及当排序提升翻译和NLU任务性能时，错误原因的分布。

为了理解驱动基于不确定性门控的性能权衡的机制，我们对具有最高和最低不确定性分数的实例进行了手动标注和分析。具体来说，我们检查了机器翻译（MT）和自然语言理解（NLU）任务中前30个实例（最高不确定性，排序有益）和后30个实例（最低不确定性，排序降低性能）中的一部分，以诊断少样本示例如何影响模型的生成。见表3 (https://arxiv.org/html/2606.31087#S4.T3) 和附录表7 (https://arxiv.org/html/2606.31087#S7.T7)。

#### 高不确定性揭示了薄弱的基线检索。

在高不确定性下，基线经常检索到误导性的示例，例如MT中的跨领域示例（15个实例）或NLU中遗漏的关系映射（9个实例）。排序器通过正确识别任务的结构逻辑和领域约束来解决这些问题。通过成功地检索强制低方差、专业术语或精确关系（例如，将社区映射到行政区）的示例，排序有效地约束了模型并减少了幻觉。

#### 低不确定性表明基线检索强。

当重排序适得其反：基于不确定性的少样本重排序门控方法

相似文章

主动学习作为高效的PRP重排序器

作为高效PRP重排序器的主动学习器

从自适应列表排序角度重新审视自适应检索增强生成的必要性

MemReranker：面向智能体记忆检索的推理感知重排序

基于智能体评估与稳定性感知排序的多模态大语言模型鲁棒检查点选择

提交意见反馈