作为高效PRP重排序器的主动学习器

arXiv cs.LG 2026/05/15 04:00 论文

active-learning reranking llm pairwise-ranking rag information-retrieval preference-elicitation

摘要

提出将成对排名提示（PRP）重排序重新构建为从噪声成对比较中进行主动学习，在预算约束下提高每次调用的NDCG@10，并引入一种随机方向预言机，减少每对所需的LLM调用次数。

arXiv:2605.14236v1 公告类型：新摘要：成对排名提示（PRP）从LLM中获取成对偏好判断，然后通常通过经典排序算法将这些判断聚合为排名。然而，判断存在噪声、对顺序敏感，有时甚至不具有传递性，因此排序假设与实际情况不符。由于排序旨在恢复完整排列，截断排序以满足调用预算无法产生可靠的top-K。因此，我们将PRP重排序重新构建为从噪声成对比较中进行主动学习，并表明主动排序器可以作为即插即用的替代方案，在调用受限场景下提高每次调用的NDCG@10。我们的噪声鲁棒框架还引入了一种随机方向预言机，每对仅使用一次LLM调用。这种方法将系统性的位置偏差转化为零均值噪声，从而无需双向调用即可实现无偏的聚合排名。

查看原文

查看缓存全文

缓存时间: 2026/05/15 06:28

# 主动学习者作为高效的PRP重排序器
来源：https://arxiv.org/html/2605.14236
Jeremías Figueiredo Paschmann, Juan Kaplan, Francisco Nattero, Santiago Mauricio Barron Bucolo, Juan Wisznia, Luciano del Corro \{jfigueiredopaschmann,jkaplan,fnattero,sbarronbucolo,jwisznia,delcorrol\}@udesa\.edu\.ar ELIAS实验室，工程系，圣安德烈斯大学

###### 摘要

成对排序提示（PRP）从LLM中获取成对偏好判断，然后通过经典排序算法将其聚合成一个排序。然而，判断结果存在噪声、对顺序敏感，且有时不具传递性，因此排序假设与实际情况不符。由于排序的目标是恢复完整的排列，为了满足调用预算而截断它并不能产生可靠的前K个结果。因此，我们将PRP重排序重新定义为从噪声成对比较中进行主动学习，并表明主动排序器是即插即用的替代品，能够在调用受限的场景下提高每次调用获得的NDCG@10。我们的噪声鲁棒框架还引入了一个随机方向预言器，每对只需一次LLM调用。这种方法将系统性位置偏差转化为零均值噪声，从而能够在不消耗双向调用成本的情况下实现无偏聚合排序。¹¹代码参见https://github.com/jerecoder/IReranker

主动学习者作为高效的PRP重排序器

## 1 引言

LLM越来越多地被用于检索增强生成（RAG）中的重排序：给定一个查询和一个候选列表，重排序器将LLM的成对偏好聚合成一个有序的前K个子集，这对下游答案质量有显著影响（Zhou et al., 2025 (https://arxiv.org/html/2605.14236#bib.bib19); Zhu et al., 2023 (https://arxiv.org/html/2605.14236#bib.bib20); Dong et al., 2024 (https://arxiv.org/html/2605.14236#bib.bib3); Sun et al., 2025 (https://arxiv.org/html/2605.14236#bib.bib13)）。主要的云服务提供商现在将重排序作为托管服务提供，使得调用效率成为首要关注点：LLM调用主导成本和延迟，目标是获得排序的前缀，而不是完整列表。

通常，PRP与经典排序算法结合使用（Qin et al., 2024 (https://arxiv.org/html/2605.14236#bib.bib9); Sun et al., 2023 (https://arxiv.org/html/2605.14236#bib.bib14)）：PRP提供带噪声的偏好判断，而排序决定要查询哪些对。这在结构上是不匹配的：排序假设传递性比较，而LLM判断是随机的，可能违反传递性。因此，排序浪费预算来优化一个不稳定的排列，而不是改进前K个结果。

LLM的顺序效应进一步复杂化了问题，即交换文档呈现顺序可能会翻转评判者对文档的选择（Shi et al., 2024 (https://arxiv.org/html/2605.14236#bib.bib12); Yin et al., 2025 (https://arxiv.org/html/2605.14236#bib.bib18); Jeong et al., 2025 (https://arxiv.org/html/2605.14236#bib.bib6)）。标准的PRP以每对2次调用的代价双向查询提示方向（Qin et al., 2024 (https://arxiv.org/html/2605.14236#bib.bib9); Wu et al., 2025 (https://arxiv.org/html/2605.14236#bib.bib17)），但偏好循环仍然存在。

因此，我们将PRP重排序重新定义为从噪声成对比较中进行主动学习，自适应地选择要查询哪些对，以在预算内最大化前K个结果的质量。这联系到了在随机反馈下进行最优K个识别的研究（Mohajer et al., 2017 (https://arxiv.org/html/2605.14236#bib.bib8); Heckel et al., 2016 (https://arxiv.org/html/2605.14236#bib.bib4); Shah and Wainwright, 2018 (https://arxiv.org/html/2605.14236#bib.bib11); Ren et al., 2020 (https://arxiv.org/html/2605.14236#bib.bib10); Luo et al., 2024 (https://arxiv.org/html/2605.14236#bib.bib7)）。我们还评估了一种更廉价的预言器：随机化提示方向产生一个单次调用估计，将位置偏差转化为零均值噪声。

我们研究两个问题：(Q1) *主动排序在固定预算下（NDCG@10）是否优于最先进的PRP重排序器？* (Q2) *随机方向提示是否比仅通过调度能更好地改善NDCG@10-成本权衡？* 在我们的实验中，表现最佳的主动调度器是Mohajer等人（2017 (https://arxiv.org/html/2605.14236#bib.bib8)）的算法，我们称其为**Mohajer**：它自适应地选择要查询哪些对，将比较集中在前K个边界的附近。Q1：在TREC DL2019/2020上使用Flan-T5-XL，在B=300次调用下，Mohajer在相同的双向预言器下以66.1比56.4胜出最佳排序基线**+9.7 NDCG@10**，且优势在整个调用受限场景（B=200–450）中保持。Q2：随机方向提示对两种策略都有改进，但方式不同。对于PRP重排序器，它在固定预算下提高了质量：BubbleSort在B=300时获得**+5.5 NDCG@10**（56.4→62.0），仅仅是通过将每对调用成本减半并覆盖更多比较。对于主动排序器，效果更为显著：比较两种预言器下的Mohajer，随机方向预言器将质量上限从66.96提高到68.0，同时达到该上限所需的调用次数从B=450减少到B=250，减少了44%。在BEIR风格任务中，主动排序器达到与QuickSort相当的NDCG@10（Flan-T5-XL平均56.8），而调用次数减少了多达7倍。

## 2 相关工作

成对LLM重排序。PRP从LLM中获取成对偏好并将其聚合成一个排序（Sun et al., 2023 (https://arxiv.org/html/2605.14236#bib.bib14); Qin et al., 2024 (https://arxiv.org/html/2605.14236#bib.bib9)），通常通过假设传递性并针对无预算的完全排序的排序算法来实现。

顺序效应。LLM比较对方向敏感（Shi et al., 2024 (https://arxiv.org/html/2605.14236#bib.bib12); Yin et al., 2025 (https://arxiv.org/html/2605.14236#bib.bib18); Jeong et al., 2025 (https://arxiv.org/html/2605.14236#bib.bib6)），因此PRP通常双向查询两种提示顺序，成本翻倍（Qin et al., 2024 (https://arxiv.org/html/2605.14236#bib.bib9); Wu et al., 2025 (https://arxiv.org/html/2605.14236#bib.bib17)）。我们的随机方向预言器每对仅调用一次，产生对方向偏差鲁棒的聚合结果。

超越排序的PRP。PRP-Graph使用自适应配对（Luo et al., 2024 (https://arxiv.org/html/2605.14236#bib.bib7)），锦标赛设计结构化比较（Chen et al., 2024 (https://arxiv.org/html/2605.14236#bib.bib2)）。我们将重排序重新定义为从噪声反馈中进行主动学习，并评估主动前K个识别器作为排序的即插即用替代品（Heckel et al., 2016 (https://arxiv.org/html/2605.14236#bib.bib4); Shah and Wainwright, 2018 (https://arxiv.org/html/2605.14236#bib.bib11); Ren et al., 2020 (https://arxiv.org/html/2605.14236#bib.bib10); Mohajer et al., 2017 (https://arxiv.org/html/2605.14236#bib.bib8)），使用与PRP-Graph精神一致的自适应配对，但基于噪声容忍的主动排序理论。

互补范式。集合和列表方法（Zhuang et al., 2024 (https://arxiv.org/html/2605.14236#bib.bib21); Huang et al., 2025 (https://arxiv.org/html/2605.14236#bib.bib5); Wang et al., 2025 (https://arxiv.org/html/2605.14236#bib.bib15)）通过每次调用处理多个文档来降低成本，改变了提示原语本身；成对和列表调用在令牌成本、上下文长度和偏差方面有所不同，使得不同范式之间的原始调用次数不可比。我们的目标是改进*在成对PRP内部的*调度，而成对PRP因其细粒度信号和受限输出的可靠性而被广泛部署（Qin et al., 2024 (https://arxiv.org/html/2605.14236#bib.bib9)）；这两个方向是互补的。

表1：在TREC DL 2019和DL 2020上使用Flan-T5-XL在不同LLM调用预算下的平均NDCG@10（%）。粗体=每列最佳；下划线=每列次佳（在每个预言器块内）。†表示方法完成所需的最小预算；更大预算下的结果被淡化处理。**随机方向**行报告了均值±95%自助法置信区间半宽度（基于8个预言器种子，10k次重采样）；**双向**行由于结果是确定性的，因此省略置信区间。
## 3 基于噪声比较的重排序

给定一个查询qq，第一阶段的检索器返回NN个候选D\(q\)=\{d1,...,dN\}\mathcal{D}(q)=\{d_{1},\dots,d_{N}\}（N≥KN\geq K）。重排序器输出一个有序的前KK个列表RK\(q\)=\(r1,...,rK\)\mathcal{R}_{K}(q)=(r_{1},\dots,r_{K})，其中rl∈D\(q\)r_{\ell}\in\mathcal{D}(q)。

成对预言器接口。算法仅通过带噪声的成对结果与候选交互：对于每个无序对\{i,j\}\{i,j\}，一次调用返回Xij\(q\)∈\{0,1\}X_{ij}(q)\in\{0,1\}，其中Xij\(q\)=1X_{ij}(q)=1表示did_i比djd_j更受偏好（被认为与qq更相关），即di≻djd_i\succ d_j，获胜概率为pij\(q\):=Pr⁡[Xij\(q\)=1]p_{ij}(q):=\Pr[X_{ij}(q)=1]。我们仅假设*成对一致性*，即对于i≠ji\neq j，pij\(q\)=1−pji\(q\)p_{ij}(q)=1-p_{ji}(q)（通过预言器设计强制执行）。

以调用为中心的成本。我们计算LLM推理调用次数：双向每对两次调用，随机方向每对一次调用。由于调用主导PRP成本（Wisznia et al., 2025 (https://arxiv.org/html/2605.14236#bib.bib16)），这改变了哪些策略是最优的。

### 预言器

令LLM\(da,db\)∈\{1,0\}\text{LLM}(d_{a},d_{b})\in\{1,0\}表示一次调用的结果，其中11表示第一个文档更受偏好。

双向（两次调用）。标准PRP预言器（Qin et al., 2024 (https://arxiv.org/html/2605.14236#bib.bib9)）：Vij=1V_{ij}=1当且仅当LLM\(di,dj\)=1∧LLM\(dj,di\)=0\text{LLM}(d_{i},d_{j})=1\wedge\text{LLM}(d_{j},d_{i})=0，否则Vij=0V_{ij}=0。

随机方向（一次调用）。我们对输入顺序进行随机化：Vij=LLM\(di,dj\)V_{ij}=\text{LLM}(d_{i},d_{j})的概率为1/21/2，否则Vij=1−LLM\(dj,di\)V_{ij}=1-\text{LLM}(d_{j},d_{i})。这确保了互惠性在期望上成立，即Pr⁡[Vij=1]=1−Pr⁡[Vji=1]\Pr[V_{ij}=1]=1-\Pr[V_{ji}=1]：每次单独的调用可能存在位置偏差，但在随机方向上取平均将系统性偏差转化为零均值噪声，保留了成对一致性（证明见附录E (https://arxiv.org/html/2605.14236#A5)）。

## 4 为调用预算受限的前KK重排序选择主动排序器

排序将每次比较视为同等信息量。在预算下，这种均匀性是浪费的。主动排序器将比较集中在那些相对顺序仍不确定的候选上。这是我们性能提升的关键机制：为同一个比较器提供更好的调度，仅需轻量级的簿记，无需模型训练或前向传播。主导成本仍然是LLM调用本身。

我们的目标是通过§3 (https://arxiv.org/html/2605.14236#S3)的成对预言器接口，在严格的调用预算BB下获得高质量的前KK个前缀。我们根据三个标准选择算法：(C1) *前KK个目标*：针对最优KK个/前缀识别；(C2) *噪声容忍度*：在成对一致性下良好定义，无需假设全局顺序；(C3) *任意时刻行为*：随着比较的累积，输出有竞争力的前KK个前缀。

我们专注于比较调度带来的收益，并评估两种互补的主动排序器：基于锦标赛的与基于锚点的。假设传递性或针对完整全局排序的方法被排除。

锦标赛/堆提取。Mohajer等人（2017 (https://arxiv.org/html/2605.14236#bib.bib8)）通过带堆提取的锦标赛识别最优KK个，将比较集中在可能的竞争者上（C1–C3）。我们每场比赛使用一次预言器调用。

基于锚点的可能近似正确（PAC）最优KK个。Agarwal等人（2022 (https://arxiv.org/html/2605.14236#bib.bib1)）通过锚点和赢家集识别最优KK个（C1, C3）。我们从零成本的BM25先验获取锚点，并将比较限制在前K×mK\times m（m=3m=3）的BM25前缀中，保持低调用次数。

有序输出。PAC返回一个无序的最优KK个集合，因此我们在最终的前KK个上应用BubbleSort。Mohajer输出有序前缀；BubbleSort的优化是可选的且影响微小。任何添加的比较都计入预算。

排序器|Covid|Robust04|Touche|SciFact|DBPedia|DL19|DL20|平均NDCG@10|平均调用次数/任务
---|---|---|---|---|---|---|---|---|---
BM25|59.5|40.7|44.2|67.9|31.9|50.6|48.0|49.0|-
Flan-T5-L
 BubbleSort@10 (双向)|70.9|44.2|44.7|69.2|41.7|63.4|58.6|56.1|679
 HeapSort (双向)|76.0|40.4|33.2|67.5|41.4|65.0|62.6|55.2|1230
 QuickSort (双向)|76.2|41.0|27.4|60.1|41.1|64.5|58.5|52.7|1954
 PAC+Bubble (双向)|69.3|44.0|41.4|68.5|39.2|61.7|57.2|54.5|323
 PAC+Bubble (随机方向)|70.2|41.0|38.2|67.0|38.1|60.0|57.3|53.1|184
 Mohajer+Bubble (双向)|76.5|37.8|26.7|54.9|40.0|63.0|56.4|50.7|423
 Mohajer+Bubble (随机方向)|76.9|37.8|25.7|58.8|40.0|61.8|58.8|51.4|354
 Mohajer (双向)|76.5|37.5|26.4|53.8|39.7|62.6|56.1|50.4|399
 Mohajer (随机方向)|76.2|36.2|24.4|57.5|39.1|60.6|57.2|50.2|232
Flan-T5-XL
 BubbleSort@10 (双向)|74.8|55.4|42.8|71.3|43.1|68.4|67.0|60.4|941
 HeapSort (双向)|78.2|54.9|28.4|70.6|41.6|70.6|68.9|59.0|1409
 QuickSort (双向)|77.2|53.7|25.8|61.4|41.6|70.4|67.2|56.8|1669
 PAC+Bubble (双向)|71.3|48.9|41.1|70.4|39.1|62.6|58.6|56.0|332
 PAC+Bubble (随机方向)|71.3|48.1|38.8|68.6|38.8|61.1|58.5|55.0|184
 Mohajer+Bubble (双向)|76.0|53.7|25.7|61.9|40.9|66.6|67.5|56.0|427
 Mohajer+Bubble (随机方向)|78.5|54.0|27.9|63.5|41.2|69.5|66.3|57.3|345
 Mohajer (双向)|76.0|53.6|25.4|61.2|40.7|66.6|67.3|55.8|399
 Mohajer (随机方向)|77.6|53.2|27.2|62.8|40.4|68.7|67.6|56.8|232

表2：端到端BEIR风格NDCG@10（%）及平均成对LLM调用次数。粗体=每列最佳；下划线=每列次佳（在每个模型块内）。
## 5 结果

### 设置。

我们将前N=100个BM25候选重排序为有序的前K个列表（K=10），并报告在BEIR风格任务（表2 (https://arxiv.org/html/2605.14236#S4.T2)）和TREC DL2019/2020上的NDCG@10，每个方法在B∈\{100,150,...,500\}次LLM调用时截断。成对预言器使用Flan-T5-L/XL，在（i）双向和（ii）随机方向提示下。BubbleSort使用缓存（Wisznia et al., 2025 (https://arxiv.org/html/2605.14236#bib.bib16)）。额外的Qwen结果和代码见附录/代码仓库。

### 主要发现。

表1 (https://arxiv.org/html/2605.14236#S2.T1)报告了TREC DL2019/2020（Flan-T5-XL）上NDCG@10与预算BB的关系（置信区间和自助法检验见附录D (https://arxiv.org/html/2605.14236#A4)）。(i) 在调用受限场景（B≈200–450）中，Mohajer在相同预言器下优于PRP重排序器。(ii) 随机方向压缩了“达到质量的时间”：Mohajer在B=250时达到峰值质量。(iii) 在高预算下，排序逐渐赶上，因为全局优化是有回报的。PAC表现滞后，因为其两阶段设计将预算分配给了多个目标；Mohajer的锦标赛将比较集中在可能的前K个候选上。当BM25先验较强时（例如Touché），PAC受益。

### 双向预言器

低预算：排序更可取。在B∈\{100,150\}时，QuickSort达到≈55.9 NDCG@10，而Mohajer处于预热阶段（30.1）。在预热阈值（N=100, K=10时约为100次调用）以下，排序更可取；超过该阈值，主动排序占主导。

调用受限场景：主动重排序更好。Mohajer从B=200到B=450领先：B=300时，66.09 vs. 56.42（+9.67）；B=350时，66.28 vs. 56.98（+9.30）；B=450时，Mohajer+Bubble 67.02 vs. HeapSort 62.81（+4.21）。成对自助法检验（10k次查询重采样，p<0.05；表A.8 (https://ar

作为高效PRP重排序器的主动学习器

相似文章

主动学习作为高效的PRP重排序器

面向比较图的可靠LLM评估的提示扰动

从自适应列表排序角度重新审视自适应检索增强生成的必要性

PARTREP：学习在仅解码器LLM中重复什么

当重排序适得其反：基于不确定性的少样本重排序门控方法

提交意见反馈