作为高效PRP重排序器的主动学习器
摘要
提出将成对排名提示(PRP)重排序重新构建为从噪声成对比较中进行主动学习,在预算约束下提高每次调用的NDCG@10,并引入一种随机方向预言机,减少每对所需的LLM调用次数。
arXiv:2605.14236v1 公告类型:新
摘要:成对排名提示(PRP)从LLM中获取成对偏好判断,然后通常通过经典排序算法将这些判断聚合为排名。然而,判断存在噪声、对顺序敏感,有时甚至不具有传递性,因此排序假设与实际情况不符。由于排序旨在恢复完整排列,截断排序以满足调用预算无法产生可靠的top-K。因此,我们将PRP重排序重新构建为从噪声成对比较中进行主动学习,并表明主动排序器可以作为即插即用的替代方案,在调用受限场景下提高每次调用的NDCG@10。我们的噪声鲁棒框架还引入了一种随机方向预言机,每对仅使用一次LLM调用。这种方法将系统性的位置偏差转化为零均值噪声,从而无需双向调用即可实现无偏的聚合排名。
查看缓存全文
缓存时间: 2026/05/15 06:28
# 主动学习者作为高效的PRP重排序器
来源:https://arxiv.org/html/2605.14236
Jeremías Figueiredo Paschmann, Juan Kaplan, Francisco Nattero, Santiago Mauricio Barron Bucolo, Juan Wisznia, Luciano del Corro \{jfigueiredopaschmann,jkaplan,fnattero,sbarronbucolo,jwisznia,delcorrol\}@udesa\.edu\.ar ELIAS实验室,工程系,圣安德烈斯大学
###### 摘要
成对排序提示(PRP)从LLM中获取成对偏好判断,然后通过经典排序算法将其聚合成一个排序。然而,判断结果存在噪声、对顺序敏感,且有时不具传递性,因此排序假设与实际情况不符。由于排序的目标是恢复完整的排列,为了满足调用预算而截断它并不能产生可靠的前K个结果。因此,我们将PRP重排序重新定义为从噪声成对比较中进行主动学习,并表明主动排序器是即插即用的替代品,能够在调用受限的场景下提高每次调用获得的NDCG@10。我们的噪声鲁棒框架还引入了一个随机方向预言器,每对只需一次LLM调用。这种方法将系统性位置偏差转化为零均值噪声,从而能够在不消耗双向调用成本的情况下实现无偏聚合排序。¹¹代码参见https://github.com/jerecoder/IReranker
主动学习者作为高效的PRP重排序器
## 1 引言
LLM越来越多地被用于检索增强生成(RAG)中的重排序:给定一个查询和一个候选列表,重排序器将LLM的成对偏好聚合成一个有序的前K个子集,这对下游答案质量有显著影响(Zhou et al., 2025 (https://arxiv.org/html/2605.14236#bib.bib19); Zhu et al., 2023 (https://arxiv.org/html/2605.14236#bib.bib20); Dong et al., 2024 (https://arxiv.org/html/2605.14236#bib.bib3); Sun et al., 2025 (https://arxiv.org/html/2605.14236#bib.bib13))。主要的云服务提供商现在将重排序作为托管服务提供,使得调用效率成为首要关注点:LLM调用主导成本和延迟,目标是获得排序的前缀,而不是完整列表。
通常,PRP与经典排序算法结合使用(Qin et al., 2024 (https://arxiv.org/html/2605.14236#bib.bib9); Sun et al., 2023 (https://arxiv.org/html/2605.14236#bib.bib14)):PRP提供带噪声的偏好判断,而排序决定要查询哪些对。这在结构上是不匹配的:排序假设传递性比较,而LLM判断是随机的,可能违反传递性。因此,排序浪费预算来优化一个不稳定的排列,而不是改进前K个结果。
LLM的顺序效应进一步复杂化了问题,即交换文档呈现顺序可能会翻转评判者对文档的选择(Shi et al., 2024 (https://arxiv.org/html/2605.14236#bib.bib12); Yin et al., 2025 (https://arxiv.org/html/2605.14236#bib.bib18); Jeong et al., 2025 (https://arxiv.org/html/2605.14236#bib.bib6))。标准的PRP以每对2次调用的代价双向查询提示方向(Qin et al., 2024 (https://arxiv.org/html/2605.14236#bib.bib9); Wu et al., 2025 (https://arxiv.org/html/2605.14236#bib.bib17)),但偏好循环仍然存在。
因此,我们将PRP重排序重新定义为从噪声成对比较中进行主动学习,自适应地选择要查询哪些对,以在预算内最大化前K个结果的质量。这联系到了在随机反馈下进行最优K个识别的研究(Mohajer et al., 2017 (https://arxiv.org/html/2605.14236#bib.bib8); Heckel et al., 2016 (https://arxiv.org/html/2605.14236#bib.bib4); Shah and Wainwright, 2018 (https://arxiv.org/html/2605.14236#bib.bib11); Ren et al., 2020 (https://arxiv.org/html/2605.14236#bib.bib10); Luo et al., 2024 (https://arxiv.org/html/2605.14236#bib.bib7))。我们还评估了一种更廉价的预言器:随机化提示方向产生一个单次调用估计,将位置偏差转化为零均值噪声。
我们研究两个问题:(Q1) *主动排序在固定预算下(NDCG@10)是否优于最先进的PRP重排序器?* (Q2) *随机方向提示是否比仅通过调度能更好地改善NDCG@10-成本权衡?* 在我们的实验中,表现最佳的主动调度器是Mohajer等人(2017 (https://arxiv.org/html/2605.14236#bib.bib8))的算法,我们称其为**Mohajer**:它自适应地选择要查询哪些对,将比较集中在前K个边界的附近。Q1:在TREC DL2019/2020上使用Flan-T5-XL,在B=300次调用下,Mohajer在相同的双向预言器下以66.1比56.4胜出最佳排序基线**+9.7 NDCG@10**,且优势在整个调用受限场景(B=200–450)中保持。Q2:随机方向提示对两种策略都有改进,但方式不同。对于PRP重排序器,它在固定预算下提高了质量:BubbleSort在B=300时获得**+5.5 NDCG@10**(56.4→62.0),仅仅是通过将每对调用成本减半并覆盖更多比较。对于主动排序器,效果更为显著:比较两种预言器下的Mohajer,随机方向预言器将质量上限从66.96提高到68.0,同时达到该上限所需的调用次数从B=450减少到B=250,减少了44%。在BEIR风格任务中,主动排序器达到与QuickSort相当的NDCG@10(Flan-T5-XL平均56.8),而调用次数减少了多达7倍。
## 2 相关工作
成对LLM重排序。PRP从LLM中获取成对偏好并将其聚合成一个排序(Sun et al., 2023 (https://arxiv.org/html/2605.14236#bib.bib14); Qin et al., 2024 (https://arxiv.org/html/2605.14236#bib.bib9)),通常通过假设传递性并针对无预算的完全排序的排序算法来实现。
顺序效应。LLM比较对方向敏感(Shi et al., 2024 (https://arxiv.org/html/2605.14236#bib.bib12); Yin et al., 2025 (https://arxiv.org/html/2605.14236#bib.bib18); Jeong et al., 2025 (https://arxiv.org/html/2605.14236#bib.bib6)),因此PRP通常双向查询两种提示顺序,成本翻倍(Qin et al., 2024 (https://arxiv.org/html/2605.14236#bib.bib9); Wu et al., 2025 (https://arxiv.org/html/2605.14236#bib.bib17))。我们的随机方向预言器每对仅调用一次,产生对方向偏差鲁棒的聚合结果。
超越排序的PRP。PRP-Graph使用自适应配对(Luo et al., 2024 (https://arxiv.org/html/2605.14236#bib.bib7)),锦标赛设计结构化比较(Chen et al., 2024 (https://arxiv.org/html/2605.14236#bib.bib2))。我们将重排序重新定义为从噪声反馈中进行主动学习,并评估主动前K个识别器作为排序的即插即用替代品(Heckel et al., 2016 (https://arxiv.org/html/2605.14236#bib.bib4); Shah and Wainwright, 2018 (https://arxiv.org/html/2605.14236#bib.bib11); Ren et al., 2020 (https://arxiv.org/html/2605.14236#bib.bib10); Mohajer et al., 2017 (https://arxiv.org/html/2605.14236#bib.bib8)),使用与PRP-Graph精神一致的自适应配对,但基于噪声容忍的主动排序理论。
互补范式。集合和列表方法(Zhuang et al., 2024 (https://arxiv.org/html/2605.14236#bib.bib21); Huang et al., 2025 (https://arxiv.org/html/2605.14236#bib.bib5); Wang et al., 2025 (https://arxiv.org/html/2605.14236#bib.bib15))通过每次调用处理多个文档来降低成本,改变了提示原语本身;成对和列表调用在令牌成本、上下文长度和偏差方面有所不同,使得不同范式之间的原始调用次数不可比。我们的目标是改进*在成对PRP内部的*调度,而成对PRP因其细粒度信号和受限输出的可靠性而被广泛部署(Qin et al., 2024 (https://arxiv.org/html/2605.14236#bib.bib9));这两个方向是互补的。
表1:在TREC DL 2019和DL 2020上使用Flan-T5-XL在不同LLM调用预算下的平均NDCG@10(%)。粗体=每列最佳;下划线=每列次佳(在每个预言器块内)。†表示方法完成所需的最小预算;更大预算下的结果被淡化处理。**随机方向**行报告了均值±95%自助法置信区间半宽度(基于8个预言器种子,10k次重采样);**双向**行由于结果是确定性的,因此省略置信区间。
## 3 基于噪声比较的重排序
给定一个查询qq,第一阶段的检索器返回NN个候选D\(q\)=\{d1,...,dN\}\mathcal{D}(q)=\{d_{1},\dots,d_{N}\}(N≥KN\geq K)。重排序器输出一个有序的前KK个列表RK\(q\)=\(r1,...,rK\)\mathcal{R}_{K}(q)=(r_{1},\dots,r_{K}),其中rl∈D\(q\)r_{\ell}\in\mathcal{D}(q)。
成对预言器接口。算法仅通过带噪声的成对结果与候选交互:对于每个无序对\{i,j\}\{i,j\},一次调用返回Xij\(q\)∈\{0,1\}X_{ij}(q)\in\{0,1\},其中Xij\(q\)=1X_{ij}(q)=1表示did_i比djd_j更受偏好(被认为与qq更相关),即di≻djd_i\succ d_j,获胜概率为pij\(q\):=Pr[Xij\(q\)=1]p_{ij}(q):=\Pr[X_{ij}(q)=1]。我们仅假设*成对一致性*,即对于i≠ji\neq j,pij\(q\)=1−pji\(q\)p_{ij}(q)=1-p_{ji}(q)(通过预言器设计强制执行)。
以调用为中心的成本。我们计算LLM推理调用次数:双向每对两次调用,随机方向每对一次调用。由于调用主导PRP成本(Wisznia et al., 2025 (https://arxiv.org/html/2605.14236#bib.bib16)),这改变了哪些策略是最优的。
### 预言器
令LLM\(da,db\)∈\{1,0\}\text{LLM}(d_{a},d_{b})\in\{1,0\}表示一次调用的结果,其中11表示第一个文档更受偏好。
双向(两次调用)。标准PRP预言器(Qin et al., 2024 (https://arxiv.org/html/2605.14236#bib.bib9)):Vij=1V_{ij}=1当且仅当LLM\(di,dj\)=1∧LLM\(dj,di\)=0\text{LLM}(d_{i},d_{j})=1\wedge\text{LLM}(d_{j},d_{i})=0,否则Vij=0V_{ij}=0。
随机方向(一次调用)。我们对输入顺序进行随机化:Vij=LLM\(di,dj\)V_{ij}=\text{LLM}(d_{i},d_{j})的概率为1/21/2,否则Vij=1−LLM\(dj,di\)V_{ij}=1-\text{LLM}(d_{j},d_{i})。这确保了互惠性在期望上成立,即Pr[Vij=1]=1−Pr[Vji=1]\Pr[V_{ij}=1]=1-\Pr[V_{ji}=1]:每次单独的调用可能存在位置偏差,但在随机方向上取平均将系统性偏差转化为零均值噪声,保留了成对一致性(证明见附录E (https://arxiv.org/html/2605.14236#A5))。
## 4 为调用预算受限的前KK重排序选择主动排序器
排序将每次比较视为同等信息量。在预算下,这种均匀性是浪费的。主动排序器将比较集中在那些相对顺序仍不确定的候选上。这是我们性能提升的关键机制:为同一个比较器提供更好的调度,仅需轻量级的簿记,无需模型训练或前向传播。主导成本仍然是LLM调用本身。
我们的目标是通过§3 (https://arxiv.org/html/2605.14236#S3)的成对预言器接口,在严格的调用预算BB下获得高质量的前KK个前缀。我们根据三个标准选择算法:(C1) *前KK个目标*:针对最优KK个/前缀识别;(C2) *噪声容忍度*:在成对一致性下良好定义,无需假设全局顺序;(C3) *任意时刻行为*:随着比较的累积,输出有竞争力的前KK个前缀。
我们专注于比较调度带来的收益,并评估两种互补的主动排序器:基于锦标赛的与基于锚点的。假设传递性或针对完整全局排序的方法被排除。
锦标赛/堆提取。Mohajer等人(2017 (https://arxiv.org/html/2605.14236#bib.bib8))通过带堆提取的锦标赛识别最优KK个,将比较集中在可能的竞争者上(C1–C3)。我们每场比赛使用一次预言器调用。
基于锚点的可能近似正确(PAC)最优KK个。Agarwal等人(2022 (https://arxiv.org/html/2605.14236#bib.bib1))通过锚点和赢家集识别最优KK个(C1, C3)。我们从零成本的BM25先验获取锚点,并将比较限制在前K×mK\times m(m=3m=3)的BM25前缀中,保持低调用次数。
有序输出。PAC返回一个无序的最优KK个集合,因此我们在最终的前KK个上应用BubbleSort。Mohajer输出有序前缀;BubbleSort的优化是可选的且影响微小。任何添加的比较都计入预算。
排序器|Covid|Robust04|Touche|SciFact|DBPedia|DL19|DL20|平均NDCG@10|平均调用次数/任务
---|---|---|---|---|---|---|---|---|---
BM25|59.5|40.7|44.2|67.9|31.9|50.6|48.0|49.0|-
Flan-T5-L
BubbleSort@10 (双向)|70.9|44.2|44.7|69.2|41.7|63.4|58.6|56.1|679
HeapSort (双向)|76.0|40.4|33.2|67.5|41.4|65.0|62.6|55.2|1230
QuickSort (双向)|76.2|41.0|27.4|60.1|41.1|64.5|58.5|52.7|1954
PAC+Bubble (双向)|69.3|44.0|41.4|68.5|39.2|61.7|57.2|54.5|323
PAC+Bubble (随机方向)|70.2|41.0|38.2|67.0|38.1|60.0|57.3|53.1|184
Mohajer+Bubble (双向)|76.5|37.8|26.7|54.9|40.0|63.0|56.4|50.7|423
Mohajer+Bubble (随机方向)|76.9|37.8|25.7|58.8|40.0|61.8|58.8|51.4|354
Mohajer (双向)|76.5|37.5|26.4|53.8|39.7|62.6|56.1|50.4|399
Mohajer (随机方向)|76.2|36.2|24.4|57.5|39.1|60.6|57.2|50.2|232
Flan-T5-XL
BubbleSort@10 (双向)|74.8|55.4|42.8|71.3|43.1|68.4|67.0|60.4|941
HeapSort (双向)|78.2|54.9|28.4|70.6|41.6|70.6|68.9|59.0|1409
QuickSort (双向)|77.2|53.7|25.8|61.4|41.6|70.4|67.2|56.8|1669
PAC+Bubble (双向)|71.3|48.9|41.1|70.4|39.1|62.6|58.6|56.0|332
PAC+Bubble (随机方向)|71.3|48.1|38.8|68.6|38.8|61.1|58.5|55.0|184
Mohajer+Bubble (双向)|76.0|53.7|25.7|61.9|40.9|66.6|67.5|56.0|427
Mohajer+Bubble (随机方向)|78.5|54.0|27.9|63.5|41.2|69.5|66.3|57.3|345
Mohajer (双向)|76.0|53.6|25.4|61.2|40.7|66.6|67.3|55.8|399
Mohajer (随机方向)|77.6|53.2|27.2|62.8|40.4|68.7|67.6|56.8|232
表2:端到端BEIR风格NDCG@10(%)及平均成对LLM调用次数。粗体=每列最佳;下划线=每列次佳(在每个模型块内)。
## 5 结果
### 设置。
我们将前N=100个BM25候选重排序为有序的前K个列表(K=10),并报告在BEIR风格任务(表2 (https://arxiv.org/html/2605.14236#S4.T2))和TREC DL2019/2020上的NDCG@10,每个方法在B∈\{100,150,...,500\}次LLM调用时截断。成对预言器使用Flan-T5-L/XL,在(i)双向和(ii)随机方向提示下。BubbleSort使用缓存(Wisznia et al., 2025 (https://arxiv.org/html/2605.14236#bib.bib16))。额外的Qwen结果和代码见附录/代码仓库。
### 主要发现。
表1 (https://arxiv.org/html/2605.14236#S2.T1)报告了TREC DL2019/2020(Flan-T5-XL)上NDCG@10与预算BB的关系(置信区间和自助法检验见附录D (https://arxiv.org/html/2605.14236#A4))。(i) 在调用受限场景(B≈200–450)中,Mohajer在相同预言器下优于PRP重排序器。(ii) 随机方向压缩了“达到质量的时间”:Mohajer在B=250时达到峰值质量。(iii) 在高预算下,排序逐渐赶上,因为全局优化是有回报的。PAC表现滞后,因为其两阶段设计将预算分配给了多个目标;Mohajer的锦标赛将比较集中在可能的前K个候选上。当BM25先验较强时(例如Touché),PAC受益。
### 双向预言器
低预算:排序更可取。在B∈\{100,150\}时,QuickSort达到≈55.9 NDCG@10,而Mohajer处于预热阶段(30.1)。在预热阈值(N=100, K=10时约为100次调用)以下,排序更可取;超过该阈值,主动排序占主导。
调用受限场景:主动重排序更好。Mohajer从B=200到B=450领先:B=300时,66.09 vs. 56.42(+9.67);B=350时,66.28 vs. 56.98(+9.30);B=450时,Mohajer+Bubble 67.02 vs. HeapSort 62.81(+4.21)。成对自助法检验(10k次查询重采样,p<0.05;表A.8 (https://ar相似文章
主动学习作为高效的PRP重排序器
本文将有对排名提示(PRP)重新定义为从噪声比较中进行主动学习,引入了一个具有随机方向预测器的噪声鲁棒框架,以在调用约束下提高排名质量并解决位置偏差问题。
面向比较图的可靠LLM评估的提示扰动
提出了一种提示扰动框架,该框架生成扰动的提示变体,通过图级一致性检查过滤掉结构不一致的比较模式,然后应用标准排名方法产生更可靠的LLM排名。
从自适应列表排序角度重新审视自适应检索增强生成的必要性
本文提出了 AdaRankLLM,一个自适应检索框架,通过列表排序动态过滤检索到的段落,对自适应 RAG 的必要性提出质疑。研究表明自适应检索对于较弱模型充当噪声过滤器,对于更强模型充当成本效率优化器,在多个数据集和 LLM 上进行了广泛实验。
PARTREP:学习在仅解码器LLM中重复什么
PartRep提出了一种针对仅解码器LLM的选择性提示重复方法,仅追加最有信息量的令牌(通过NLL选择),而非完整提示,从而减少KV缓存和预填充FLOPs,同时在多个基准测试上保留大部分准确率提升。
当重排序适得其反:基于不确定性的少样本重排序门控方法
本文挑战了重排序总是能提升少样本选择性能的假设,提出了一种无需训练的门控重排序方法,该方法利用模型不确定性来决定何时进行重排序,从而将计算成本降低15%至80%,同时略微提升性能。