主动学习作为高效的PRP重排序器

Hugging Face Daily Papers 论文

摘要

本文将有对排名提示(PRP)重新定义为从噪声比较中进行主动学习,引入了一个具有随机方向预测器的噪声鲁棒框架,以在调用约束下提高排名质量并解决位置偏差问题。

成对排名提示(PRP)从大语言模型(LLM)中获取成对偏好判断,然后通常通过经典排序算法将其聚合为排名。然而,这些判断是有噪声的、对顺序敏感的,并且有时是不可传递的,因此排序的假设与实际情况不符。由于排序旨在恢复完整的排列,为满足调用预算而截断排序并不能产生可靠的top-K结果。因此,我们将PRP重排序重新定义为从噪声成对比较中进行主动学习,并表明主动排名器是可插拔的替代品,在调用受限的情况下,能够提高每次调用的NDCG@10。我们的噪声鲁棒框架还引入了一个随机方向预测器,该预测器每对仅使用一次LLM调用。这种方法将系统性的位置偏差转化为零均值噪声,从而无需双向调用即可实现无偏聚合排名。
查看原文
查看缓存全文

缓存时间: 2026/05/20 10:37

论文页面 - 主动学习器作为高效的 PRP 重排序器

来源:https://huggingface.co/papers/2605.14236

摘要

成对排序提示被重新构建为从噪声比较中进行的主动学习,通过改进的排序器在调用约束下提升排序质量,并借助随机化 Oracle 解决位置偏差问题。

成对排序提示 (Pairwise Ranking Prompting, PRP) (https://huggingface.co/papers?q=Pairwise%20Ranking%20Prompting) 从 LLM 中获取成对偏好判断,然后通常通过经典排序算法聚合成一个排序。然而,这些判断存在噪声、顺序敏感性,有时甚至不可传递,因此排序假设与实际情况不符。由于排序旨在恢复完整的排列,对其进行截断以满足调用预算 (call budget) (https://huggingface.co/papers?q=call%20budget) 并不能产生可靠的 top-K 结果。因此,我们将 PRP 重排序重新定义为从噪声成对比较 (noisy pairwise comparisons) (https://huggingface.co/papers?q=noisy%20pairwise%20comparisons) 中进行的主动学习 (active learning) (https://huggingface.co/papers?q=active%20learning),并证明主动排序器是即插即用的替代方案,在调用受限的机制下能提升每次调用的 NDCG@10 (https://huggingface.co/papers?q=NDCG%4010)。我们的噪声鲁棒框架还引入了一个随机方向 Oracle,每对只需一次 LLM 调用。这种方法将系统性的位置偏差 (position bias) (https://huggingface.co/papers?q=position%20bias) 转化为零均值噪声,从而无需双向调用即可实现无偏的聚合排序。

查看 arXiv 页面 (https://arxiv.org/abs/2605.14236)查看 PDF (https://arxiv.org/pdf/2605.14236)GitHub (https://github.com/jerecoder/IReranker)添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2605.14236)

在你的 agent 中获取此论文:

hf papers read 2605.14236

没有最新 CLI?curl -LsSf https://hf.co/cli/install.sh | bash

引用此论文的模型0

无模型链接此论文

在模型 README.md 中引用 arxiv.org/abs/2605.14236 即可从此页面链接。

引用此论文的数据集0

无数据集链接此论文

在数据集 README.md 中引用 arxiv.org/abs/2605.14236 即可从此页面链接。

引用此论文的 Spaces0

无 Space 链接此论文

在 Space README.md 中引用 arxiv.org/abs/2605.14236 即可从此页面链接。

包含此论文的收藏0

无收藏包含此论文

将此论文添加到一个收藏 (https://huggingface.co/new-collection) 即可从此页面链接。

相似文章

作为高效PRP重排序器的主动学习器

arXiv cs.LG

提出将成对排名提示(PRP)重排序重新构建为从噪声成对比较中进行主动学习,在预算约束下提高每次调用的NDCG@10,并引入一种随机方向预言机,减少每对所需的LLM调用次数。

从自适应列表排序角度重新审视自适应检索增强生成的必要性

arXiv cs.CL

本文提出了 AdaRankLLM,一个自适应检索框架,通过列表排序动态过滤检索到的段落,对自适应 RAG 的必要性提出质疑。研究表明自适应检索对于较弱模型充当噪声过滤器,对于更强模型充当成本效率优化器,在多个数据集和 LLM 上进行了广泛实验。