主动学习作为高效的PRP重排序器
摘要
本文将有对排名提示(PRP)重新定义为从噪声比较中进行主动学习,引入了一个具有随机方向预测器的噪声鲁棒框架,以在调用约束下提高排名质量并解决位置偏差问题。
查看缓存全文
缓存时间: 2026/05/20 10:37
论文页面 - 主动学习器作为高效的 PRP 重排序器
来源:https://huggingface.co/papers/2605.14236
摘要
成对排序提示被重新构建为从噪声比较中进行的主动学习,通过改进的排序器在调用约束下提升排序质量,并借助随机化 Oracle 解决位置偏差问题。
成对排序提示 (Pairwise Ranking Prompting, PRP) (https://huggingface.co/papers?q=Pairwise%20Ranking%20Prompting) 从 LLM 中获取成对偏好判断,然后通常通过经典排序算法聚合成一个排序。然而,这些判断存在噪声、顺序敏感性,有时甚至不可传递,因此排序假设与实际情况不符。由于排序旨在恢复完整的排列,对其进行截断以满足调用预算 (call budget) (https://huggingface.co/papers?q=call%20budget) 并不能产生可靠的 top-K 结果。因此,我们将 PRP 重排序重新定义为从噪声成对比较 (noisy pairwise comparisons) (https://huggingface.co/papers?q=noisy%20pairwise%20comparisons) 中进行的主动学习 (active learning) (https://huggingface.co/papers?q=active%20learning),并证明主动排序器是即插即用的替代方案,在调用受限的机制下能提升每次调用的 NDCG@10 (https://huggingface.co/papers?q=NDCG%4010)。我们的噪声鲁棒框架还引入了一个随机方向 Oracle,每对只需一次 LLM 调用。这种方法将系统性的位置偏差 (position bias) (https://huggingface.co/papers?q=position%20bias) 转化为零均值噪声,从而无需双向调用即可实现无偏的聚合排序。
查看 arXiv 页面 (https://arxiv.org/abs/2605.14236)查看 PDF (https://arxiv.org/pdf/2605.14236)GitHub (https://github.com/jerecoder/IReranker)添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2605.14236)
在你的 agent 中获取此论文:
hf papers read 2605.14236
没有最新 CLI?curl -LsSf https://hf.co/cli/install.sh | bash
引用此论文的模型0
无模型链接此论文
在模型 README.md 中引用 arxiv.org/abs/2605.14236 即可从此页面链接。
引用此论文的数据集0
无数据集链接此论文
在数据集 README.md 中引用 arxiv.org/abs/2605.14236 即可从此页面链接。
引用此论文的 Spaces0
无 Space 链接此论文
在 Space README.md 中引用 arxiv.org/abs/2605.14236 即可从此页面链接。
包含此论文的收藏0
无收藏包含此论文
将此论文添加到一个收藏 (https://huggingface.co/new-collection) 即可从此页面链接。
相似文章
作为高效PRP重排序器的主动学习器
提出将成对排名提示(PRP)重排序重新构建为从噪声成对比较中进行主动学习,在预算约束下提高每次调用的NDCG@10,并引入一种随机方向预言机,减少每对所需的LLM调用次数。
从自适应列表排序角度重新审视自适应检索增强生成的必要性
本文提出了 AdaRankLLM,一个自适应检索框架,通过列表排序动态过滤检索到的段落,对自适应 RAG 的必要性提出质疑。研究表明自适应检索对于较弱模型充当噪声过滤器,对于更强模型充当成本效率优化器,在多个数据集和 LLM 上进行了广泛实验。
CurveRL:面向LLM推理的基于分布感知的上下文权重调整原则性方法
本文介绍了CurveRL,一种基于原则的分布感知提示权重调整方法,用于带有可验证奖励的强化学习(RLVR),通过基于通过率的排名和密度而非绝对值来分配权重,从而改进LLM推理,持续优于GRPO及其他基线方法。
GRPO 下基于梯度的 LoRA 秩分配:一项实证研究
本研究通过实证表明,在监督微调中有效的基于梯度的 LoRA 秩分配,在基于 GRPO 的强化学习中会导致性能下降,原因在于梯度景观更为平缓以及存在梯度放大效应。
MemReranker:面向智能体记忆检索的推理感知重排序
MemReranker 是一个针对智能体记忆检索设计的推理感知重排序模型家族(0.6B/4B),通过结合 LLM 知识蒸馏技术解决语义相似性匹配的局限性,从而提升模型的时间与因果推理能力。