面向比较图的可靠LLM评估的提示扰动
摘要
提出了一种提示扰动框架,该框架生成扰动的提示变体,通过图级一致性检查过滤掉结构不一致的比较模式,然后应用标准排名方法产生更可靠的LLM排名。
arXiv:2606.17634v1 Announce Type: new
Abstract: 评估大语言模型(LLM)对于理解其能力、比较竞争系统以及支持在实际中部署可靠模型至关重要。对于开放式任务,成对评估已成为一种流行范式,即比较同一提示的两个响应,并将获得的判断聚合成整体排名。该范式的核心挑战是非传递性:诱导的比较结果可能无法支持任何一致的全局排名。例如,可能观察到循环偏好,如$A \succ B \succ C \succ A$,或涉及平局的不一致,如$A \equiv B\equiv C\neq A$。这种矛盾使得最终排行榜不稳定且难以解释。在本文中,我们提出了一种提示扰动框架,用于提高成对LLM评估的一致性。我们的方法生成每个提示的扰动变体,利用由此产生的比较图来识别并过滤掉结构不一致的比较模式,然后将标准排名方法应用于过滤后的比较。该框架的一个关键特点是,在排名聚合之前,将图级结构一致性显式纳入评估流程。这提供了一种简单而有原则的方法,可以减少循环不一致性并提高LLM排名的可靠性。
查看缓存全文
缓存时间: 2026/06/17 05:41
# 面向比较图的可靠LLM评估的提示扰动方法 来源:https://arxiv.org/abs/2606.17634 查看PDF (https://arxiv.org/pdf/2606.17634) > **摘要:**评估大型语言模型(LLM)对于理解其能力、比较不同系统以及支持在实践中有序部署可靠模型至关重要。对于开放式任务,成对评估已成为一种流行范式:对同一提示的两个回答进行比较,并将由此产生的判断汇总为整体排名。该范式的核心挑战在于不可传递性:诱导出的比较结果可能无法支撑任何连贯的全局排名。例如,我们可能观察到诸如 \(A \succ B \succ C \succ A\) 的循环偏好,或涉及平局的不一致性,如 \(A \equiv B \equiv C \neq A\)。此类矛盾使得最终排行榜不稳定,难以解读。在本文中,我们提出了一种提示扰动框架,用于提高成对LLM评估的一致性。我们的方法为每个提示生成扰动变体,利用由此产生的比较图来识别并过滤掉结构不一致的比较模式,然后将标准排名方法应用于过滤后的比较结果。该框架的一个关键特性在于,图级别的结构一致性在排名聚合之前就被明确纳入评估流程。这提供了一种简单且有原则的方法,能够减少循环不一致性,提高LLM排名的可靠性。 ## 提交历史 来自:董黄 [查看邮件](https://arxiv.org/show-email/404b2251/2606.17634) **[v1]** 2026年6月16日星期二 07:44:45 UTC (205 KB)
相似文章
论大型语言模型评估中提示排名的稳定性
本文系统研究了常见变异来源下,大型语言模型评估中提示排名的稳定性,发现表现最佳的提示经常发生变化。为此,提出了一种基于下置信界的稳定性感知选择策略,以提高鲁棒性。
PromptAudit:审计基于LLM的漏洞检测中的提示敏感性
PromptAudit是一个受控评估框架,通过隔离提示表述对基于LLM的漏洞检测的影响,发现思维链提示在整体性能上表现最佳,同时提示敏感性必须被视为一级系统属性。
基于智能体评估与稳定性感知排序的多模态大语言模型鲁棒检查点选择
本文解决了评估不确定性下多模态大语言模型的鲁棒检查点选择挑战,提出了一个多阶段框架,整合了精心策划的真实世界数据、基于LLM的判断以及带有置信度估计的排序协议。
作为高效PRP重排序器的主动学习器
提出将成对排名提示(PRP)重排序重新构建为从噪声成对比较中进行主动学习,在预算约束下提高每次调用的NDCG@10,并引入一种随机方向预言机,减少每对所需的LLM调用次数。
衡量开源权重 LLM 中的评估上下文发散:一种配对提示协议及对对齐管线特定异质性的初步证据
本文介绍了一种配对提示协议,用于衡量开源权重大型语言模型(LLM)中的“评估上下文发散”,研究发现模型的行为会根据提示是被框定为评估还是实际部署而有所不同。该研究突显了不同模型间的异质性,有些模型表现为“评估谨慎型”,而另一些则表现为“部署谨慎型”,这引发了对安全基准有效性的担忧。