忠实还是虚构?LLM评审中合理化偏见的因果框架

arXiv cs.CL 论文

摘要

本文提出了一个因果框架,用于量化LLM评审中的合理化偏见,即判决和解释受非证据性线索而非底层文本的影响。该框架提出了线索干预、锚定度量以及Proof-Before-Preference缓解协议,展示了改进的线索不变性。

arXiv:2605.23970v1 公告类型: new 摘要:大型语言模型(LLMs)越来越多地被用作自动评审员,用于摘要和对话评估。先前的工作记录了诸如位置、冗长和风格偏好等偏见,但主要关注结果,对评审解释的研究不足。我们转而探讨LLM评审是否具有线索不变性,即当非证据性线索被扰动而底层文本保持不变时,其排名和解释是否保持稳定。我们引入了一系列线索干预(Blind、Truth、Flip、Placebo、Reveal-After)和考虑平局的度量,这些度量量化了结果锚定和理由锚定,包括标签对齐的修辞和解释漂移,以及一致性和刻板印象入侵检查。我们利用冗长和置信度线索设计了锚定攻击,并比较了两种缓解措施:结构化思维链提示和PROOF-BEFORE-PREFERENCE(证据锁定、评分、排名)。通过使用来自传统抽取式模型和LLM的1000个摘要的新数据集,我们发现标签和安慰剂扰动下存在显著的线索锚定合理化,而PROOF-BEFORE-PREFERENCE相比基线显著改善了线索不变性。
查看原文
查看缓存全文

缓存时间: 2026/05/26 08:59

# 可信还是编造?LLM裁判中合理化偏差的因果框架
来源:https://arxiv.org/html/2605.23970
Riya Tapwal,计算与电气工程学院,印度理工学院(IIT)曼迪分校,[email protected],伦敦,英国,[email protected]。Carsten Maple,华威制造集团,英国,[email protected]

###### 摘要

大型语言模型(LLM)越来越多地被用作摘要和对话评估的自动裁判。先前的研究已经记录了位置、冗长和风格偏好等偏差,但主要集中在*结果*上,对裁判的*解释*研究不足。我们转而探究LLM裁判是否具有*提示不变性*,即:当*非证据性提示*被扰动而底层文本保持不变时,其排名和解释是否保持稳定。我们引入了一套*提示干预*(盲测、真相、翻转、安慰剂、事后揭示)和考虑平局的指标,用于量化*结果锚定*和*理由锚定*(标签对齐的修辞和解释漂移),同时包括一致性和刻板印象入侵检查。我们通过冗长和自信提示设计了*锚定攻击*,并比较了两种缓解措施:结构化思维链提示和*证据优先于偏好*(证据锁定→评分→排名)。使用一个包含来自传统抽取式模型和LLM的1000篇摘要的新数据集,我们发现:在标签/安慰剂扰动下存在显著的*提示锚定合理化*,而*证据优先于偏好*在提示不变性上相比基线有显著改进。

{IEEEImpStatement}

大型语言模型(LLM)作为评估流水线中的自动裁判,其日益普及引发了对决策和解释可靠性与忠实性的严重关切。本研究及时且重要地引入了一个因果框架,以正式描述和量化合理化偏差——即LLM裁判将裁决和解释与非证据性提示而非底层文本证据对齐的现象。通过提出提示不变性探测、锚定指标以及证据优先于偏好(PBP)缓解协议,本研究为提升基于LLM的评估系统的鲁棒性、公平性和可审计性提供了诊断工具和实用解决方案。这些进展对于基准测试、合规监控和自动决策支持等高利害应用尤其重要,因为不可靠或对提示敏感的判断可能削弱信任和公平性。同时,本研究通过暴露系统性漏洞并展示减少事后合理化的缓解策略,促进了责任部署,从而为开发更透明、更负责任且更值得信赖的AI系统做出贡献。

{IEEEkeywords}

大型语言模型,LLM作为裁判,合理化偏差,解释忠实性,提示不变性,因果探测,偏差缓解,可信AI。

## 1 引言

摘要长期以来是NLP领域的旗舰任务,历史上以人工撰写的最佳摘要为基准,并由人工标注者评判[19]。然而,这一范式正在迅速消失。人类还在做摘要吗?实际上,答案基本是否定的[6]。大规模生成人工摘要成本过高且不一致,而自动系统——无论是传统的抽取式方法还是现代大型语言模型(LLM)——都可以即时生成摘要[27, 6, 19]。此外,依赖人工评估无法扩展,导致LLM被广泛用作裁判[5]。在这种新机制下,核心问题从LLM是否匹配人工摘要质量,转变为当决策和解释被委托给LLM时,我们的*评估流水线*是否仍然可靠。特别是,那些仍青睐轻量级抽取式摘要的应用(例如大规模监控、企业报告或合规),依赖于其裁决和理由基于*证据*而非表面伪像的裁判。先前的研究已记录了LLM裁判在结果层面的偏差,包括位置、冗长、风格偏好和自我增强[24]。这些发现很重要但不完整:它们主要追踪的是裁判*决定什么*,而非*为什么*。只有当解释反映了驱动选择的相同输入证据特征时,决策才是可信的。反之,如果解释重新对齐到无关信号、标签、标记或风格提示,那么评估可以在不改变底层文本的情况下被操纵,从而侵蚀可审计性和公平性。

参见图注:图1:三种评判协议以及可能产生合理化的环节概述。*基线*(左下方):单个LLM裁判直接在LLM摘要和TradML摘要之间做出选择;解释是事后生成的,因此易受提示/标签影响。*SCoT*(左上方):裁判在做出决定前按预定义标准(准确性、完整性、简洁性、流畅性)进行推理,但证据未被锁定,可能允许规则放大的合理化。*PBP*(右方):证据优先于偏好,裁判首先撰写并*锁定*按标准的证据,然后评分并汇总进行排名,这抑制了标签锚定和解释漂移。我们将这种可靠性要求框架化为*提示不变性*。设$X$表示固定的文本证据(源文档和候选摘要),$C$表示非证据性提示(如元数据标签)。如果当$C$被扰动而$X$保持不变时,LLM裁判的排名$r$和解释$e$保持稳定,则该裁判是提示不变的。这一视角将模糊的“忠实性”概念转化为一个精确的鲁棒性目标:在受控干预下测量$C$对$(r,e)$的因果效应。为此,我们引入了一套*提示干预*,在保持$X$固定的同时操纵$C$:盲测(无提示)、真相(真实标签)、翻转(反转标签)、安慰剂(可信但非信息性的标记)和事后揭示(先应用翻转,再揭示真相)。这些探测揭示了裁判的决策和解释何时向呈现的提示偏移。我们还补充了*考虑平局*的指标,以分离两种现象:*结果锚定*(排名方向性变化)和*理由锚定*(标签对齐的修辞和解释漂移)。同一个框架也揭示了一个结构性弱点:*锚定攻击*利用无害的风格提示(冗长和自信)来影响对相同摘要的决策和理由。最后,我们研究了防御措施。*标准引导的结构化思维链*(SCoT)提示裁判在做出决定前按明确维度(准确性、完整性、简洁性、流畅性)进行推理。在此基础上,*证据优先于偏好*(PBP)首先*锁定*按标准记录的带有引用范围的笔记,然后严格基于锁定的证据进行评分和排名,从而减少事后合理化和标签锚定的机会。

##### 动机

大型语言模型(LLM)作为评估流水线中的自动裁判,其日益普及带来了显著的可扩展性和效率优势,但也引发了对决策和解释可靠性与忠实性的严重关切。尽管先前的工作已识别出结果层面的偏差,如位置、冗长和风格偏好,但尚不清楚LLM裁判是基于底层文本证据还是基于表面、非证据性的提示(如标签、自信信号或格式)做出决策。在基准测试、合规监控和自动报告等高利害应用中,解释对于透明度和可审计性至关重要;然而,如果这些解释是为了论证受外部提示影响的决策而事后生成,则评估过程容易受到操纵,丧失其可信度。我们将这一问题特征化为合理化偏差,它凸显了当前评估方法中的一个根本性差距:缺乏一个原则性的框架来因果地隔离和测量无关提示对判断和解释的影响。弥合这一差距对于确保LLM裁判产生基于证据的决策和理由至关重要,从而提升自动评估系统的鲁棒性、公平性和问责性。

##### 贡献

- •**提示不变性探测**:我们提出了一套受控干预(盲测/真相/翻转/安慰剂/事后揭示),在保持文本固定的同时隔离非证据性提示对决策和解释的因果效应。
- •**锚定指标**:我们提出了考虑平局的衡量标准,用于测量*结果锚定*和*理由锚定*(标签对齐的修辞、解释漂移),从而能够在裁判和提示之间进行标准化比较。
- •**合理化攻击**:我们演示了冗长和自信提示能够稳定地改变对相同摘要的结果和理由,暴露了LLM作为裁判流水线中的一个实际漏洞。
- •**缓解措施**:我们评估了两种防御方法:
    - –*标准引导的SCoT*:要求在做出决定前按明确维度(如准确性、完整性、简洁性、流畅性)进行推理。
    - –*证据优先于偏好*(PBP):*锁定*按标准记录的带有引用范围的笔记,然后严格基于锁定的证据进行评分和排名,减少事后合理化和标签锚定。

## 2 相关工作

### 2.1 LLM作为裁判的偏差

越来越的研究工作调查了LLM作为评估者的可靠性,通常称为LLM-as-a-judge范式。Zheng等人[28]引入了MT-Bench和Chatbot Arena,表明LLM裁判表现出系统性偏差,包括位置偏差、冗长偏差和自我增强偏差(偏爱自身模型家族)。Wu & Aji[25]强调了一种相关的流畅性/风格偏差,即LLM偏好文笔流畅但准确性较低的答案,并通过赞扬表面形式来为其决策辩护。

更广泛的研究通过基准套件对偏差进行了分类。Koo等人[9]提出了CoBBLEr,识别出隐性偏差(如顺序、自我中心、显著性/长度)和诱导性偏差(从众效应、干扰提示)。Ye等人[26]通过Calm扩展了这项工作,测量了十二种偏差类型,包括权威偏差、情感偏差和多样性偏差,并引入了鲁棒率等指标。Chen等人[1]比较了人类与LLM裁判,揭示了在错误信息监督、权威提示和格式(“美观偏差”)方面的漏洞。Lee等人[12]考察了对认知标记的判断,表明LLM会惩罚不确定性表达,而人类则不会。

几项工作探讨了对LLM评估者的对抗性攻击。Chen等人[1]和Raina等人[21]设计了基于优化或基于提示的攻击,能够可靠地翻转判断,而Li等人[15]提出了偏差缓解技术(如随机排序)。Szymanski等人[22]、Croxford等人[4]和Thakur等人[23]的综述强调了LLM裁判的潜力和脆弱性:它们能与人类偏好良好对齐,但仍易受表面提示的影响。

### 2.2 LLM中的合理化和解释忠实性

同时进行的工作考察了模型生成解释的忠实性。Turpin等人[24]证明,LLM通常依赖隐藏提示来正确回答,但在思维链(CoT)中省略它们,从而生成事后合理化。Chen等人[2]将此扩展到最先进的推理模型,显示即使提示明显影响答案,其“揭示率”也很低。Lanham等人[11]引入了CoT忠实性的度量,如早期答案和自信轨迹,而Lewis-Lim等人[13]分析了CoT何时主动引导推理,而非叙述预定结果。其他研究提出了改进忠实性的方法。Chuang等人[3]引入了FaithLM,通过测试相反理由将解释因果地绑定到模型输出。Li等人[14]提出了DRiFT,使用双重奖励(准确性+忠实性)引导概率推理,提高了理由保真度。

## 3 问题形式化

设$D=\{d_1, d_2, \dots, d_N\}$为源文档集合。对于每个文档$d\in D$,我们生成一组候选摘要

$$S_d=\{s^{ML}_1, \dots, s^{ML}_M, \; s^{LLM}_1, \dots, s^{LLM}_L\},$$

其中$\{s^{ML}_i\}$由传统机器学习抽取式系统生成,$\{s^{LLM}_j\}$由大型语言模型生成。LLM裁判$J$评估$S_d$并返回两个输出:

1.  候选者的**排名**,$r_{J,d} \in \mathcal{R}_{M+L}$,其中$\mathcal{R}_{M+L}$是$M+L$篇摘要的排列集合。
2.  以自由文本形式呈现的**解释**或理由,$e_{J,d}=f_J(S_d)$,用以证明排名合理性。

### 3.1 从忠实性到提示不变性

经典意义上,解释$e_{J,d}$被称为*忠实*的,如果它精确反映了决定裁判排名$r_{J,d}$的固定文本(源文档和候选摘要)的证据特征$\mathcal{X}_d$。一个标准的形式化是条件不变性

$$\Pr\!\big(r_{J,d} \mid \mathcal{X}_d, e_{J,d}\big) \;=\; \Pr\!\big(r_{J,d} \mid \mathcal{X}_d\big), \qquad (1)$$

该式断言,给定证据$\mathcal{X}_d$,暴露解释不会改变决策的分布,即解释既不增加虚假信号,也不反映隐藏的、非证据性的影响。实际上,LLM裁判可能产生*合理化*的解释:对人类有说服力,但引用了并非因果决定决策的特征。在这种情况下,(1)式失效:

$$\Pr\!\big(r_{J,d} \mid \mathcal{X}_d, e_{J,d}\big) \; \neq \; \Pr\!\big(r_{J,d} \mid \mathcal{X}_d\big). \qquad (2)$$

我们将系统性地产生这种看似合理但不忠实理由的现象称为**合理化偏差**。直接验证(1)式具有挑战性,因为我们无法穷尽地观察或控制$\mathcal{X}_d$中的所有证据因素。因此,我们通过**提示不变性**来操作化可靠性。设$C$表示非证据性提示(例如,

相似文章

审计多模态LLM评分器:临床序数评分中的中央趋势偏差

Hugging Face Daily Papers

本文研究了用于临床序数评分(画钟测试)的多模态LLM中的中央趋势偏差。研究发现,LLM将预测结果向量表中间压缩,对关键极端值造成不成比例的影响。该研究将LLM作为裁判的偏差文献扩展到临床评估领域,强调在部署前需要进行校准感知评估。

基准是否低估了 LLM 的性能?采用以大语言模型为先、人工仲裁的评估方法评估幻觉检测

arXiv cs.CL

本文通过采用以大语言模型为先、人工仲裁的评估方法重新评估幻觉检测数据集,研究了标准基准是否低估了大语言模型(LLM)的性能。研究发现,在仲裁过程中融入大语言模型的推理能力可以提高评估的一致性,并表明针对容易产生歧义的任务,采用模型辅助的重新评估能产生更可靠的基准。