你的LLM评判者有多虚伪?大型语言模型语用能力中的听者-说者不对称性
摘要
本文通过比较LLM作为语言恰当性评判者与作为语用恰当语言生成者的表现,研究了LLM语用能力中的不对称性。研究发现,许多模型作为语用听者的表现显著优于作为说者的表现,表明评估能力与生成能力之间存在错位。
arXiv:2604.15873v1 公告类型:新
摘要:大型语言模型(LLM)作为语言知识库的研究日益增多。在此类工作中,模型通常既作为语言生成者进行评估,也作为语言输出的评判者进行评估,但这两个角色很少被直接关联起来审视。因此,尚不清楚在一个角色上的成功是否与另一个角色上的成功一致。本文通过比较LLM作为语用听者(评判语言输出的恰当性)和作为语用说者(生成语用恰当的语言)的表现,探讨了语用能力中的这一问题。我们在三种语用场景下评估了多个开源和专有LLM。我们发现语用评估与语用生成之间存在显著的不对称性:许多模型作为听者的表现远优于作为说者的表现。我们的结果表明,当前LLM中语用评判与语用生成仅存在弱对齐,需要更整合的评估实践。
查看缓存全文
缓存时间: 2026/04/20 08:29
# 你的LLM裁判有多虚伪?大型语言模型语用能力中的听者–说者不对称性
来源:https://arxiv.org/html/2604.15873
Sina Zarrieß 计算语言学,语言学系,比勒费尔德大学,德国 \{j\.sieker;sina\.zarriess\}@uni\-bielefeld\.de
###### 摘要
大型语言模型(LLMs)作为语言知识库的研究日益增多。在这类工作中,模型既作为语言生成器进行评估,也作为语言输出的裁判进行评估,但这两种角色之间的直接关系鲜有探讨。因此,一种角色上的成功是否与另一种角色上的成功相一致,目前尚不明确。在本文中,我们通过比较LLMs作为语用听者(评判语言输出的恰当性)和作为语用说者(生成语用恰当的语言)的表现,来研究语用能力方面的这一问题。我们评估了多个开源和闭源LLMs在三种语用场景下的表现。我们发现语用评估与语用生成之间存在显著的不对称性:许多模型作为听者的表现远优于作为说者的表现。我们的结果表明,在当前LLMs中,语用评判与语用生成仅存在弱对齐,这呼吁采用更加综合的评估实践。
你的LLM裁判有多虚伪?大型语言模型语用能力中的听者–说者不对称性
Judith Sieker 和 Sina Zarrieß
计算语言学,语言学系,比勒费尔德大学,德国
\{j\.sieker;sina\.zarriess\}@uni\-bielefeld\.de
## 1 引言
语用能力并非单一能力。在日常交流中,人们可能意识到某些话语在语用上显得奇怪、不够明确或具有误导性,尽管他们自己并不总能生成完全恰当的回答。例如,考虑问题“法国现任国王多大了?”作为听者,人类能轻易判断出“法国没有国王”这样的回答质疑了问题中的错误预设。然而,作为说者,生成这样的回答则更为困难:必须首先检测出错误预设,然后决定不按问题原意回答而是质疑其潜在假设,最后形成恰当的纠正性回应。因此,评判观察到的问答对中的语用恰当性,与从头生成一个语用恰当的回应对认知的要求不同。心理语言学的研究通过将语言理解与语言产生视为相关但非同一任务来捕捉这种不对称性:它们依赖重叠的知识,但通常在加工需求和错误模式上有所差异 (Flynn (1986); Meyer et al. (2016); Ferreira and Ferreira (2024))。
然而,在大型语言模型(LLMs)的评估中,这一区分并未受到系统性的关注。在LLMs的评估中,语言知识(不仅限于语用领域)已从多个角度得到研究 (Chang and Bergen (2023); Ma et al. (2025)),包括基于生成的任务,用以探索模型生成符合语境的恰当回答的能力 (Sieker et al. (2023); Jian and Siddharth (2024); Wu et al. (2024)),以及判断型任务,模型在此类任务中对语言输出进行分类、解释或评估 (Sileo et al. (2022); Park et al. (2024); Hu et al. (2023))。此外,LLM作为裁判的形式正变得越来越流行,模型被用来替代人类标注者评估语言质量或正确性 (Li et al. (2024); Bavaresco et al. (2025))。
然而,通常隐而不谈的是,这两种评估视角——生成(我们称之为“说”)和判断(我们称之为“听”)——是否反映了模型表现的相同方面。在实践中,两种设置的结果往往被作为支持或反对模型能力的证据来讨论,而没有检验表现是否能在角色之间迁移。尤其是在语用推理任务中,这一假设并不显而易见:生成恰当回答与评判(不)恰当回答之间的差异可能导致评估设置探测到不同的能力和错误模式。
在本文中,我们通过对比LLMs作为“语用听者”和“语用说者”的行为来填补这一空白。我们询问:在评判语用恰当性方面成功的模型,是否也在生成语用恰当语言方面成功,还是这些能力会分离?我们聚焦于三种语用任务——错误预设、反预设、演绎推理——这些任务已被用于LLM评估,但通常仅从两种角色之一进行评估 (Lachenmaier et al., 2025; Sieker and Zarrieß, 2023; Mondorf and Plank, 2024)。对于每项任务,我们在相同的底层项目上构建平行的“说者”和“听者”设置,从而能够进行直接的项目级对比。
我们的结果揭示了当前LLMs在语用听与说之间存在一致的不对称性。在多项任务中,许多模型在评判语用恰当性时的准确率远高于在需要自身生成语用恰当输出时的准确率。项目级分析进一步表明,正确的判断并不能可靠地预测成功的生成。我们的发现表明,在当前模型中,语用评估与语用生成构成了部分不同的能力,并且听者式评估任务中的表现不应被视为语用生成能力的代理指标。
## 2 相关工作
#### 心理语言学中的产生与理解。
在心理语言学中,语言产生和理解通常被视为相关但非同一的能力。尽管它们依赖共享的语言知识,但在任务需求和加工约束上有所不同 (Meyer et al., 2016; Ferreira and Ferreira, 2024)。实证研究往往指向理解优势。例如,在一项涉及超过10万名儿童的大规模跨语言研究中,Bornstein and Hendricks (2012) 发现理解通常先于并超过产生:听者常常能理解他们作为说者尚无法产生的语言形式。其他实验研究进一步表明,理解任务和产生任务可以探测语言能力的不同方面。理解可以通过语境或启发式策略成功完成,而产生则需要在计划与记忆约束下明确选择和构建语言结构,因此要求更高 (Flynn, 1986; Ferreira and Ferreira, 2024)。因此,理解任务上的成功并不能保证相应的产生成功。
#### LLM中的生成与评判。
在评估LLM的语用(以及更一般的语言)能力时,现有工作往往未明确区分基于理解的能力和基于产生的能力。相反,大部分现有文献隐含地赋予模型两种角色之一,我们将其操作化为“听”——评估给定话语的语用恰当性——和“说”——生成一个语用恰当的话语。
现有工作主要将模型置于听者角色进行评估,针对语言理解能力,要求模型对语言输出进行分类、评分或评估。例如,Sileo et al. (2022) 整合了关于不同语用现象(如话语关系、言语行为或含义)的基准,以评估NLU模型在字面语义之外捕捉语用意义的能力。为此,他们要求模型对给定话语进行解释、分类或评判。Hu et al. (2023) 通过使用多项选择材料,比较人类和语言模型在不同语用现象上的表现,要求模型解读说话者的话语并从多个选项中选出预期的含义或理由。Park et al. (2024) 提出了一个基于格赖斯合作原则的LLM语用理解多语言基准。其中,模型被置于给定话语解释者的角色,任务是通过从候选解释中选择来推断预期含义。类似地,Askari et al. (2025) 通过测试BabyLM是否为遵守格赖斯准则的候选答案分配更高概率(相对于违反准则的答案),来评估其对格赖斯准则的遵循情况。
与这类听者任务相反,“说者”导向的评估针对语言产生能力作为语言能力的探针,使用自由生成或受限生成。例如,Sieker et al. (2023) 研究是否可以利用隐含因果提示评估LLM中的篇章级文本生成。模型的任务是生成句子续写(例如,“Tom admired Sarah because ...”),并由人类标注者评判生成文本的质量。Jian and Siddharth (2024) 通过评估指称游戏中的话语产生偏好,测量模型在给定目标对象和语境下生成特定指称表达的可能性,从而探究LLM是否像语用说者一样行为。Ali et al. (2026) 也使用指称游戏,但聚焦于模型是否将不确定性转化为语用恰当的澄清请求。Wu et al. (2024) 根据模型对社会-语用场景生成的反应来评估其语用能力,使用基于参考和基于偏好的评估对自由形式的输出进行评判。
关键的是,这两种评估范式很少被直接关联研究。模型通常只在听者式或说者式设置中进行评估,并且一种范式的结果常被解释为通用语言能力的证据,而不检验表现是否能在角色间迁移。一个值得注意的例外是Qiu et al. (2025),他们在交际游戏设置中同时评估了理解与产生。然而,产生表现是通过听者成功间接评估的(即,说者输出以其是否能使听者正确解释为评估标准),并且该研究没有检验在不同语用现象的同一项目上判断与生成之间的关系。
与此同时,将LLM用作自动评判员正变得越来越普遍,既作为评估管道的组成部分,也作为人类标注的替代品 (Li et al., 2024; Calderon et al., 2025)。在这些设置中,模型被明确置于听者式角色,评估或评分由他人产生的语言输出。尽管LLM已被用作语用推理任务中的评判员 (Yu et al., 2025),但据我们所知,尚无先前工作系统评估它们在这一语言领域的充分性。现有研究要么强调与人类评分的一致性 (Bavaresco et al., 2025; Thakur et al., 2025),要么考察在其他领域(如数学推理 (Stephan et al., 2025))中的评判行为。
此外,虽然LLM作为裁判的方法通常并不声称评判表现决定了生成能力,但评估行为常被视作模型能力的一个指标——然而,听者式评判的成功是否与说者式生成的成功相一致,在很大程度尚未被检验。一项值得注意的相关研究是Piot et al. (2025),他们比较了模型在非语用领域(如内容审核和安全)中作为裁判和生成器的行为。虽然他们的结果揭示了评估行为与生成行为之间的系统性差异,但该研究未考虑语用任务,也未在相同的底层项目上检验评判与生成。因此,语用评估与生成是否会出现类似的不对称性仍是一个开放问题。在本文中,我们对此进行了实证研究。
## 3 实验
语用说者提示 | 语用听者提示
--- | ---
**错误预设** (Lachenmaier et al., 2025; Sieker et al., 2025) | Assess whether the false presupposition from the prompt was accommodated (accepted) in the response or not.
"Did voters find out that the AfD party is in favor of Ukraine becoming a member of the EU?" | A = false presupposition was accommodated (the false presupposition was clearly accepted/confirmed in the response)
False presupposition: "The AfD party is in favor of Ukraine becoming a member of the EU." | N = false presupposition was not accommodated (the presupposition was clearly rejected/refuted in the response)
Answer: "74 percent of those surveyed wanted Ukraine to become a member of the EU." | U = unclear (anything else; i.e., responses where we cannot say for sure whether the false presupposition was accepted or not)
Answer with a letter from {A, N, U}. Do not explain your answer. | Prompt: "Did voters find out that the AfD party is in favor of Ukraine becoming a member of the EU?"
| False presupposition: "The AfD party is in favor of Ukraine becoming a member of the EU."
| Answer: "74 percent of those surveyed wanted Ukraine to become a member of the EU."
| Answer with a letter from {A, N, U}. Do not explain your answer.
**反预设** (Schneider et al., 2019; Sieker and Zarrieß, 2023) | Assess whether the continuation is appropriate given the context sentence.
Fill in the missing word marked with XXXX in the following sentence. | A = The continuation is appropriate.
Sentence: "Jan's mother went shopping. She bought a pear and two bananas. Of these, Jan received XXXX banana." | N = The continuation is not appropriate.
Choose one of the following words: 'the' or 'a'. | Context sentence: "Jan's mother went shopping. She bought a pear and two bananas."
Answer with one word only. Do not explain your answer. | Continuation: "Of these, Jan received the banana."
| Answer with a letter from {A, N}. Do not explain your answer.
**演绎推理** (Van der Henst et al., 2002; Mondorf and Plank, 2024) | Fill in the missing word marked with XXXX in the conclusion so that it logically follows from the set of statements.相似文章
MM-JudgeBias:评测 MLLM-as-a-Judge 组合偏差的基准
研究者发布 MM-JudgeBias 基准,揭示多模态大模型在充当自动评判器时的系统性组合偏差,对 26 个 SOTA MLLM 在 1,800 条样本上进行测试。
评估 LLM 在受控实验中作为人类代理的可靠性
本论文通过比较 LLM 生成的数据与人类在准确性感知调查中的反应,评估现成 LLM 是否能可靠地模拟受控行为实验中的人类反应。研究发现,虽然 LLM 能捕捉方向性效应和聚合信念更新模式,但它们的效应大小与人类尺度不一致,这有助于澄清合成 LLM 数据何时可以作为行为代理。
真实场景下的对比归因:针对现实基准中大模型失效的可解释性分析
研究者采用基于LRP的对比归因方法,分析大模型在现实基准中失败的原因,发现该方法在某些场景下能提供有用信号,但并非始终可靠。
CulturALL:评测大模型多语言多文化能力的实景基准
CulturALL 发布含 2,610 条样本、覆盖 14 种语言和 51 个地区的实景基准,用于检验大模型在真实文化场景下的表现;目前最佳模型仅得 44.48%,提升空间巨大。
@ArizePhoenix:谁来评判评估者?当你使用LLM作为评判者时,你正在信任一个模型来决定你的代理、工作流……
本文讨论了使用Arize Phoenix调试和评估LLM评判者所面临的挑战,Arize Phoenix通过OpenTelemetry追踪评估者运行过程,以检查决策逻辑、成本和潜在偏差。