评判者更喜欢英语吗?评估LLM作为评判者的语言切换不变性
摘要
本文提出了Judge-LS,一种评估LLM-as-a-judge模型在英语和中文之间语言切换是否不变的协议。研究发现,语言切换会导致10.7%至14.4%的偏好翻转,且评判者在英语中达到最高准确率。
arXiv:2606.14278v1 Announce Type: new
摘要:大型语言模型(LLM)现在被广泛用作自动评判者,用于评估开放式指令跟随。这种做法方便、可扩展,且通常比基于参考的指标更具语义感知能力,但也引入了一个新的可靠性问题:评判者评估的是答案的质量,还是也对比较所使用的语言做出反应?我们提出了Judge-LS,一种轻量级元评估协议,将LLMBar响应配对项转换为英文、中文以及中英文语言切换变体。可靠的评判者应在保持标签的语言转换下保持其偏好,且当两个答案翻译等价时不应偏好某种语言。我们在完整的419项LLMBar基准上评估了四个可通过API访问的评判者,产生了13,408次成功的成对判断。在所有模型中,中文和语言切换的呈现相对于英文引起了10.7%至14.4%的偏好翻转,并且所有评判者在英文中达到最高准确率。然而,翻译等价的平局探针并未显示出系统性的英文偏好:大多数探针被判定为平局,而非平局决策更常偏向中文。我们加入了置信区间、配对显著性检验,以及一项自动转换审计,并进行了敏感性分析,排除了机械标记的高风险变体。该实验不需要模型训练,仅使用API调用,并且在适度的本地硬件上即可完成。
查看缓存全文
缓存时间: 2026/06/15 08:58
# 评判者偏爱英语吗?评估LLM-as-a-Judge中的语言切换不变性
来源:https://arxiv.org/html/2606.14278
陈绍杰 上海人工智能实验室 上海,中国 Misaka10086@sjtu\.edu\.cn ORCID: 0009\-0008\-1526\-1824 (https://orcid.org/0009-0008-1526-1824)
## 摘要
大型语言模型(LLM)现在被广泛用作开放式指令遵循评估的自动评判者。这种实践方便、可扩展,并且通常比基于参考的指标具有更好的语义感知能力,但它也引入了一个新的可靠性问题:评判者是在评估答案的质量,还是也对比较呈现的语言作出反应?我们提出Judge-LS,一个轻量级的元评估协议,将LLMBar响应对项目转换为英语、中文和中文-英语语言切换变体。一个可靠的评判者应该在标签保持的语言转换下保持其偏好,并且当两个答案是翻译等价时不应偏好某一语言。我们在完整的419项LLMBar基准上评估了四个可通过API访问的评判者,产生了13,408次成功的成对判断。在所有模型中,中文和语言切换呈现相对于英语导致了10.7–14.4%的偏好翻转,并且所有评判者在英语中达到最高准确性。然而,翻译等价的平局探针并未揭示出系统的英语偏好:大多数探针被判定为平局,而非平局判决更常偏向中文。我们添加了置信区间、配对显著性检验、自动转换审计以及排除机械标记高风险变体的敏感性分析。该实验无需模型训练,仅使用API调用,并且在适度的本地硬件上可行。
## 1 引言
自动评估已成为构建和比较LLM系统的实际瓶颈之一。人工偏好标注昂贵、缓慢,并且每当模型、提示或解码策略发生变化时难以重复。因此,LLM-as-a-Judge已成为人工评估的常见替代或预筛选工具。评判者模型接收指令和一个或多个候选答案,然后要求其产生偏好、评分或解释。这种设置已用于聊天基准、指令遵循比较,并越来越多地用于多模态或领域特定评估。
LLM评判者的吸引力显而易见:它们可以阅读开放式输出、推理任务要求,并大规模产生结构化决策。风险也同样明显:评判者本身是另一个模型,有其自身的偏见。先前的工作已记录了位置偏见、冗长偏见、自我偏好、提示敏感性以及在判断指令遵循行为方面的局限性\[2 (https://arxiv.org/html/2606.14278#bib.bib2),3 (https://arxiv.org/html/2606.14278#bib.bib3),4 (https://arxiv.org/html/2606.14278#bib.bib4),10 (https://arxiv.org/html/2606.14278#bib.bib10),12 (https://arxiv.org/html/2606.14278#bib.bib12),13 (https://arxiv.org/html/2606.14278#bib.bib13)\]。这些偏见之所以重要,是因为评估结果会影响模型选择、排行榜排名和研究结论。
本文研究一个虽小但重要的可靠性问题:*当相同的成对比较以英语、中文或中文-英语语言切换方式呈现时,评判者是否保持其偏好?* 如果两个答案对仅通过标签保持的语言转换而不同,那么评判者理想上应做出相同的选择。如果最佳答案被翻译成中文并与相同的英语答案进行比较,评判者通常应判定平局,而不是偏爱某个特定语言。对这些期望的违反意味着评估流程对表面呈现敏感,而不仅仅是响应质量。
我们聚焦于英汉两种语言,因为中文在真实的多语言LLM部署中被广泛使用,并且语言切换在技术、教育和在线交流中很常见。本研究针对低资源实验环境设计:不训练任何模型,不要求本地大型模型推理,适度的本地GPU不是瓶颈。所有生成和判断均通过API调用完成,而本地机器负责编排、解析、绘图和LaTeX编译。
我们的贡献包括:
- 我们引入了Judge-LS,一个简单的协议,用于测试成对LLM-as-a-Judge评估中的语言切换不变性。
- 我们将完整的419项LLMBar基准转换为英语、中文和中文-英语语言切换变体,保留了原始的金标准偏好标签。
- 我们使用13,408次成功判断评估了四个可通过API访问的评判者,包括答案顺序交换和翻译等价平局探针。
- 我们不仅报告准确率,还报告语言不变性翻转率、金标准正确性翻转率、位置不一致性、来源级鲁棒性、语言偏好、不确定性估计、配对显著性检验和使用成本。
参见图例图1:Judge-LS概述。完整的LLMBar响应对基准被转换为英语、中文和中文-英语语言切换变体。四个API评判者通过答案顺序交换和翻译等价平局探针进行评估,然后通过准确率、判断翻转率、正确性翻转率、位置不一致性、语言偏好和转换审计诊断进行总结。
## 2 相关工作
### 自动文本评估。
早期的自动评估指标通过减少或替代人工标注,使大规模模型比较变得可行。BLEU和ROUGE利用词汇重叠进行机器翻译和摘要评估\[5 (https://arxiv.org/html/2606.14278#bib.bib5),6 (https://arxiv.org/html/2606.14278#bib.bib6)\]。后来的学习型或基于嵌入的指标,如BERTScore和COMET,改进了语义匹配和多语言机器翻译质量估计\[7 (https://arxiv.org/html/2606.14278#bib.bib7),8 (https://arxiv.org/html/2606.14278#bib.bib8)\]。LLM-as-a-Judge延续了这一走向语义评估的轨迹,但它也继承了一个更困难的可靠性问题:评估者是一个生成模型,其决策可能随着提示形式、答案顺序或语言呈现而改变。
### LLM-as-a-Judge。
G-Eval表明,当使用明确标准提示时,GPT-4风格的评估者可以与人类评分更好地对齐,优于许多传统的自然语言生成指标\[2 (https://arxiv.org/html/2606.14278#bib.bib2)\]。MT-Bench和Chatbot Arena推广了LLM评判者用于成对对话评估,并分析了位置和冗长效应等偏见\[4 (https://arxiv.org/html/2606.14278#bib.bib4)\]。AlpacaFarm和AlpacaEval使用低成本成对反馈或自动标注来比较指令遵循模型,而长度控制的AlpacaEval显式地消除了冗长效应偏见\[9 (https://arxiv.org/html/2606.14278#bib.bib9),10 (https://arxiv.org/html/2606.14278#bib.bib10)\]。Prometheus研究了为细粒度基于评分集的评估而训练的开源评估者模型\[11 (https://arxiv.org/html/2606.14278#bib.bib11)\]。LLMBar针对更严格的元评估设置:评估者必须识别两个输出中哪个在客观上更好地遵循指令\[3 (https://arxiv.org/html/2606.14278#bib.bib3)\]。我们使用LLMBar是因为其金标准标签使得可以测量评判者的决策在语言转换下何时发生变化。
### 评判者偏见与校准。
FairEval表明,简单地交换候选顺序可以改变LLM评判者的排名,并提出了位置平衡校准\[12 (https://arxiv.org/html/2606.14278#bib.bib12)\]。其他工作表明,自动评估者可能偏爱更长的答案甚至其自身的生成\[10 (https://arxiv.org/html/2606.14278#bib.bib10),13 (https://arxiv.org/html/2606.14278#bib.bib13)\]。这些研究促使我们进行答案顺序交换,并决定报告不变性指标而非仅聚合准确率。Judge-LS增加了一个语言表面干预:答案内容旨在保持标签不变,而呈现语言发生变化。
### 多语言评判者可靠性。
多语言LLM评估不仅仅是翻译成其他语言的英语评估。评判者可能在不同语言中具有不同的能力、校准和文化假设。诸如XTREME、MEGA和多语言ChatGPT评估等广泛的多语言基准显示,模型行为在不同语言和资源水平上差异显著\[14 (https://arxiv.org/html/2606.14278#bib.bib14),15 (https://arxiv.org/html/2606.14278#bib.bib15),16 (https://arxiv.org/html/2606.14278#bib.bib16),17 (https://arxiv.org/html/2606.14278#bib.bib17)\]。最近关于多语言LLM-as-a-Judge可靠性的工作报告称,在许多非英语环境下一致性较低\[1 (https://arxiv.org/html/2606.14278#bib.bib1)\]。Judge-LS是互补性的:它不是调查多种语言,而是隔离了一个受控的英汉语言切换干预,作用于相同的成对比较。这使我们能够询问:当预期的质量关系固定时,评判者是否对语言呈现保持不变性。
### 评估基准与领域鲁棒性。
Judge-LS也受到来自可信AI和多模态基准的更广泛评估工作的启发。AIBench在45度角原则下研究可信评估原则,而最近一篇大型多模态模型综述总结了现代多模态系统的评估维度\[18 (https://arxiv.org/html/2606.14278#bib.bib18),19 (https://arxiv.org/html/2606.14278#bib.bib19)\]。田作为第一作者的相关工作研究视频理解、动作识别、视频压缩和表示学习基准,包括早期ASD检测、事件自适应动作识别、低比特率视频理解、语义视频压缩、视频缩放和自监督运动表示\[20 (https://arxiv.org/html/2606.14278#bib.bib20),21 (https://arxiv.org/html/2606.14278#bib.bib21),22 (https://arxiv.org/html/2606.14278#bib.bib22),23 (https://arxiv.org/html/2606.14278#bib.bib23),24 (https://arxiv.org/html/2606.14278#bib.bib24),25 (https://arxiv.org/html/2606.14278#bib.bib25),26 (https://arxiv.org/html/2606.14278#bib.bib26),27 (https://arxiv.org/html/2606.14278#bib.bib27)\]。这些努力促使我们强调评估者鲁棒性,而不是将基准分数视为透明的测量。
## 3 Judge-LS协议
### 3.1 基础数据
我们使用LLMBar,一个419项基准,用于评估LLM评估者是否能判断指令遵循响应\[3 (https://arxiv.org/html/2606.14278#bib.bib3)\]。每个项目包含一个指令、两个候选输出以及一个客观的金标准标签,指示输出1还是输出2更好地遵循指令。LLMBar包含一个自然子集和四个对抗性子集。在我们的完整实验中,来源分布如下:
使用所有LLMBar项目避免了早期试点运行的采样不确定性。由于该基准是成对且带有标签的,它支持标准准确率和不变性诊断。
### 3.2 语言转换
对于每个LLMBar项目,我们保留原始英语版本,并创建另外两个版本:
- ZH:指令和两个候选输出都被翻译成自然的简体中文。
- LS:项目被转换为自然的中文-英语语言切换,适当时保留英语任务术语、命名实体或技术术语。
我们使用gpt-4.1-mini作为转换模型。提示明确要求模型保留每一个事实、数学、格式和指令遵循错误。这一点很重要,因为静默修复较弱答案的翻译会使原始金标准标签无效。有一个项目由于词汇测验中的嵌套引号而反复产生无效JSON;我们手动修复了该项目,同时保持了相同的响应质量关系。
### 3.3 转换审计
由于标签保持是一个核心假设,我们在解释评判者行为之前添加了自动审计。审计验证每个唯一项目是否具有完整的英语、中文和语言切换的指令和响应字段,然后保守地标记那些可能需要人工审查的变体,例如因为空字段、严重长度缩减或数字标记计数的大幅变化。这些检查是机械性的而非语义性的:例如,数字标记不匹配可能由有效的中文单位转换引起。因此,我们将完整的419项数据集作为主要实验,并报告一个排除19个标记高风险变体的敏感性分析。
### 3.4 判断构建
对于每个项目和每个语言条件,评判者接收指令和两个标记为A和B的响应。我们评估原始和交换的响应顺序。在模型选择A、B或平局后,我们将输出映射回原始输出ID。这每个评判者对每个项目产生六个质量判断:
3个语言条件 × 2个答案顺序。
我们还为每个项目创建两个平局探针。英语中的金标准答案与其中文翻译在两个顺序下进行比较。在这种设置中,预期的答案为平局。我们使用金标准答案,因为它是语义上最可能完整且最不可能包含脆弱错误的响应,这些错误的翻译可能产生新的质量差异。较弱答案的平局探针将是有用的,但它可能将语言偏好与错误保持漂移混淆。在保守的高质量等价条件下,在多个金标准探针中选择英语或中文的评判者因此表现出语言偏好而非质量敏感性。每个项目为每个模型产生八个判断。
## 4 指标
#### 平局半准确率。
令 \\(\\hat{y}\_j\\) 为质量比较 \\(j\\) 的归一化判断,\\(y_j\\) 为 LLMBar 金标准标签。我们报告严格准确率和平局半准确率:
\\[
\\mathrm{Acc}_{1/2}=\\frac{1}{N}\\sum\_j\\begin{cases}1 & \\hat{y}\_j=y\_j,\\\\ 0.5 & \\hat{y}\_j=\\textsc{Tie},\\\\ 0 & \\text{otherwise}. \\end{cases}
\\]
平局半准确率很有用,因为某些模型输出确实报告了不确定性。严格准确率将所有平局视为错误。我们在论文中同时报告这两个指标,因为它们回答不同的问题:严格准确率衡量与 LLMBar 的决定性一致,而平局半准确率避免将不确定性视为完全错误。
#### 语言不变性翻转率。
对于目标语言 \\(l \\in \\{\\mathrm{ZH}, \\mathrm{LS}\\}\\),我们将英语中的归一化判断与转换呈现下的判断进行比较:
\\[
\\mathrm{Flip}(l)=\\frac{1}{N}\\sum\_{i,o} \\mathbb{1}[\\hat{y}\_{i,\\mathrm{EN},o} \\neq \\hat{y}\_{i,l,o}],
\\]
其中 \\(i\\) 索引项目,\\(o\\) 索引答案顺序。我们还报告金标准正确性翻转率:评判者在语言转换后是否从正确变为错误,或从错误变为正确。
#### 位置不一致性。
对于每个项目和语言条件,我们比较交换响应顺序前后的归一化决策。如果归一化胜者改变,则评判者位置不一致。该指标特别重要,因为语言效应和答案顺序效应可能相互作用。
#### 平局探针语言偏好。
对于翻译等价的探针,我们统计英语胜出、中文胜出和相似文章
你的LLM评判者有多虚伪?大型语言模型语用能力中的听者-说者不对称性
本文通过比较LLM作为语言恰当性评判者与作为语用恰当语言生成者的表现,研究了LLM语用能力中的不对称性。研究发现,许多模型作为语用听者的表现显著优于作为说者的表现,表明评估能力与生成能力之间存在错位。
抛硬币裁判?LLM-as-a-Judge评估的可靠性与偏见
本文研究了LLM-as-a-Judge评估的运行间可靠性,发现平均13.6%的成对偏好会发生翻转,GPT-4o-mini存在显著的首位偏见,并建议采用多试次聚合与位置随机化。
评判电路
本文研究了LLM-as-a-judge的内部机制,发现模型在中期到后期的多层感知机(MLP)中共享一个稀疏的潜在评估器子图,该子图处理抽象评判,而格式特定的终端分支将评判映射到输出令牌,揭示了格式导致的不一致性的原因。
DLawBench:通过多轮法律咨询评估大语言模型
DLawBench是一个新的基准测试,用于评估大语言模型在多轮法律咨询中的表现,涵盖中国和美国法律,包含四种客户类型。实验表明仍有很大改进空间,最佳模型在法律推理上仅达到0.562。
将LLM性别偏见锚定于人类基线:一项跨语言审计
本文对六种大型语言模型在英语、韩语、中文和日语中的性别刻板印象进行审计,并以人类基线作为锚定。研究发现,LLM的刻板印象程度往往超过人类跨国差异,且可能跨语言叠加,为此引入了一个四模式框架来表征此类行为。