LLMs-as-a-Judge在多语言环境和低资源语言中的挑战与建议
摘要
本文分析了LLM-as-a-Judge在多语言和低资源场景下的应用,发现评估结果不一致且过度信任LLM判断,并提出了改进实践的建议。
arXiv:2607.02235v1 Announce Type: new
Abstract: LLM-as-a-Judge已成为许多自然语言生成任务的主流评估范式,原因是传统指标的不足以及与人类判断的高度相关性(尽管主要是在英语中)。目前有尝试将LLM-as-a-Judge扩展到包括低资源语言在内的多语言环境。然而,LLM在低资源语言上的能力有限,并且在这些环境中往往缺乏充分的人工验证。为了突出问题的范围和当前实践,我们探索了ACL Anthology论文中针对多语言和低资源语言在不同任务中使用LLM-as-a-Judge评估器的情况。在650篇提及LLM-as-a-judge的论文中,只有33篇专注于低资源或多语言设置。我们对这些论文的深入分析表明,评估结果不一致、在多语言环境中过度信任LLM判断的趋势,以及普遍在每项研究中使用单一评判模型的现象。为了进一步帮助NLP社区,我们最后就如何在多语言和低资源环境中使用LLM-as-a-Judge提出了建议。
查看缓存全文
缓存时间: 2026/07/03 05:42
# 多语言和低资源语言环境中LLM作为裁判的挑战与建议 来源:https://arxiv.org/html/2607.02235 A\.Seza Doğruöz、Xixian Liao、Verena Blaschke、Jakob Prange、Senyu Li、David Ifeoluwa Adelani, LT3, IDLab, 根特大学, 巴塞罗那超级计算中心, 慕尼黑大学 & 慕尼黑机器学习中心, 德国儿童与青少年成瘾研究中心,汉堡-埃彭多夫大学医学中心, Mila - 魁北克人工智能研究所, 麦吉尔大学,加拿大 CIFAR AI 教席 as\.dogruoz@ugent\.be ###### 摘要 LLM作为裁判已成为许多自然语言生成任务的主流评估范式,这源于传统指标的缺陷以及其与人工判断的高度一致性(尽管主要是在英语中)。目前,研究者正尝试将LLM作为裁判扩展到包括低资源语言在内的多语言环境。然而,LLM在低资源语言上的能力有限,并且这些环境往往缺乏足够的人工验证。为了凸显问题的严重性和当前实践,我们探讨了ACL文集中关注多语言和低资源语言跨任务场景下使用LLM作为裁判评估者的论文。在650篇提及LLM作为裁判的论文中,仅有33篇聚焦于低资源或多语言环境。我们对这些论文的深入分析表明,评估结果不一致,存在在多语言环境中过度信任LLM判断的倾向,并且普遍依赖单一裁判模型。为了进一步帮助自然语言处理社区,我们最后就如何以可靠方式在多语言和低资源环境中使用LLM作为裁判提出了建议。 # 多语言和低资源语言环境中LLM作为裁判的挑战与建议 A\.Seza Doğruöz、Xixian Liao、Verena Blaschke、Jakob Prange、Senyu Li、David Ifeoluwa Adelani, LT3, IDLab, 根特大学, 巴塞罗那超级计算中心, 慕尼黑大学 & 慕尼黑机器学习中心, 德国儿童与青少年成瘾研究中心,汉堡-埃彭多夫大学医学中心, Mila - 魁北克人工智能研究所, 麦吉尔大学,加拿大 CIFAR AI 教席 as\.dogruoz@ugent\.be ## 1 引言 直到最近,自然语言处理系统的评估主要依赖人工完成,既有优势(如可靠性、忠实性、可解释性、质量控制),也有劣势,如耗时和高昂的经济成本。大语言模型已成为跨多样化任务开发自然语言处理系统的核心。除了直接执行自然语言生成和理解任务外,LLM也被越来越多地用于评估其他语言模型的输出。这一范式被称为LLM作为裁判,它受益于最先进的生成语言建模的许多特性,包括指令遵循、多步推理、通过聊天对话能力易于使用、在高资源语言上具有高语言能力,以及能够随输出和判断生成解释。虽然人类专家在整体评估质量和信任度上仍是上限,但LLM作为裁判被认为更容易、更便宜且更便于规模化。然而,关于LLM裁判是否能提供与人类判断高度相关且可靠可信的评估,研究仍然有限。这些问题此前由Zheng等人(2023)提出,他们也创造了“LLM作为裁判”这一术语,随后由Chen等人(2024b)和Bavaresco等人(2025)等人跟进。虽然其中一些研究观察到LLM与人类裁判之间存在高度相关性,但关注点仍仅限于英语。然而,目前使用LLM作为裁判的趋势已扩展并规模化到英语以外的语言,包括低资源语言。尽管一些研究指出在此类环境中可靠性较低,LLM作为裁判正成为主流评估方法,原因在于:(1) 其被认为与人类判断高度相关(通常仅针对少数语言得到验证);(2) 评估快速且廉价;(3) 传统指标(尤其是基于参考的指标)的局限性和偏见。因此,LLM作为裁判已成为自然语言处理任务(如问答和指令遵循)的主流评估范式,并且正被采纳到其他模态中,包括视觉问答和音频问答。然而,当LLM作为裁判系统在跨语言中不加充分谨慎地应用时,会出现几个关键问题,包括:(1) 评估结果取决于提示语言,且低资源语言的性能常被高估;(2) 由于LLM对低资源语言表达的输出能力有限或理解不充分,导致性能估计不准确;(3) 普遍依赖单一裁判进行评估,而未考虑多裁判或集成评估。同时,(4) 跨设置过度信任LLM判断的倾向,与(5) 评估涉及安全、公平性或文化偏见的高风险输出时所要求的极高可靠性相冲突。此前关于多语言LLM作为裁判的工作表明,对于低资源语言,判断一致性以及与人类判断的一致性可能特别弱,这引发了对LLM裁判在低资源环境中可能更不可靠的担忧,而在这些环境中,由于专家标注员稀缺,自动评估尤为诱人。然而,我们缺乏系统的分析来考察当前多语言和低资源环境中LLM作为裁判的使用在多大程度上是可靠的(即,裁判是否在目标语言中得到验证,低资源语言是否接受直接的人工或黄金标准检查,以及研究是否避免过度依赖单一通用裁判)。本文通过系统调查从多语言和低资源LLM作为裁判搜索标准中检索到的33篇符合条件的论文,填补了这一文献空白,分析了裁判如何在语言、任务和模型家族之间部署和验证,并为更可靠的跨语言评估提供了建议。 ## 2 相关工作 LLM作为裁判范式由Zheng等人(2023)引入,他们提出了MT-Bench和Chatbot Arena来评估聊天机器人与人类判断的对齐程度。他们的发现(基于英语评估)表明前沿LLM(如GPT-4)与人类判断的一致性超过80%。他们还识别出关键失败模式,如位置偏差(对候选回答呈现顺序的敏感性)、冗长偏差(偏好更长的回答而不考虑质量)和自我增强偏差(模型倾向于偏爱自己的输出)。在此基础之上,多项调查已综合了LLM基于评估的不断增长的研究。例如,Gu等人(2024)提供了关于如何构建可靠LLM作为裁判系统的全面概述,涵盖偏差缓解、一致性改进和提示设计策略;Li等人(2024)从五个视角(如功能、方法、应用、元评估和局限性)分析了LLM作为裁判的范式。类似地,Li等人(2025a)围绕三个维度组织了文献:裁判什么(质量属性,如有用性、安全性和可靠性)、如何裁判(调优和提示策略)以及如何对LLM裁判进行基准测试(将LLM作为裁判的基准按照通用性能、偏差量化、挑战性任务和领域特定设置进行分类)。然而,这些调查主要关注英语,并未系统性地解决多语言或低资源环境中的LLM作为裁判问题。 与这些调查同时,一些实证研究和立场论文对该范式的可靠性提出了重要警示。Bavaresco等人(2025)在20个自然语言处理任务上进行了大规模实证研究,发现LLM裁判在任务和数据集间表现出显著的变化性,并告诫在部署前应仔细验证。Chehbouni等人(2025)认为LLM作为裁判在其作为评估方法的有效性和可靠性被彻底审查之前已被广泛采用。尽管最近的基准如MM-Eval量化了跨语言裁判的可靠性,但尚无先前研究专门调查LLM作为裁判在多语言环境和低资源语言中的研究格局。 ## 3 文献搜索与标注方法 ### 定义 LLM作为裁判被广泛用于涵盖文献中LLM的面向评估者和面向标注者两种用途。面向评估者的环境使用LLM判断来测量、比较或验证项目(如模型响应、系统输出、检索证据或基准样例)。给定任务特定上下文(如指令、源文本、候选响应、参考答案、评分标准或标签定义),裁判产生评估输出(如分数、标签、排名、偏好判断或文本评估)。面向标注者的环境使用LLM为下游分析或训练生成标签、元数据、解释或错误注释。本文中,我们关注第一种含义,仅分析LLM作为评估者的情况。 ### 文献搜索方法 我们对ACL文集中的元数据(Bollmann等人,2023)进行了基于关键词的搜索,该文集提供了自然语言处理研究的全面结构化覆盖,包括多语言和低资源语言的工作。我们的目标并非穷举所有相关出版物,而是获取自然语言处理社区内基LLM的评估研究的代表性概述。我们将搜索作为一个轻量级、完全可复现的流水线放在项目仓库中,该仓库包含解析文集XML文件和执行关键词匹配的代码。 ### 数据来源与可复现性 我们的搜索基于官方ACL文集仓库(Apache 2.0许可证),该仓库为主要ACL会议发表的论文提供结构化XML元数据(如标题、摘要和会议信息)。为确保可复现性,我们将文集快照固定到一个提交(370911e,2025-11-14)。它包含主要的ACL会议(如ACL、EMNLP、NAACL、EACL、AACL)、两个同行评审期刊(Computational Linguistics和TACL)、其他定期NLP会议(如LREC、COLING)以及数百个专题研讨会。 ### 关键词设计与匹配 搜索应用于每篇论文标题和摘要的拼接,并由三个手动整理的关键词组驱动,目标分别为(i) LLM,(ii) 评估或裁判功能,以及(iii) 低资源或多语言上下文。匹配不区分大小写,若论文包含每个组中的至少一个关键词,则计为命中: - **LLM:** [“LLM”, “large language model”] - **Judge:** [“judge”, “evaluator”, “LLM-based evaluation”, “LLM-as-a-judge”, “LLM-based assessment”] - **Low-resource:** [“low-resource”, “low resource”, “underresourced”, “under-resourced”, “underresearched”, “under-researched”, “multilingual”] 我们将“multilingual”归入低资源组以提高召回率,因为仅靠其他低资源特定术语产生的匹配较少。我们还发现一些候选关键词(如“annotator”)常触发误报,因为它们通常指人类标注员而非自动或基于LLM的评估者。强制要求低资源相关关键词大幅减少了检索到的论文数量。具体而言,在整个ACL文集目录中,在相同约束下命中数从650降至49。 ### 标注与排除标准 我们手动审查了49篇候选论文中的每一篇,并标注了LLM的角色、被评估的任务、所覆盖的语言,以及针对人类判断或黄金标准基准标签的验证协议。我们识别出33篇论文,其中LLM被用于评估模型生成或人类生产的输出。其余16篇论文因以下原因被排除:我们排除了面向标注的论文,即其中LLM被用于直接标注文本数据而非评估先前处理步骤的输出。这些包括使用LLM进行毒性评级等工作的论文。
相似文章
实际环境中的多语言多模态大语言模型:面向低资源语言的构建
本教程论文概述了如何为低资源语言构建多语言多模态大语言模型,涵盖数据创建、模型对齐、微调和评估,重点提供实用方案和动手资源。
评判者更喜欢英语吗?评估LLM作为评判者的语言切换不变性
本文提出了Judge-LS,一种评估LLM-as-a-judge模型在英语和中文之间语言切换是否不变的协议。研究发现,语言切换会导致10.7%至14.4%的偏好翻转,且评判者在英语中达到最高准确率。
LLM裁判存在暗电流:用于LLM-as-a-Judge评估的心理测量数据表
本文介绍了一种心理测量数据表协议,用于将LLM裁判作为测量工具进行评估,测量暗电流、位置虚假偏好、稳定交叉敏感性和目标敏感性。基于三个开放权重模型的案例研究揭示了裁判质量和行为的显著差异。
抛硬币裁判?LLM-as-a-Judge评估的可靠性与偏见
本文研究了LLM-as-a-Judge评估的运行间可靠性,发现平均13.6%的成对偏好会发生翻转,GPT-4o-mini存在显著的首位偏见,并建议采用多试次聚合与位置随机化。
前沿LLM在阿拉伯文化和社会语言学知识上的基准测试:一个带有人类专家真值的交叉评估框架
本文介绍了一个交叉评估框架,用于在阿拉伯文化和社会语言学知识上对LLM进行基准测试,使用人类专家真值和自动评审。作者贡献了一个针对埃及和伊拉克阿拉伯语的提示-评分标准对数据集,评估了前沿LLM,并发现文化推理仍然是自动评分的主要失败模式。