标签
本文提出了Judge-LS,一种评估LLM-as-a-judge模型在英语和中文之间语言切换是否不变的协议。研究发现,语言切换会导致10.7%至14.4%的偏好翻转,且评判者在英语中达到最高准确率。
作者观察到LLMs根据语言表现出教派偏见(英语偏向新教,西班牙语/法语/葡萄牙语偏向天主教),并介绍了一款名为Biblians的免费圣经学习应用。
一项实验用同一个关于LENR和超导性的研究提示词,通过5种语言的6个AI系统运行,揭示了显著的语言偏差——非英语查询会呈现出纯英语搜索所遗漏的真实工业承诺信息。
本文证明了大语言模型严重偏向英语,并表明持续预训练在将模型适配到其他语言(尤其是文化理解方面)时,并不比从头训练更具成本优势。
研究者发现多语言 RAG 重排器存在系统性英语与查询语言偏见,提出 LAURA——一种面向效用的对齐方法,通过跨语言检索答案关键文档显著提升性能。