XLGoBench: 通过算法任务检测跨语言技能差距

arXiv cs.CL 论文

摘要

XLGoBench 引入了一个合成算法任务基准,用于检测大语言模型中的跨语言技能差距,并在多个先进模型中展示了持续的差距。

arXiv:2605.30788v1 公告类型: 新 摘要: 我们引入了一组合成算法任务,用于检测大语言模型在能力上的跨语言差距。我们的基准在不同语言之间具有可比性,因为它要求模型用不同语言执行相同的底层任务;具有可扩展性,因为每个任务可以在不同复杂度级别上生成,从而适应不同能力的模型;具有可量化性,因为每个任务都有客观的正确性概念;并且具有透明性,因为任务是从简单的模板生成的,可以轻松审计翻译错误。由于我们的基准聚焦于算法任务,性能差异是跨语言差距的充分但不必要的指标。尽管如此,我们通过大量实验表明,我们的基准揭示了多个最先进模型中的持续跨语言差距。
查看原文
查看缓存全文

缓存时间: 2026/06/01 09:28

# XLGoBench:通过算法任务检测跨语言技能差距
来源:https://arxiv.org/abs/2605.30788
查看PDF (https://arxiv.org/pdf/2605.30788)

> 摘要:我们引入了一组合成算法任务,用于检测大型语言模型在跨语言能力上的差距。我们的基准在语言间具有统一尺度,因为它要求模型使用不同语言执行相同的基础任务;具有可扩展性,因为每个任务可在不同复杂度级别上生成,从而适用于不同能力的模型;具有可量化性,因为每个任务都提供客观的正确性衡量标准;且具有透明性,因为任务由简单模板生成,可方便地审计翻译错误。由于我们的基准聚焦于算法任务,性能差异是跨语言差距的充分——而非必要——指标。尽管如此,通过大量实验,我们表明该基准揭示了多个最先进模型中持续存在的跨语言差距。

## 提交历史

来自:Suvrat Raju [查看电子邮件 (https://arxiv.org/show-email/2ee2678e/2605.30788)]  
**[v1]** 2026年5月29日星期五 03:25:32 UTC (1,537 KB)

相似文章

探索大语言模型在中文抽象语言掌握中的能力边界

arXiv cs.CL

本文介绍了Mouse基准测试,用于评估大语言模型在六个自然语言处理领域的中文抽象语言任务表现。研究表明,尽管当前最先进的模型在上下文理解任务中表现良好,但在这种亚文化网络语言上仍存在重大局限。