XLGoBench: 通过算法任务检测跨语言技能差距

arXiv cs.CL 2026/06/01 04:00 论文

cross-lingual benchmark algorithmic-tasks llm-evaluation language-gaps synthetic-tasks

摘要

XLGoBench 引入了一个合成算法任务基准，用于检测大语言模型中的跨语言技能差距，并在多个先进模型中展示了持续的差距。

arXiv:2605.30788v1 公告类型: 新摘要: 我们引入了一组合成算法任务，用于检测大语言模型在能力上的跨语言差距。我们的基准在不同语言之间具有可比性，因为它要求模型用不同语言执行相同的底层任务；具有可扩展性，因为每个任务可以在不同复杂度级别上生成，从而适应不同能力的模型；具有可量化性，因为每个任务都有客观的正确性概念；并且具有透明性，因为任务是从简单的模板生成的，可以轻松审计翻译错误。由于我们的基准聚焦于算法任务，性能差异是跨语言差距的充分但不必要的指标。尽管如此，我们通过大量实验表明，我们的基准揭示了多个最先进模型中的持续跨语言差距。

查看原文

查看缓存全文

缓存时间: 2026/06/01 09:28

# XLGoBench：通过算法任务检测跨语言技能差距
来源：https://arxiv.org/abs/2605.30788
查看PDF (https://arxiv.org/pdf/2605.30788)

> 摘要：我们引入了一组合成算法任务，用于检测大型语言模型在跨语言能力上的差距。我们的基准在语言间具有统一尺度，因为它要求模型使用不同语言执行相同的基础任务；具有可扩展性，因为每个任务可在不同复杂度级别上生成，从而适用于不同能力的模型；具有可量化性，因为每个任务都提供客观的正确性衡量标准；且具有透明性，因为任务由简单模板生成，可方便地审计翻译错误。由于我们的基准聚焦于算法任务，性能差异是跨语言差距的充分——而非必要——指标。尽管如此，通过大量实验，我们表明该基准揭示了多个最先进模型中持续存在的跨语言差距。

## 提交历史

来自：Suvrat Raju [查看电子邮件 (https://arxiv.org/show-email/2ee2678e/2605.30788)]  
**[v1]** 2026年5月29日星期五 03:25:32 UTC (1,537 KB)

XLGoBench: 通过算法任务检测跨语言技能差距

相似文章

GaoYao基准：全面评估大模型多语言与多文化能力的新框架

PolyWorkBench: 多语言长周期LLM智能体基准测试

SkillLearnBench：面向真实任务代理技能生成的持续学习方法基准

LLM基准测试

CulturALL：评测大模型多语言多文化能力的实景基准

提交意见反馈