XLGoBench: 通过算法任务检测跨语言技能差距
摘要
XLGoBench 引入了一个合成算法任务基准,用于检测大语言模型中的跨语言技能差距,并在多个先进模型中展示了持续的差距。
arXiv:2605.30788v1 公告类型: 新
摘要: 我们引入了一组合成算法任务,用于检测大语言模型在能力上的跨语言差距。我们的基准在不同语言之间具有可比性,因为它要求模型用不同语言执行相同的底层任务;具有可扩展性,因为每个任务可以在不同复杂度级别上生成,从而适应不同能力的模型;具有可量化性,因为每个任务都有客观的正确性概念;并且具有透明性,因为任务是从简单的模板生成的,可以轻松审计翻译错误。由于我们的基准聚焦于算法任务,性能差异是跨语言差距的充分但不必要的指标。尽管如此,我们通过大量实验表明,我们的基准揭示了多个最先进模型中的持续跨语言差距。
查看缓存全文
缓存时间: 2026/06/01 09:28
# XLGoBench:通过算法任务检测跨语言技能差距 来源:https://arxiv.org/abs/2605.30788 查看PDF (https://arxiv.org/pdf/2605.30788) > 摘要:我们引入了一组合成算法任务,用于检测大型语言模型在跨语言能力上的差距。我们的基准在语言间具有统一尺度,因为它要求模型使用不同语言执行相同的基础任务;具有可扩展性,因为每个任务可在不同复杂度级别上生成,从而适用于不同能力的模型;具有可量化性,因为每个任务都提供客观的正确性衡量标准;且具有透明性,因为任务由简单模板生成,可方便地审计翻译错误。由于我们的基准聚焦于算法任务,性能差异是跨语言差距的充分——而非必要——指标。尽管如此,通过大量实验,我们表明该基准揭示了多个最先进模型中持续存在的跨语言差距。 ## 提交历史 来自:Suvrat Raju [查看电子邮件 (https://arxiv.org/show-email/2ee2678e/2605.30788)] **[v1]** 2026年5月29日星期五 03:25:32 UTC (1,537 KB)
相似文章
GaoYao基准:全面评估大模型多语言与多文化能力的新框架
GaoYao发布18.2万样本、覆盖26种语言与51个地区的基准,系统评测大模型多语言与多文化能力,首次揭示显著地域性能差异。
SkillLearnBench:面向真实任务代理技能生成的持续学习方法基准
SkillLearnBench 推出首个评估 LLM 代理持续技能学习的基准,覆盖 20 项真实任务,结果显示尚无方法全面领先,单纯扩大模型规模也无法保证技能提升。
CulturALL:评测大模型多语言多文化能力的实景基准
CulturALL 发布含 2,610 条样本、覆盖 14 种语言和 51 个地区的实景基准,用于检验大模型在真实文化场景下的表现;目前最佳模型仅得 44.48%,提升空间巨大。
探索大语言模型在中文抽象语言掌握中的能力边界
本文介绍了Mouse基准测试,用于评估大语言模型在六个自然语言处理领域的中文抽象语言任务表现。研究表明,尽管当前最先进的模型在上下文理解任务中表现良好,但在这种亚文化网络语言上仍存在重大局限。
XL-SafetyBench:一个基于国家的跨文化LLM安全与文化敏感性基准
XL-SafetyBench是一个包含5500个测试用例的基准,涵盖10个国家-语言对,用于评估LLM安全性和文化敏感性,区分越狱鲁棒性与文化意识。