synthetic-tasks

#synthetic-tasks

XLGoBench: 通过算法任务检测跨语言技能差距

arXiv cs.CL ↗ · 4天前缓存

XLGoBench 引入了一个合成算法任务基准，用于检测大语言模型中的跨语言技能差距，并在多个先进模型中展示了持续的差距。

0 人收藏 0 人点赞

#synthetic-tasks

arXiv cs.AI ↗ · 2026-05-20

CogScale 是一个包含14个可扩展合成任务的基准测试，旨在隔离并评估序列处理模型中的认知与记忆能力。它提供了一个轻量级框架，用于快速验证架构设计，并在严格的参数预算下评估了七种架构。

0 人收藏 0 人点赞