标签
XLGoBench 引入了一个合成算法任务基准,用于检测大语言模型中的跨语言技能差距,并在多个先进模型中展示了持续的差距。
CogScale 是一个包含14个可扩展合成任务的基准测试,旨在隔离并评估序列处理模型中的认知与记忆能力。它提供了一个轻量级框架,用于快速验证架构设计,并在严格的参数预算下评估了七种架构。