synthetic-tasks

标签

Cards List
#synthetic-tasks

XLGoBench: 通过算法任务检测跨语言技能差距

arXiv cs.CL · 4天前 缓存

XLGoBench 引入了一个合成算法任务基准,用于检测大语言模型中的跨语言技能差距,并在多个先进模型中展示了持续的差距。

0 人收藏 0 人点赞
#synthetic-tasks

CogScale: 可扩展的序列处理基准测试

arXiv cs.AI · 2026-05-20

CogScale 是一个包含14个可扩展合成任务的基准测试,旨在隔离并评估序列处理模型中的认知与记忆能力。它提供了一个轻量级框架,用于快速验证架构设计,并在严格的参数预算下评估了七种架构。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈