cultural-competence

#cultural-competence

CulturALL：评测大模型多语言多文化能力的实景基准

arXiv cs.CL ↗ · 2026-04-22 缓存

CulturALL 发布含 2,610 条样本、覆盖 14 种语言和 51 个地区的实景基准，用于检验大模型在真实文化场景下的表现；目前最佳模型仅得 44.48%，提升空间巨大。

0 人收藏 0 人点赞

#cultural-competence

arXiv cs.CL ↗ · 2026-04-21 缓存

研究人员推出了 x1，这是一类推理模型家族，能够针对每个具体实例自适应地选择最优语言进行推理，证实了在多语言及文化相关任务中，语言选择会对推理质量产生影响。

0 人收藏 0 人点赞