automated-judges

#automated-judges

前沿LLM在阿拉伯文化和社会语言学知识上的基准测试：一个带有人类专家真值的交叉评估框架

arXiv cs.CL ↗ · 昨天缓存

本文介绍了一个交叉评估框架，用于在阿拉伯文化和社会语言学知识上对LLM进行基准测试，使用人类专家真值和自动评审。作者贡献了一个针对埃及和伊拉克阿拉伯语的提示-评分标准对数据集，评估了前沿LLM，并发现文化推理仍然是自动评分的主要失败模式。

0 人收藏 0 人点赞