automated-judges

标签

Cards List
#automated-judges

前沿LLM在阿拉伯文化和社会语言学知识上的基准测试:一个带有人类专家真值的交叉评估框架

arXiv cs.CL · 昨天 缓存

本文介绍了一个交叉评估框架,用于在阿拉伯文化和社会语言学知识上对LLM进行基准测试,使用人类专家真值和自动评审。作者贡献了一个针对埃及和伊拉克阿拉伯语的提示-评分标准对数据集,评估了前沿LLM,并发现文化推理仍然是自动评分的主要失败模式。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈