标签
本文评估了监督机器学习/深度学习模型和提示大语言模型在自动进行布卢姆分类学试题分类时的跨数据集泛化能力,发现大语言模型在不同教育背景下具有更强的鲁棒性。
BloomBench是一个基于认知理论的双语(英语-阿拉伯语)多模态视觉语言模型基准,系统评估基于布鲁姆分类学的六个认知层次。实验揭示了当前模型中显著的认知不对称和跨语言性能差距。