标签
BloomBench是一个基于认知理论的双语(英语-阿拉伯语)多模态视觉语言模型基准,系统评估基于布鲁姆分类学的六个认知层次。实验揭示了当前模型中显著的认知不对称和跨语言性能差距。
本文提出了一种心理测量框架及 AIQ 基准测试,用于评估生成式人工智能模型的认知特征,揭示了其演化过程的不均衡性:言语能力表现强劲,但知觉推理能力停滞不前。