cognitive-evaluation

#cognitive-evaluation

Almieyar-Oryx-BloomBench：一种用于认知驱动评估视觉语言模型的双语多模态基准

Hugging Face Daily Papers ↗ · 2026-06-04 缓存

BloomBench是一个基于认知理论的双语（英语-阿拉伯语）多模态视觉语言模型基准，系统评估基于布鲁姆分类学的六个认知层次。实验揭示了当前模型中显著的认知不对称和跨语言性能差距。

0 人收藏 0 人点赞

#cognitive-evaluation

Reddit r/singularity ↗ · 2026-05-11 缓存

本文提出了一种心理测量框架及 AIQ 基准测试，用于评估生成式人工智能模型的认知特征，揭示了其演化过程的不均衡性：言语能力表现强劲，但知觉推理能力停滞不前。

0 人收藏 0 人点赞