cognitive-evaluation

标签

Cards List
#cognitive-evaluation

Almieyar-Oryx-BloomBench:一种用于认知驱动评估视觉语言模型的双语多模态基准

Hugging Face Daily Papers · 2026-06-04 缓存

BloomBench是一个基于认知理论的双语(英语-阿拉伯语)多模态视觉语言模型基准,系统评估基于布鲁姆分类学的六个认知层次。实验揭示了当前模型中显著的认知不对称和跨语言性能差距。

0 人收藏 0 人点赞
#cognitive-evaluation

生成式人工智能模型代际间认知能力的不均衡演化

Reddit r/singularity · 2026-05-11 缓存

本文提出了一种心理测量框架及 AIQ 基准测试,用于评估生成式人工智能模型的认知特征,揭示了其演化过程的不均衡性:言语能力表现强劲,但知觉推理能力停滞不前。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈