eyebench

标签

Cards List
#eyebench

opus 4.8 仍然非常盲目 - EyeBench-V3 视觉基准测试(类似于 IBench)

Reddit r/singularity · 2026-06-01

EyeBench-V3 视觉基准测试评估了 Claude Opus 4.8,发现它仍然无法完成基本视觉任务,这与 IBench 类似。该基准测试是通过 Adonis Singh 的 Twitter 帖子介绍的。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈