opus 4.8 仍然非常盲目 - EyeBench-V3 视觉基准测试（类似于 IBench）

Reddit r/singularity 2026/06/01 03:13 新闻

benchmark visual-ai model-evaluation eyebench opus ai-vision

摘要

EyeBench-V3 视觉基准测试评估了 Claude Opus 4.8，发现它仍然无法完成基本视觉任务，这与 IBench 类似。该基准测试是通过 Adonis Singh 的 Twitter 帖子介绍的。

https://preview.redd.it/22texjo58l4h1.png?width=3340&format=png&auto=webp&s=73039f304a4ee253ca214b3378cc14a83909fc62 [https://x.com/adonis\_singh/status/2060133072482324521](https://x.com/adonis_singh/status/2060133072482324521) [https://x.com/search?q=eyebench-v3%20(from%3Aadonis\_singh)&f=top&src=typed\_query](https://x.com/search?q=eyebench-v3%20(from%3Aadonis_singh)&f=top&src=typed_query) [https://x.com/adonis\_singh/status/2031516746570469837](https://x.com/adonis_singh/status/2031516746570469837) \- 基准测试介绍帖子

查看原文

opus 4.8 仍然非常盲目 - EyeBench-V3 视觉基准测试（类似于 IBench）

相似文章

@ItsmeAjayKV: 成就解锁：得益于RTX 3090，现在我可以运行Qwen3.6-27b密集模型。正在运行 @Alibaba_Qwen Qwen 3…

一个4b模型现在在网络研究上击败30b模型，原因不在于规模

@antirez: OpenAI 可能会推迟 GPT-6（甚至 5.6），以确保不会像 Fable 那样被屏蔽。或者他们可以聪明地行事，…

GLM-5.2 是 Artificial Analysis 上新的领先开源权重模型

GLM-5.2 (max) 目前是开源和专有模型中第三好的模型。

提交意见反馈