opus 4.8 仍然非常盲目 - EyeBench-V3 视觉基准测试(类似于 IBench)
摘要
EyeBench-V3 视觉基准测试评估了 Claude Opus 4.8,发现它仍然无法完成基本视觉任务,这与 IBench 类似。该基准测试是通过 Adonis Singh 的 Twitter 帖子介绍的。
https://preview.redd.it/22texjo58l4h1.png?width=3340&format=png&auto=webp&s=73039f304a4ee253ca214b3378cc14a83909fc62 [https://x.com/adonis\_singh/status/2060133072482324521](https://x.com/adonis_singh/status/2060133072482324521) [https://x.com/search?q=eyebench-v3%20(from%3Aadonis\_singh)&f=top&src=typed\_query](https://x.com/search?q=eyebench-v3%20(from%3Aadonis_singh)&f=top&src=typed_query) [https://x.com/adonis\_singh/status/2031516746570469837](https://x.com/adonis_singh/status/2031516746570469837) \- 基准测试介绍帖子
相似文章
@ItsmeAjayKV: 成就解锁:得益于RTX 3090,现在我可以运行Qwen3.6-27b密集模型。正在运行 @Alibaba_Qwen Qwen 3…
用户使用llama.cpp在RTX 3090上对Qwen3.6-27B进行基准测试,实现了35 tok/s的生成速度和1247 tok/s的提示处理速度。
一个4b模型现在在网络研究上击败30b模型,原因不在于规模
来自Apodex家族的一个40亿参数开放模型在网页研究基准上优于300亿参数模型,这归因于精心构建的训练数据和自我验证技术,而非原始规模,表明AI能力发展趋向更民主化。
@antirez: OpenAI 可能会推迟 GPT-6(甚至 5.6),以确保不会像 Fable 那样被屏蔽。或者他们可以聪明地行事,…
Salvatore Sanfilippo 推测 OpenAI 可能会推迟 GPT-6(或 5.6)以避免像 Fable 事件那样被屏蔽,建议他们可以选择性地发布基准测试,并发布一个经过审查的网络安全模型。
GLM-5.2 是 Artificial Analysis 上新的领先开源权重模型
智谱AI的GLM-5.2已成为Artificial Analysis Intelligence Index上新的领先开源权重模型,得分为51,超越了MiniMax-M3和DeepSeek V4 Pro等竞争对手。该模型拥有744B总参数、40B活跃参数、MIT许可证和1M上下文窗口。
GLM-5.2 (max) 目前是开源和专有模型中第三好的模型。
根据 Artificial Analysis 的 Intelligence Index,GLM-5.2 (max) 目前整体上排名第三,包含对智能性、开放性、成本和令牌使用量的详细分析。