model-benchmarks

标签

Cards List
#model-benchmarks

Qwen3.7 Max在Artificial Analysis评测中得分,27B/35B等待室

Reddit r/LocalLLaMA · 2026-05-20

Qwen3.7 Max在Artificial Analysis基准测试中排名第五,与GPT-5.4持平,并超越了刚发布的Gemini 3.5 Flash,而Qwen3.6 27B则明显落后。

0 人收藏 1 人点赞
#model-benchmarks

@0xLogicrw: Google DeepMind 研究员 Lun Wang 宣布离职,并在一篇长文中彻底否定了现有的 AI 评测路线。 目前的评测系统全都在「刻舟求剑」,只能被动测试模型已经具备的能力,根本猜不到下一代模型会突然演化出什么新本事。比起数据、…

X AI KOLs Timeline · 2026-05-18 缓存

Google DeepMind 研究员 Lun Wang 离职并撰文批评现有 AI 评测体系,认为其落后于模型演化,无法预测新能力,导致业界处于「盲飞」状态。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈