model-benchmarks

#model-benchmarks

DeepSeek-V4-Flash-0731 在基准测试中现已大幅超越 DeepSeek-V4-Pro-Preview

Reddit r/LocalLLaMA ↗ · 16小时前

DeepSeek 的新 V4-Flash-0731 模型在基准测试中的表现现已远远优于 V4-Pro-Preview，标志着该模型系列取得了显著进步。

0 人收藏 0 人点赞

#model-benchmarks

X AI KOLs Timeline ↗ · 6天前缓存

一项比较显示，LLM在2026年IMO上的表现因评估框架的不同而有巨大差异，结构化多智能体设置比简单网页界面获得的分数高得多，表明当前收益在前沿被更好的编排所吸收。

0 人收藏 0 人点赞

#model-benchmarks

X AI KOLs Following ↗ · 2026-06-25 缓存

关于测试时计算中动态工作流的讨论，包括其有限的用例、对研究实验的好处，以及对更好基准测试的需求。提及了用于智能体编排的模型如Mythos和Opus 4.8。

0 人收藏 0 人点赞

#model-benchmarks

Reddit r/MachineLearning ↗ · 2026-06-25

作者描述了由于供应商创建的指标、自报参数和缺乏独立验证而对公开AI模型基准测试失去信心，并主张从真实生产流量中构建自定义评估集以进行更相关的模型比较。

0 人收藏 0 人点赞

#model-benchmarks

Reddit r/LocalLLaMA ↗ · 2026-05-20

Qwen3.7 Max在Artificial Analysis基准测试中排名第五，与GPT-5.4持平，并超越了刚发布的Gemini 3.5 Flash，而Qwen3.6 27B则明显落后。

0 人收藏 1 人点赞

#model-benchmarks

X AI KOLs Timeline ↗ · 2026-05-18 缓存

Google DeepMind 研究员 Lun Wang 离职并撰文批评现有 AI 评测体系，认为其落后于模型演化，无法预测新能力，导致业界处于「盲飞」状态。

0 人收藏 0 人点赞