ai-benchmarking

#ai-benchmarking

@AnthropicAI：每次发布新模型时，我们都会运行相同的测试：给模型一段训练小型AI模型的代码，要求新模型对其进行加速。

X AI KOLs ↗ · 2026-06-04

Anthropic 分享了内部基准测试结果，展示了AI编码能力的显著提升：2024年5月，Claude Opus 4 在机器学习代码优化任务上平均加速约3倍；而今年4月发布的新模型 Mythos Preview 达到了约52倍加速，相比之下，一位熟练人类工程师需要4-8小时才能实现4倍加速。

0 人收藏 0 人点赞

#ai-benchmarking

Reddit r/singularity ↗ · 2026-05-31

这篇文章批评 Arena.ai 涉嫌运行不诚实的基准测试，声称其将 GPT 5.5 在编程能力上排在 Meta 的 Muse Spark 之下，并将 Grok Imagine 在视频生成方面排在 Seedance 之上，作者断言这是客观错误的。

0 人收藏 0 人点赞

#ai-benchmarking

X AI KOLs Following ↗ · 2026-05-12

作者推出了“AI IQ”，这是一款新工具，按人类智商量表对前沿 AI 模型进行评分，提供模型性能、智能成本以及情商对比的可视化图表，而非传统的排行榜表格。

0 人收藏 0 人点赞

#ai-benchmarking

Reddit r/singularity ↗ · 2026-05-11

Artificial Analysis 推出了 Coding Agent Index，这是一套新的基准测试套件，结合了 SWE-Bench-Pro-Hard-AA、Terminal-Bench v2 和 SWE-Atlas-QnA，旨在评估 AI 编程代理在多样化任务中的表现。

0 人收藏 0 人点赞

#ai-benchmarking

Reddit r/artificial ↗ · 2026-05-07

作者介绍了effectiveTPS的网站计划，这是一款使用新的'eTPS'指标（有效TPS）以及原始速度和延迟来比较本地AI模型的工具。其目标是提供一个简单的排行榜，突出展示有用的输出质量，而非原始营销数字。

0 人收藏 0 人点赞

#ai-benchmarking

Google DeepMind Blog ↗ · 2025-10-23 缓存

Google DeepMind和Kaggle推出了Kaggle Game Arena，一个开源的AI基准测试平台，让大型语言模型在策略游戏中进行对抗，从而提供动态的、可验证的能力评估。该平台通过提供明确的胜负条件和清晰的性能信号，克服了传统基准测试的局限性。

0 人收藏 0 人点赞