artificial-analysis

#artificial-analysis

Claude Sonnet 5 人工分析结果与对比

Reddit r/singularity ↗ · 19小时前

提供对 Claude Sonnet 5 在各项基准测试中的性能分析和比较。

0 人收藏 0 人点赞

#artificial-analysis

Hacker News Top ↗ · 4天前缓存

使用Artificial Analysis Intelligence Index和其他基准测试分析开源权重与闭源大语言模型之间的差距，发现在某些指标上差距正在缩小，但在其他指标上保持稳定。

0 人收藏 0 人点赞

#artificial-analysis

Hacker News Top ↗ · 2026-06-17 缓存

智谱AI的GLM-5.2已成为Artificial Analysis Intelligence Index上新的领先开源权重模型，得分为51，超越了MiniMax-M3和DeepSeek V4 Pro等竞争对手。该模型拥有744B总参数、40B活跃参数、MIT许可证和1M上下文窗口。

0 人收藏 0 人点赞

#artificial-analysis

Reddit r/LocalLLaMA ↗ · 2026-06-17 缓存

根据 Artificial Analysis 的 Intelligence Index，GLM-5.2 (max) 目前整体上排名第三，包含对智能性、开放性、成本和令牌使用量的详细分析。

0 人收藏 0 人点赞

#artificial-analysis

Reddit r/singularity ↗ · 2026-06-09

Claude Fable 5 在 Artificial Analysis 智能指数上取得了 65 分。

0 人收藏 0 人点赞

#artificial-analysis

Reddit r/LocalLLaMA ↗ · 2026-05-20

Qwen3.7 Max在Artificial Analysis基准测试中排名第五，与GPT-5.4持平，并超越了刚发布的Gemini 3.5 Flash，而Qwen3.6 27B则明显落后。

0 人收藏 1 人点赞

#artificial-analysis

X AI KOLs Timeline ↗ · 2026-05-19 缓存

Cerebras 宣布，在企业试用中，其运行万亿参数模型 Kimi K2.6 的速度约为每秒 1000 个 token，并声称这是 Artificial Analysis 有史以来测得的最快前沿模型性能。

0 人收藏 0 人点赞

#artificial-analysis

Reddit r/singularity ↗ · 2026-05-11

Artificial Analysis 推出了 Coding Agent Index，这是一套新的基准测试套件，结合了 SWE-Bench-Pro-Hard-AA、Terminal-Bench v2 和 SWE-Atlas-QnA，旨在评估 AI 编程代理在多样化任务中的表现。

0 人收藏 0 人点赞

#artificial-analysis

Reddit r/singularity ↗ · 2026-04-21

月之暗面 Moonshot AI 的 Kimi K2.6 首次亮相即登上 Artificial Analysis 智能指数第 4 位，为最新版模型打出亮眼基准成绩。

0 人收藏 0 人点赞