artificial-analysis

#artificial-analysis

Opus 5 目前在人工智能分析智能排行榜上排名第一

Hacker News Top ↗ · 昨天缓存

Opus 5 已荣登 Artificial Analysis Intelligence Leaderboard 榜首，该排行榜通过多个基准测试评估AI模型，包括 Artificial Analysis Intelligence Index 和 AA-Briefcase。

0 人收藏 0 人点赞

#artificial-analysis

MAI（微软人工智能）在编程方面远远落后

Reddit r/ArtificialInteligence ↗ · 4天前

文章批评微软人工智能的编码模型表现逊于Kimi K3和Deepseek V4等竞争对手，暗示尽管资源雄厚，MAI仍远远落后。

0 人收藏 0 人点赞

#artificial-analysis

Kimi K3 在 ArtificialAnalysis 上获得第三名，击败了 Claude Opus 4.8

Reddit r/singularity ↗ · 2026-07-16

Kimi K3 模型在 ArtificialAnalysis 基准测试中排名第三，超过了 Claude Opus 4.8。

0 人收藏 0 人点赞

#artificial-analysis

人工智能分析：Muse Spark 1.1 结果

Reddit r/singularity ↗ · 2026-07-10

人工智能分析报告了 Muse Spark 1.1 AI 模型的基准测试结果，并提供了性能指标。

0 人收藏 0 人点赞

#artificial-analysis

Artificial Analysis 的 GPT 5.6 系列基准测试

Reddit r/singularity ↗ · 2026-07-09 缓存

Artificial Analysis 的基准测试显示，OpenAI 的 GPT-5.6 Sol 在智能方面几乎与 Claude Fable 5 相当，但成本仅为后者的三分之一；在编程智能体评测中领先；并引入了缓存写入定价。

0 人收藏 0 人点赞

#artificial-analysis

SpaceXAI的Grok 4.5在人工智能分析智能指数中得分54，位列第四

Reddit r/singularity ↗ · 2026-07-08

SpaceXAI的Grok 4.5在人工智能分析智能指数上获得54分，排名第四。

0 人收藏 0 人点赞

#artificial-analysis

Claude Sonnet 5 人工分析结果与对比

Reddit r/singularity ↗ · 2026-06-30

提供对 Claude Sonnet 5 在各项基准测试中的性能分析和比较。

0 人收藏 0 人点赞

#artificial-analysis

开源权重大语言模型与闭源大语言模型之间的差距

Hacker News Top ↗ · 2026-06-26 缓存

使用Artificial Analysis Intelligence Index和其他基准测试分析开源权重与闭源大语言模型之间的差距，发现在某些指标上差距正在缩小，但在其他指标上保持稳定。

0 人收藏 0 人点赞

#artificial-analysis

GLM-5.2 是 Artificial Analysis 上新的领先开源权重模型

Hacker News Top ↗ · 2026-06-17 缓存

智谱AI的GLM-5.2已成为Artificial Analysis Intelligence Index上新的领先开源权重模型，得分为51，超越了MiniMax-M3和DeepSeek V4 Pro等竞争对手。该模型拥有744B总参数、40B活跃参数、MIT许可证和1M上下文窗口。

0 人收藏 0 人点赞

#artificial-analysis

GLM-5.2 (max) 目前是开源和专有模型中第三好的模型。

Reddit r/LocalLLaMA ↗ · 2026-06-17 缓存

根据 Artificial Analysis 的 Intelligence Index，GLM-5.2 (max) 目前整体上排名第三，包含对智能性、开放性、成本和令牌使用量的详细分析。

0 人收藏 0 人点赞

#artificial-analysis

Claude Fable 5 在 Artificial Analysis 上获得 65 分

Reddit r/singularity ↗ · 2026-06-09

Claude Fable 5 在 Artificial Analysis 智能指数上取得了 65 分。

0 人收藏 0 人点赞

#artificial-analysis

Qwen3.7 Max在Artificial Analysis评测中得分，27B/35B等待室

Reddit r/LocalLLaMA ↗ · 2026-05-20

Qwen3.7 Max在Artificial Analysis基准测试中排名第五，与GPT-5.4持平，并超越了刚发布的Gemini 3.5 Flash，而Qwen3.6 27B则明显落后。

0 人收藏 1 人点赞

#artificial-analysis

@draecomino: Cerebras 创下新纪录：万亿参数模型，每秒 1000 个 token

X AI KOLs Timeline ↗ · 2026-05-19 缓存

Cerebras 宣布，在企业试用中，其运行万亿参数模型 Kimi K2.6 的速度约为每秒 1000 个 token，并声称这是 Artificial Analysis 有史以来测得的最快前沿模型性能。

0 人收藏 0 人点赞

#artificial-analysis

AA 推出 Coding Agent Index —— 模型与 Harness 组合的性能对比

Reddit r/singularity ↗ · 2026-05-11

Artificial Analysis 推出了 Coding Agent Index，这是一套新的基准测试套件，结合了 SWE-Bench-Pro-Hard-AA、Terminal-Bench v2 和 SWE-Atlas-QnA，旨在评估 AI 编程代理在多样化任务中的表现。

0 人收藏 0 人点赞

#artificial-analysis

Kimi K2.6 荣登 Artificial Analysis 智能指数第 4 名

Reddit r/singularity ↗ · 2026-04-21

月之暗面 Moonshot AI 的 Kimi K2.6 首次亮相即登上 Artificial Analysis 智能指数第 4 位，为最新版模型打出亮眼基准成绩。

0 人收藏 0 人点赞

artificial-analysis

提交意见反馈