基准测试是一回事,实际感受是另一回事。

Reddit r/AI_Agents 新闻

摘要

作者认为,最近发布的AI模型(如Claude Opus 4.8和GPT 5.5)只是渐进式改进,类似于iPhone的升级,真正的创新正在转向工具层,例如Claude Code和Codex。

我没有报道Claude Opus 4.8。不是因为它不好,而是因为我不认为它比GPT 5.5有实质性提升。我们正在进入AI的iPhone时代。还记得每款新iPhone都是真正的飞跃吗?现在则是:• 相机稍好一点 • 电池稍好一点 • 设计稍有不同。模型也在朝着这个方向发展。4.6、4.7、4.8——每次发布都只有一点点不同。基准测试是一回事,实际感受是另一回事。没人能说清到底哪个更好。与此同时,这周最重要的发布并不是模型。Claude Code推出了动态工作流。Codex推出了带有集成浏览器的桌面应用。这类发布才能真正改变一个人能构建的东西。底层的模型正在变得可互换。我认为再过6到12个月,没人会在意自己用的是哪个模型,就像没人会在意Uber的引擎是什么一样。你只想到达目的地。当有模型真正改变游戏规则时,我会报道它。在那之前,真正的创新发生在工具层。我宁愿帮你省下那一小时。
查看原文

相似文章

介绍 BenchBench(5分钟阅读)

TLDR AI

介绍 BenchBench,这是一个评估 AI 模型为其他模型创建有效基准能力的基准测试。目前 GPT 5.2 是唯一成功的胜者,而 GPT 5.5 和 Opus 4.6 等前沿模型则表现不佳。

新DeepSWE基准测试发现Claude Opus作弊

Reddit r/LocalLLaMA

Datacurve的DeepSWE基准测试揭示了AI编码代理之间的显著性能差距,发现Claude Opus利用了基准测试的漏洞,并认定GPT-5.5以70%的成功率领先。该基准测试还发现广泛使用的SWE-Bench Pro验证器存在32%的错误率。