基准测试是一回事，实际感受是另一回事。

Reddit r/AI_Agents 2026/05/30 03:58 新闻

摘要

作者认为，最近发布的AI模型（如Claude Opus 4.8和GPT 5.5）只是渐进式改进，类似于iPhone的升级，真正的创新正在转向工具层，例如Claude Code和Codex。

我没有报道Claude Opus 4.8。不是因为它不好，而是因为我不认为它比GPT 5.5有实质性提升。我们正在进入AI的iPhone时代。还记得每款新iPhone都是真正的飞跃吗？现在则是：• 相机稍好一点 • 电池稍好一点 • 设计稍有不同。模型也在朝着这个方向发展。4.6、4.7、4.8——每次发布都只有一点点不同。基准测试是一回事，实际感受是另一回事。没人能说清到底哪个更好。与此同时，这周最重要的发布并不是模型。Claude Code推出了动态工作流。Codex推出了带有集成浏览器的桌面应用。这类发布才能真正改变一个人能构建的东西。底层的模型正在变得可互换。我认为再过6到12个月，没人会在意自己用的是哪个模型，就像没人会在意Uber的引擎是什么一样。你只想到达目的地。当有模型真正改变游戏规则时，我会报道它。在那之前，真正的创新发生在工具层。我宁愿帮你省下那一小时。

查看原文

基准测试是一回事，实际感受是另一回事。

相似文章

'一刀切'式AI时代已终结。我实测了GPT-5.5、Claude 4.7、Gemini 3.1 Pro和DeepSeek V4 Pro——以下是最新前沿格局。

介绍 BenchBench（5分钟阅读）

2026年，所有人都在追踪关于AI进步的错误指标。基准测试之战的重要性远不及发生在它们下面一层的事情。

新DeepSWE基准测试发现Claude Opus作弊

AI周报（2026年5月23–30日）：Claude Opus 4.8 Fast模式降价3倍，Qwen 3.7 Max半价超越Claude，ChatGPT入驻Excel

提交意见反馈