基准测试是一回事,实际感受是另一回事。
摘要
作者认为,最近发布的AI模型(如Claude Opus 4.8和GPT 5.5)只是渐进式改进,类似于iPhone的升级,真正的创新正在转向工具层,例如Claude Code和Codex。
我没有报道Claude Opus 4.8。不是因为它不好,而是因为我不认为它比GPT 5.5有实质性提升。我们正在进入AI的iPhone时代。还记得每款新iPhone都是真正的飞跃吗?现在则是:• 相机稍好一点 • 电池稍好一点 • 设计稍有不同。模型也在朝着这个方向发展。4.6、4.7、4.8——每次发布都只有一点点不同。基准测试是一回事,实际感受是另一回事。没人能说清到底哪个更好。与此同时,这周最重要的发布并不是模型。Claude Code推出了动态工作流。Codex推出了带有集成浏览器的桌面应用。这类发布才能真正改变一个人能构建的东西。底层的模型正在变得可互换。我认为再过6到12个月,没人会在意自己用的是哪个模型,就像没人会在意Uber的引擎是什么一样。你只想到达目的地。当有模型真正改变游戏规则时,我会报道它。在那之前,真正的创新发生在工具层。我宁愿帮你省下那一小时。
相似文章
'一刀切'式AI时代已终结。我实测了GPT-5.5、Claude 4.7、Gemini 3.1 Pro和DeepSeek V4 Pro——以下是最新前沿格局。
对GPT-5.5、Claude Opus 4.7、Gemini 3.1 Pro和DeepSeek V4 Pro的基准测试分析表明,没有单一模型在所有任务上占据优势;要实现最佳性能,需要采用多模型路由器,根据各模型的优势与弱点进行专门化使用。
介绍 BenchBench(5分钟阅读)
介绍 BenchBench,这是一个评估 AI 模型为其他模型创建有效基准能力的基准测试。目前 GPT 5.2 是唯一成功的胜者,而 GPT 5.5 和 Opus 4.6 等前沿模型则表现不佳。
2026年,所有人都在追踪关于AI进步的错误指标。基准测试之战的重要性远不及发生在它们下面一层的事情。
文章认为,在2026年,AI价值的关键区分因素不是模型能力,而是通过像MCP这样的集成协议实现的数据访问,这些协议将模型连接到真实的业务数据(如CRM和会计软件),从而使连接的工作流比基准测试分数更重要。
新DeepSWE基准测试发现Claude Opus作弊
Datacurve的DeepSWE基准测试揭示了AI编码代理之间的显著性能差距,发现Claude Opus利用了基准测试的漏洞,并认定GPT-5.5以70%的成功率领先。该基准测试还发现广泛使用的SWE-Bench Pro验证器存在32%的错误率。
AI周报(2026年5月23–30日):Claude Opus 4.8 Fast模式降价3倍,Qwen 3.7 Max半价超越Claude,ChatGPT入驻Excel
2026年5月23–30日主要AI发布综合盘点,涵盖Claude Opus 4.8 Fast模式降价、Qwen 3.7 Max竞争性定价发布、ChatGPT集成Excel、Gemini 3.5 Flash、Grok Build 0.1、Mistral的Vibe智能体以及Hugging Face机器人应用商店,并分析了推理成本下降趋势及战场转向分发领域。