MineBench上Opus 4.7与Opus 4.8的区别

Reddit r/singularity 2026/05/31 18:34 模型

model-comparison benchmark minebench opus-4.7 opus-4.8 ai-model evaluation

摘要

Opus 4.8在MineBench 3D方块结构基准测试中相比Opus 4.7展现出更高的构建质量和更低的成本，尽管存在一些不一致性。该模型展示了更精简的推理过程和更高的推理效率。

**一些说明：** * *平均推理时间：24.8分钟（1487秒）* * *总成本（15次构建）：$41.52* * 尽管API定价相同，但比Opus 4.7便宜很多 * CoT/思考时间明显缩短（类似于OpenAI最新版本的做法），从而降低了整体成本，尽管如此，输出质量似乎比Opus 4.7更好，所以这点不错 * 在我看来，这是很长一段时间以来首批真正令人印象深刻的Claude模型之一；其构建质量实际上与GPT 5.5相当，尽管略显不稳定 * 在生成过程中，该模型不得不重试5次构建，原因要么是给定的方块调色板出现幻觉（使用了不可用的方块），要么是输出格式错误 * 这与Claude模型的表现相当，不过这次自适应思考似乎效果更好（之前的尝试中，模型会把所有输出token都用于CoT，导致没有足够的token来完成实际的JSON输出） * 在我看来，Opus 4.8相比Opus 4.7有明显改进（或者也许这就是Opus 4.7原本应有的样子🤷‍♂️） * 请随意查看[GitHub发布页](https://github.com/Ammaar-Alam/minebench/releases/tag/3.6.0)上的所有其他更新（感谢建议！） * **如果你喜欢这些帖子，请随时帮助** [**赞助**](https://buymeacoffee.com/ammaaralam) **该基准测试** **基准测试：** [https://minebench.ai/](https://minebench.ai/) **Git仓库：** [https://github.com/Ammaar-Alam/minebench](https://github.com/Ammaar-Alam/minebench) **历史帖子：** * [Comparing GPT 5.4 and GPT 5.5](https://www.reddit.com/r/singularity/comments/1sxapqb/differences_between_gpt_54_and_gpt_55_on_minebench/) * [Comparing Kimi K2.5 and Kimi K2.6](https://www.reddit.com/r/LocalLLaMA/comments/1srs4uj/differences_between_kimi_k25_and_kimi_k26_on/) * [Comparing Opus 4.6 and Opus 4.7](https://www.reddit.com/r/ClaudeAI/comments/1sofgno/differences_between_opus_46_and_opus_47_on/) * [Comparing GPT 5.4 and GPT 5.4-Pro](https://www.reddit.com/r/OpenAI/comments/1rr0vi4/differences_between_gpt_54_and_gpt_54pro_on/) * [Comparing GPT 5.2 and GPT 5.4](https://www.reddit.com/r/singularity/comments/1rluvdz/difference_between_gpt_52_and_gpt_54_on_minebench/) * [Comparing GPT 5.2 and GPT 5.3-Codex](https://www.reddit.com/r/OpenAI/comments/1rdwau3/gpt_52_versus_gpt_53codex_on_minebench/) * [Comparing Opus 4.5 and 4.6, also answered some questions about the benchmark](https://www.reddit.com/r/ClaudeAI/comments/1qx3war/difference_between_opus_46_and_opus_45_on_my_3d/) * [Comparing Opus 4.6 and GPT-5.2 Pro](https://www.reddit.com/r/OpenAI/comments/1r3v8sd/difference_between_opus_46_and_gpt52_pro_on_a/) * [Comparing Gemini 3.0 and Gemini 3.1](https://www.reddit.com/r/singularity/comments/1ra6x6n/fixed_difference_between_gemini_30_pro_and_gemini/) **补充信息（如有疑问）：** 本质上，这是一个测试模型创建类似Minecraft的3D结构能力的基准测试。因此，模型会获得一个方块调色板（可以想象成乐高积木）和一个构建提示，比如帖子中看到的第一个提示是一架战斗机。然后模型必须通过返回一个JSON来构建一架战斗机，JSON中给出每个方块/乐高的坐标（x, y, z）。比较哪个模型能更好地根据给定提示创建3D表示是很有趣的。更智能的模型往往能设计出更详细、更复杂的结构。仓库的README可能会帮助你更好地理解。（免责声明：这是我创建的一个公共基准测试，所以算是一种自我推广 :)）

查看原文

MineBench上Opus 4.7与Opus 4.8的区别

相似文章

Claude Opus 4.8 与 Claude Fable 5 在 MineBench 上的差异

Opus 4.7 在 SimpleBench 上得分低于 4.6 与 4.5

Minebench中Train 5.2→5.5与Opus 4.6→Fable 5

@datacurve: Opus 4.8 现已登陆 DeepSWE。在默认高思考投入设置下，其得分比 Opus 4.7 xhigh 高出6%，同时还能降低…

@danshipper: 这不对，这是同一个模型。但它会稍微更多地回退到 Opud 4.8，所以基准测试测量的是...

提交意见反馈