MineBench上Opus 4.7与Opus 4.8的区别

Reddit r/singularity 模型

摘要

Opus 4.8在MineBench 3D方块结构基准测试中相比Opus 4.7展现出更高的构建质量和更低的成本,尽管存在一些不一致性。该模型展示了更精简的推理过程和更高的推理效率。

**一些说明:** * *平均推理时间:24.8分钟(1487秒)* * *总成本(15次构建):$41.52* * 尽管API定价相同,但比Opus 4.7便宜很多 * CoT/思考时间明显缩短(类似于OpenAI最新版本的做法),从而降低了整体成本,尽管如此,输出质量似乎比Opus 4.7更好,所以这点不错 * 在我看来,这是很长一段时间以来首批真正令人印象深刻的Claude模型之一;其构建质量实际上与GPT 5.5相当,尽管略显不稳定 * 在生成过程中,该模型不得不重试5次构建,原因要么是给定的方块调色板出现幻觉(使用了不可用的方块),要么是输出格式错误 * 这与Claude模型的表现相当,不过这次自适应思考似乎效果更好(之前的尝试中,模型会把所有输出token都用于CoT,导致没有足够的token来完成实际的JSON输出) * 在我看来,Opus 4.8相比Opus 4.7有明显改进(或者也许这就是Opus 4.7原本应有的样子🤷‍♂️) * 请随意查看[GitHub发布页](https://github.com/Ammaar-Alam/minebench/releases/tag/3.6.0)上的所有其他更新(感谢建议!) * **如果你喜欢这些帖子,请随时帮助** [**赞助**](https://buymeacoffee.com/ammaaralam) **该基准测试** **基准测试:** [https://minebench.ai/](https://minebench.ai/) **Git仓库:** [https://github.com/Ammaar-Alam/minebench](https://github.com/Ammaar-Alam/minebench) **历史帖子:** * [Comparing GPT 5.4 and GPT 5.5](https://www.reddit.com/r/singularity/comments/1sxapqb/differences_between_gpt_54_and_gpt_55_on_minebench/) * [Comparing Kimi K2.5 and Kimi K2.6](https://www.reddit.com/r/LocalLLaMA/comments/1srs4uj/differences_between_kimi_k25_and_kimi_k26_on/) * [Comparing Opus 4.6 and Opus 4.7](https://www.reddit.com/r/ClaudeAI/comments/1sofgno/differences_between_opus_46_and_opus_47_on/) * [Comparing GPT 5.4 and GPT 5.4-Pro](https://www.reddit.com/r/OpenAI/comments/1rr0vi4/differences_between_gpt_54_and_gpt_54pro_on/) * [Comparing GPT 5.2 and GPT 5.4](https://www.reddit.com/r/singularity/comments/1rluvdz/difference_between_gpt_52_and_gpt_54_on_minebench/) * [Comparing GPT 5.2 and GPT 5.3-Codex](https://www.reddit.com/r/OpenAI/comments/1rdwau3/gpt_52_versus_gpt_53codex_on_minebench/) * [Comparing Opus 4.5 and 4.6, also answered some questions about the benchmark](https://www.reddit.com/r/ClaudeAI/comments/1qx3war/difference_between_opus_46_and_opus_45_on_my_3d/) * [Comparing Opus 4.6 and GPT-5.2 Pro](https://www.reddit.com/r/OpenAI/comments/1r3v8sd/difference_between_opus_46_and_gpt52_pro_on_a/) * [Comparing Gemini 3.0 and Gemini 3.1](https://www.reddit.com/r/singularity/comments/1ra6x6n/fixed_difference_between_gemini_30_pro_and_gemini/) **补充信息(如有疑问):** 本质上,这是一个测试模型创建类似Minecraft的3D结构能力的基准测试。因此,模型会获得一个方块调色板(可以想象成乐高积木)和一个构建提示,比如帖子中看到的第一个提示是一架战斗机。然后模型必须通过返回一个JSON来构建一架战斗机,JSON中给出每个方块/乐高的坐标(x, y, z)。比较哪个模型能更好地根据给定提示创建3D表示是很有趣的。更智能的模型往往能设计出更详细、更复杂的结构。仓库的README可能会帮助你更好地理解。(免责声明:这是我创建的一个公共基准测试,所以算是一种自我推广 :))
查看原文

相似文章