MineBench上Opus 4.7与Opus 4.8的区别
摘要
Opus 4.8在MineBench 3D方块结构基准测试中相比Opus 4.7展现出更高的构建质量和更低的成本,尽管存在一些不一致性。该模型展示了更精简的推理过程和更高的推理效率。
**一些说明:** * *平均推理时间:24.8分钟(1487秒)* * *总成本(15次构建):$41.52* * 尽管API定价相同,但比Opus 4.7便宜很多 * CoT/思考时间明显缩短(类似于OpenAI最新版本的做法),从而降低了整体成本,尽管如此,输出质量似乎比Opus 4.7更好,所以这点不错 * 在我看来,这是很长一段时间以来首批真正令人印象深刻的Claude模型之一;其构建质量实际上与GPT 5.5相当,尽管略显不稳定 * 在生成过程中,该模型不得不重试5次构建,原因要么是给定的方块调色板出现幻觉(使用了不可用的方块),要么是输出格式错误 * 这与Claude模型的表现相当,不过这次自适应思考似乎效果更好(之前的尝试中,模型会把所有输出token都用于CoT,导致没有足够的token来完成实际的JSON输出) * 在我看来,Opus 4.8相比Opus 4.7有明显改进(或者也许这就是Opus 4.7原本应有的样子🤷♂️) * 请随意查看[GitHub发布页](https://github.com/Ammaar-Alam/minebench/releases/tag/3.6.0)上的所有其他更新(感谢建议!) * **如果你喜欢这些帖子,请随时帮助** [**赞助**](https://buymeacoffee.com/ammaaralam) **该基准测试** **基准测试:** [https://minebench.ai/](https://minebench.ai/) **Git仓库:** [https://github.com/Ammaar-Alam/minebench](https://github.com/Ammaar-Alam/minebench) **历史帖子:** * [Comparing GPT 5.4 and GPT 5.5](https://www.reddit.com/r/singularity/comments/1sxapqb/differences_between_gpt_54_and_gpt_55_on_minebench/) * [Comparing Kimi K2.5 and Kimi K2.6](https://www.reddit.com/r/LocalLLaMA/comments/1srs4uj/differences_between_kimi_k25_and_kimi_k26_on/) * [Comparing Opus 4.6 and Opus 4.7](https://www.reddit.com/r/ClaudeAI/comments/1sofgno/differences_between_opus_46_and_opus_47_on/) * [Comparing GPT 5.4 and GPT 5.4-Pro](https://www.reddit.com/r/OpenAI/comments/1rr0vi4/differences_between_gpt_54_and_gpt_54pro_on/) * [Comparing GPT 5.2 and GPT 5.4](https://www.reddit.com/r/singularity/comments/1rluvdz/difference_between_gpt_52_and_gpt_54_on_minebench/) * [Comparing GPT 5.2 and GPT 5.3-Codex](https://www.reddit.com/r/OpenAI/comments/1rdwau3/gpt_52_versus_gpt_53codex_on_minebench/) * [Comparing Opus 4.5 and 4.6, also answered some questions about the benchmark](https://www.reddit.com/r/ClaudeAI/comments/1qx3war/difference_between_opus_46_and_opus_45_on_my_3d/) * [Comparing Opus 4.6 and GPT-5.2 Pro](https://www.reddit.com/r/OpenAI/comments/1r3v8sd/difference_between_opus_46_and_gpt52_pro_on_a/) * [Comparing Gemini 3.0 and Gemini 3.1](https://www.reddit.com/r/singularity/comments/1ra6x6n/fixed_difference_between_gemini_30_pro_and_gemini/) **补充信息(如有疑问):** 本质上,这是一个测试模型创建类似Minecraft的3D结构能力的基准测试。因此,模型会获得一个方块调色板(可以想象成乐高积木)和一个构建提示,比如帖子中看到的第一个提示是一架战斗机。然后模型必须通过返回一个JSON来构建一架战斗机,JSON中给出每个方块/乐高的坐标(x, y, z)。比较哪个模型能更好地根据给定提示创建3D表示是很有趣的。更智能的模型往往能设计出更详细、更复杂的结构。仓库的README可能会帮助你更好地理解。(免责声明:这是我创建的一个公共基准测试,所以算是一种自我推广 :))
相似文章
Opus 4.7 在 SimpleBench 上得分低于 4.6 与 4.5
Claude Opus 4.7 在 SimpleBench 评估中的表现较 4.6 与 4.5 版本有所下降。
@datacurve: Opus 4.8 现已登陆 DeepSWE。在默认高思考投入设置下,其得分比 Opus 4.7 xhigh 高出6%,同时还能降低…
Opus 4.8 现已可在 DeepSWE 上使用,得分比 Opus 4.7 高出6%,并降低了每任务平均成本。
“@mfpiccolo: Opus 4.8 已发布。以下是 @iiidevs 首席工程师的结论:进行了压力测试,它只是另一个无法真正理解……的语言模型”
Anthropic 发布了 Claude Opus 4.8,这是对 Opus 4.7 的增量更新,具有更精准的判断力和更长的自主工作能力,不过一些工程师对其在缺乏广泛指导下的代码生成能力仍持怀疑态度。
@0xSero: 有没有其他人注意到 opus-4.8 比刚推出时更差了?他们把它削弱了。
用户观察到 opus-4.8 模型自推出以来性能有所下降。
DeepSWE Opus 4.8 的结果已发布。
DeepSWE Opus 4.8 的结果已发布,展示了其在基准测试中的表现。