MineBench上Kimi K2.5与Kimi K2.6的差异

Reddit r/singularity 2026/04/21 16:02 模型

摘要

在MineBench的3D Minecraft结构任务中，Kimi K2.6相比K2.5质量提升显著，同时每次运行仅2.35美元，性价比极高。

**一些说明：** * 但有一点需要注意：我发现Kimi的结果波动较大；模型上限很高，但部分建筑（在我看来）质量不如其他作品（不过相比Kimi K2.5已是巨大飞跃） * **总花费 2.35 美元** * 我认为这是目前性能/价格比最高的模型 * 如果你喜欢这类内容，欢迎[资助](https://buymeacoffee.com/ammaaralam)本基准测试 **基准：** [https://minebench.ai/](https://minebench.ai/) **Git 仓库：** [https://github.com/Ammaar-Alam/minebench](https://github.com/Ammaar-Alam/minebench) **往期文章：** * [Opus 4.6 与 Opus 4.7 对比](https://www.reddit.com/r/singularity/comments/1sofehv/differences_between_opus_46_and_opus_47_on/) * [GPT 5.4 与 GPT 5.4-Pro 对比](https://www.reddit.com/r/OpenAI/comments/1rr0vi4/differences_between_gpt_54_and_gpt_54pro_on/) * [GPT 5.2 与 GPT 5.4 对比](https://www.reddit.com/r/singularity/comments/1rluvdz/difference_between_gpt_52_and_gpt_54_on_minebench/) * [GPT 5.2 与 GPT 5.3-Codex 对比](https://www.reddit.com/r/OpenAI/comments/1rdwau3/gpt_52_versus_gpt_53codex_on_minebench/) * [Opus 4.5 与 4.6 对比，同时回答了一些关于基准的问题](https://www.reddit.com/r/ClaudeAI/comments/1qx3war/difference_between_opus_46_and_opus_45_on_my_3d/) * [Opus 4.6 与 GPT-5.2 Pro 对比](https://www.reddit.com/r/OpenAI/comments/1r3v8sd/difference_between_opus_46_and_gpt52_pro_on_a/) * [Gemini 3.0 与 Gemini 3.1 对比](https://www.reddit.com/r/singularity/comments/1ra6x6n/fixed_difference_between_gemini_30_pro_and_gemini/) **往期文章：** **额外说明（如有困惑）：** 本质上，这是一个测试模型能否搭建3D Minecraft风格结构的基准。模型会得到一组方块（像乐高积木）和建造提示，比如本文第一张图里的“战斗机”。然后模型需返回JSON，给出每个积木的坐标（x, y, z）。观察哪个模型能更好地把提示变成3D作品很有意思。更聪明的模型往往设计得更精细、更复杂。仓库README也能帮你更好理解。 *(免责声明：这是我创建的公开基准，算自我推广:)*

查看原文

MineBench上Kimi K2.5与Kimi K2.6的差异

相似文章

Kimi K2.6 vs Minimax M3：成本高出5倍，结果反而更差？我做了测试。

@eliebakouch：Kimi K2.6 对比 K2.5、Mythos、Opus 4.7 以及基于 K2.5 的 Cursor Composer 2——我跑遍了能找到的所有基准测试，一句话总结：……

Kimi K2.6

Kimi K3 编程基准测试

Kimi K2.6 现居 3D 设计基准榜首

提交意见反馈