MineBench上Kimi K2.5与Kimi K2.6的差异
摘要
在MineBench的3D Minecraft结构任务中,Kimi K2.6相比K2.5质量提升显著,同时每次运行仅2.35美元,性价比极高。
**一些说明:**
* 但有一点需要注意:我发现Kimi的结果波动较大;模型上限很高,但部分建筑(在我看来)质量不如其他作品(不过相比Kimi K2.5已是巨大飞跃)
* **总花费 2.35 美元**
* 我认为这是目前性能/价格比最高的模型
* 如果你喜欢这类内容,欢迎[资助](https://buymeacoffee.com/ammaaralam)本基准测试
**基准:** [https://minebench.ai/](https://minebench.ai/)
**Git 仓库:** [https://github.com/Ammaar-Alam/minebench](https://github.com/Ammaar-Alam/minebench)
**往期文章:**
* [Opus 4.6 与 Opus 4.7 对比](https://www.reddit.com/r/singularity/comments/1sofehv/differences_between_opus_46_and_opus_47_on/)
* [GPT 5.4 与 GPT 5.4-Pro 对比](https://www.reddit.com/r/OpenAI/comments/1rr0vi4/differences_between_gpt_54_and_gpt_54pro_on/)
* [GPT 5.2 与 GPT 5.4 对比](https://www.reddit.com/r/singularity/comments/1rluvdz/difference_between_gpt_52_and_gpt_54_on_minebench/)
* [GPT 5.2 与 GPT 5.3-Codex 对比](https://www.reddit.com/r/OpenAI/comments/1rdwau3/gpt_52_versus_gpt_53codex_on_minebench/)
* [Opus 4.5 与 4.6 对比,同时回答了一些关于基准的问题](https://www.reddit.com/r/ClaudeAI/comments/1qx3war/difference_between_opus_46_and_opus_45_on_my_3d/)
* [Opus 4.6 与 GPT-5.2 Pro 对比](https://www.reddit.com/r/OpenAI/comments/1r3v8sd/difference_between_opus_46_and_gpt52_pro_on_a/)
* [Gemini 3.0 与 Gemini 3.1 对比](https://www.reddit.com/r/singularity/comments/1ra6x6n/fixed_difference_between_gemini_30_pro_and_gemini/)
**往期文章:**
**额外说明(如有困惑):**
本质上,这是一个测试模型能否搭建3D Minecraft风格结构的基准。模型会得到一组方块(像乐高积木)和建造提示,比如本文第一张图里的“战斗机”。然后模型需返回JSON,给出每个积木的坐标(x, y, z)。观察哪个模型能更好地把提示变成3D作品很有意思。更聪明的模型往往设计得更精细、更复杂。仓库README也能帮你更好理解。
*(免责声明:这是我创建的公开基准,算自我推广:)*
相似文章
@eliebakouch:Kimi K2.6 对比 K2.5、Mythos、Opus 4.7 以及基于 K2.5 的 Cursor Composer 2——我跑遍了能找到的所有基准测试,一句话总结:……
Kimi K2.6 在多项基准测试中较 K2.5 及 Mythos、Opus 4.7 等对手均有显著性能提升。
Kimi K2.6
Kimi K2.6 作为开源模型发布,在长程编码与智能体集群基准测试中达到 SOTA 性能。
Kimi K2.6 现居 3D 设计基准榜首
Kimi K2.6 已在 3D 设计基准测试中超越所有模型,排名第一。
@QuixiAI:@Kimi_Moonshot K2.6 在我的 mi300x 上跑出了 56 tps(单请求),接下来做吞吐测试
Kimi K2.6 在单张 MI300X GPU 上达到 56 token/s,用户计划进一步测试整体吞吐。
@akshay_pachaar:Kimi K2.6 为开源模型树立了新标杆。Moonshot 昨日发布,首个开放权重模型在关键的智能体基准上硬刚 Claude Opus 4.6
Moonshot 的开放权重 Kimi K2.6 在核心智能体基准上与 Claude Opus 4.6 打成平手,而成本仅为后者的一小部分。