MineBench上Kimi K2.5与Kimi K2.6的差异

Reddit r/singularity 模型

摘要

在MineBench的3D Minecraft结构任务中,Kimi K2.6相比K2.5质量提升显著,同时每次运行仅2.35美元,性价比极高。

**一些说明:** * 但有一点需要注意:我发现Kimi的结果波动较大;模型上限很高,但部分建筑(在我看来)质量不如其他作品(不过相比Kimi K2.5已是巨大飞跃) * **总花费 2.35 美元** * 我认为这是目前性能/价格比最高的模型 * 如果你喜欢这类内容,欢迎[资助](https://buymeacoffee.com/ammaaralam)本基准测试 **基准:** [https://minebench.ai/](https://minebench.ai/) **Git 仓库:** [https://github.com/Ammaar-Alam/minebench](https://github.com/Ammaar-Alam/minebench) **往期文章:** * [Opus 4.6 与 Opus 4.7 对比](https://www.reddit.com/r/singularity/comments/1sofehv/differences_between_opus_46_and_opus_47_on/) * [GPT 5.4 与 GPT 5.4-Pro 对比](https://www.reddit.com/r/OpenAI/comments/1rr0vi4/differences_between_gpt_54_and_gpt_54pro_on/) * [GPT 5.2 与 GPT 5.4 对比](https://www.reddit.com/r/singularity/comments/1rluvdz/difference_between_gpt_52_and_gpt_54_on_minebench/) * [GPT 5.2 与 GPT 5.3-Codex 对比](https://www.reddit.com/r/OpenAI/comments/1rdwau3/gpt_52_versus_gpt_53codex_on_minebench/) * [Opus 4.5 与 4.6 对比,同时回答了一些关于基准的问题](https://www.reddit.com/r/ClaudeAI/comments/1qx3war/difference_between_opus_46_and_opus_45_on_my_3d/) * [Opus 4.6 与 GPT-5.2 Pro 对比](https://www.reddit.com/r/OpenAI/comments/1r3v8sd/difference_between_opus_46_and_gpt52_pro_on_a/) * [Gemini 3.0 与 Gemini 3.1 对比](https://www.reddit.com/r/singularity/comments/1ra6x6n/fixed_difference_between_gemini_30_pro_and_gemini/) **往期文章:** **额外说明(如有困惑):** 本质上,这是一个测试模型能否搭建3D Minecraft风格结构的基准。模型会得到一组方块(像乐高积木)和建造提示,比如本文第一张图里的“战斗机”。然后模型需返回JSON,给出每个积木的坐标(x, y, z)。观察哪个模型能更好地把提示变成3D作品很有意思。更聪明的模型往往设计得更精细、更复杂。仓库README也能帮你更好理解。 *(免责声明:这是我创建的公开基准,算自我推广:)*
查看原文

相似文章

Kimi K2.6

Product Hunt

Kimi K2.6 作为开源模型发布,在长程编码与智能体集群基准测试中达到 SOTA 性能。