Open source battle: GLM vs Kimi vs MiMo vs DeepSeek

Reddit r/LocalLLaMA 2026/05/13 17:18 模型

open-source model-comparison coding-benchmark chinese-ai glm kimi mimo deepseek

摘要

本文测试了智谱GLM 5.1、月之暗面Kimi K2.6、阶跃星辰MIMO 2.5 Pro和深度求索DeepSeek V4 Pro四个开源中国AI模型在编程任务中的表现，发现GLM在多数任务中整体领先但非绝对，各模型各有优劣。

暂无内容

查看原文

查看缓存全文

缓存时间: 2026/05/13 18:19

本文比较了四个开源中国AI模型（智谱GLM 5.1、月之暗面Kimi K2.6、阶跃星辰MIMO 2.5 Pro、深度求索DeepSeek V4 Pro）在编程任务中的实际表现，通过3D场景生成、网站设计、SVG动画等多组测试发现，GLM 5.1在多数任务中整体领先但非绝对，各模型在不同场景下各有优劣。 ## 测试概览本次测试围绕编码能力展开，选取了开源社区排行榜上排名相近的四款模型。测试包括3D场景、网站前端、SVG动态图形等，重点考察模型对提示词的遵循程度、生成内容的连贯性及是否存在系统性缺陷。共准备了72组提示词，仅展示部分代表性结果。 ## 气球生成测试 - **GLM 5.1**：生成效果最佳，光影运用和整体连贯性很好。 - **Kimi K2.6**：风格与其他三个有明显差异，手法独特。 - **MIMO 2.5 Pro**：气球不太像，体积很大，细节不足。 - **DeepSeek V4 Pro**：与其他两款风格相近，但不如GLM精致。 ## 罗马斗兽场（体素生成） ### 城市规模提示词 - **GLM 5.1**：明显胜出，有座位、角斗士、城镇环绕，区域完整，连贯性远超其他模型。 - **Kimi K2.6**：勉强看出是斗兽场，但屋顶分离，问题较多。 - **MIMO 2.5 Pro**：出现怪异模式，图层叠加错误，几乎看不出意图。 - **DeepSeek V4 Pro**：不够精细，物体重叠，没有座位区。 ### 紧凑型斗兽场单独提示词 - **Kimi K2.6**：整体效果最好，云朵和细节漂亮，虽有缝隙但视觉效果出众。 - **DeepSeek V4 Pro**：生成了座位，结构相对完整。 - **GLM 5.1**：连贯性良好，一切井然有序。 - **MIMO 2.5 Pro**：再次出现异常，变成了巨大披萨塔，看不到顶部。 ## 金门大桥测试（复杂多元素协调）提示词包含约20个要求，考验模型的综合处理能力。 - **GLM 5.1**：结构最扎实，桥、各元素连接正确，汽车移动（虽有侧向移动），水面稍单调但整体优秀。 - **Kimi K2.6**：桥体不佳，陆地与海洋重叠，城市未连接。 - **MIMO 2.5 Pro**：地形稍好但存在结构性缺陷，不擅长完成复杂提示词。 - **DeepSeek V4 Pro**：与MIMO类似，地形混乱，整体不连贯。 ## 水生环境珊瑚礁测试（创造性任务） - **DeepSeek V4 Pro**：生成效果最有趣，有不同种类的鱼、多样地形和元素，虽水下有水略显奇怪但整体生动。 - **GLM 5.1**：在之前测试中远超DeepSeek，但此任务中表现单调。 - **MIMO 2.5 Pro**：可能是它最好的一次，但不及DeepSeek有趣。 - **Kimi K2.6**：地形最有趣，但其他部分平淡。 ## 3D建筑/山景测试 - **Kimi K2.6**：整体漂亮，但屋顶明显不对，建筑应建在更高的山上。 - **DeepSeek V4 Pro**：视角损坏，元素排列混乱，像乱码。 - **GLM 5.1**：连贯性失效，建筑漂浮在空中，屋顶塌陷。 - **MIMO 2.5 Pro**：此例表现好，有GPT-4.1的感觉，屋顶形状相似。 ## 网站前端生成测试 ### 豪华民用太空旅行网站 - **GLM 5.1**：设计最喜欢，大的设计元素在前，周围其他元素协调。 - **Kimi K2.6**：界面清爽现代，行为一致。 - **DeepSeek V4 Pro**：不差，展示具体图表但感觉沉重。 - **MIMO 2.5 Pro**：元素挤在一起，不令人印象深刻。按设计感排名：GLM 5.1 > Kimi K2.6 > DeepSeek > MIMO。 ### 基因研究站仪表盘 - **Kimi K2.6**：设计有意思但布局偏移。 - **GLM 5.1**：设计独特但不如另一个（未具体说明）。 - **DeepSeek V4 Pro**：设计普通。 - **MIMO 2.5 Pro**：本次表现不错，比第一次好很多，显示其在前端测试中的潜力。 ## SVG动态动作测试（网球发球） - **Kimi K2.6**：尝试最雄心勃勃，有完美发球ace动作，动态强（虽动作过头不太像网球）。 - **GLM 5.1、DeepSeek、MIMO**：效果相似，更像示意图。 ## 总结测试表明，GLM 5.1在整体连贯性和质量上常占优势，尤其擅长复杂多元素协调的场景；Kimi K2.6在特定任务（如紧凑斗兽场、网站设计、动态SVG）中表现突出，风格独特；DeepSeek V4 Pro在某些创造性任务中表现出色，但有时出现结构性混乱；MIMO 2.5 Pro表现最不稳定，容易出现怪异模式或破坏性生成，但部分简单任务中也能产出不错结果。编码竞技场上的排名差距（GLM、Kimi领先于后两者）在实践中基本得到验证，但并非绝对。 Source: https://www.youtube.com/watch?v=k7WAGtS9cJY

相似文章

@yidabuilds: https://x.com/yidabuilds/status/2053409619641602286

X AI KOLs Timeline

作者对DeepSeek V4、Kimi K2.6、GLM-5.1和MiniMax M2.7四款国产AI模型进行了横向对比测试，分析了它们在成本、长上下文处理能力、编程稳定性及推理性能上的优劣，并给出了针对大文档分析、长程后台任务和批量内容生产的具体分流建议。

@Khazix0918: https://x.com/Khazix0918/status/2065790596653183156

X AI KOLs Timeline

智谱发布了GLM 5.2模型，专注于Coding能力，开源且支持1M上下文。实测显示其在大型工程和代码任务上接近Claude Opus 4.8水平，但缺乏多模态能力，受限于算力导致速度较慢。文章也提及Anthropic因美国商务部要求关停Fable 5和Mythos 5的事件，突显了AI开源与封闭的对比。

@jakevin7: 有个事挺有意思的。 DeepSeek V4 的技术报告，对所有主流大模型做了一轮横评，结论是——Gemini 3.1 Pro 的世界知识是所有模型里最强的。不是 GPT，不是 Claude，是 Gemini。但大家用 Gemini 的…

X AI KOLs Following

根据DeepSeek V4技术报告对主流大模型的横评，Gemini 3.1 Pro的世界知识被认为最强，但用户普遍觉得不好用，原因是该模型不主动调用搜索工具。

@0xcherry: https://x.com/0xcherry/status/2067610347633025281

X AI KOLs Timeline

本文分析智谱GLM-5.2性能飞跃的原因，认为其40B激活参数在扣除固定开销后提供更大有效容量，使RL后训练更有效；同时回顾中国AI模型发展史，指出大模型路线最终获胜。

@wquguru: https://x.com/wquguru/status/2057852569054278045

X AI KOLs Timeline

对 pi-goal 工具进行源码解析和多模型实测，发现 DeepSeek V4 Pro 在长程任务上比 Gemini 3.5 Flash 便宜 31 倍且质量更高，且更高思考模式反而导致幻觉增加。

相似文章

@yidabuilds: https://x.com/yidabuilds/status/2053409619641602286

@Khazix0918: https://x.com/Khazix0918/status/2065790596653183156

@jakevin7: 有个事挺有意思的。 DeepSeek V4 的技术报告，对所有主流大模型做了一轮横评，结论是——Gemini 3.1 Pro 的世界知识是所有模型里最强的。 不是 GPT，不是 Claude，是 Gemini。 但大家用 Gemini 的…

@0xcherry: https://x.com/0xcherry/status/2067610347633025281

@wquguru: https://x.com/wquguru/status/2057852569054278045

提交意见反馈

@jakevin7: 有个事挺有意思的。 DeepSeek V4 的技术报告，对所有主流大模型做了一轮横评，结论是——Gemini 3.1 Pro 的世界知识是所有模型里最强的。不是 GPT，不是 Claude，是 Gemini。但大家用 Gemini 的…