Open source battle: GLM vs Kimi vs MiMo vs DeepSeek

Reddit r/LocalLLaMA 模型

摘要

本文测试了智谱GLM 5.1、月之暗面Kimi K2.6、阶跃星辰MIMO 2.5 Pro和深度求索DeepSeek V4 Pro四个开源中国AI模型在编程任务中的表现,发现GLM在多数任务中整体领先但非绝对,各模型各有优劣。

暂无内容
查看原文
查看缓存全文

缓存时间: 2026/05/13 18:19

本文比较了四个开源中国AI模型(智谱GLM 5.1、月之暗面Kimi K2.6、阶跃星辰MIMO 2.5 Pro、深度求索DeepSeek V4 Pro)在编程任务中的实际表现,通过3D场景生成、网站设计、SVG动画等多组测试发现,GLM 5.1在多数任务中整体领先但非绝对,各模型在不同场景下各有优劣。 ## 测试概览 本次测试围绕编码能力展开,选取了开源社区排行榜上排名相近的四款模型。测试包括3D场景、网站前端、SVG动态图形等,重点考察模型对提示词的遵循程度、生成内容的连贯性及是否存在系统性缺陷。共准备了72组提示词,仅展示部分代表性结果。 ## 气球生成测试 - **GLM 5.1**:生成效果最佳,光影运用和整体连贯性很好。 - **Kimi K2.6**:风格与其他三个有明显差异,手法独特。 - **MIMO 2.5 Pro**:气球不太像,体积很大,细节不足。 - **DeepSeek V4 Pro**:与其他两款风格相近,但不如GLM精致。 ## 罗马斗兽场(体素生成) ### 城市规模提示词 - **GLM 5.1**:明显胜出,有座位、角斗士、城镇环绕,区域完整,连贯性远超其他模型。 - **Kimi K2.6**:勉强看出是斗兽场,但屋顶分离,问题较多。 - **MIMO 2.5 Pro**:出现怪异模式,图层叠加错误,几乎看不出意图。 - **DeepSeek V4 Pro**:不够精细,物体重叠,没有座位区。 ### 紧凑型斗兽场单独提示词 - **Kimi K2.6**:整体效果最好,云朵和细节漂亮,虽有缝隙但视觉效果出众。 - **DeepSeek V4 Pro**:生成了座位,结构相对完整。 - **GLM 5.1**:连贯性良好,一切井然有序。 - **MIMO 2.5 Pro**:再次出现异常,变成了巨大披萨塔,看不到顶部。 ## 金门大桥测试(复杂多元素协调) 提示词包含约20个要求,考验模型的综合处理能力。 - **GLM 5.1**:结构最扎实,桥、各元素连接正确,汽车移动(虽有侧向移动),水面稍单调但整体优秀。 - **Kimi K2.6**:桥体不佳,陆地与海洋重叠,城市未连接。 - **MIMO 2.5 Pro**:地形稍好但存在结构性缺陷,不擅长完成复杂提示词。 - **DeepSeek V4 Pro**:与MIMO类似,地形混乱,整体不连贯。 ## 水生环境珊瑚礁测试(创造性任务) - **DeepSeek V4 Pro**:生成效果最有趣,有不同种类的鱼、多样地形和元素,虽水下有水略显奇怪但整体生动。 - **GLM 5.1**:在之前测试中远超DeepSeek,但此任务中表现单调。 - **MIMO 2.5 Pro**:可能是它最好的一次,但不及DeepSeek有趣。 - **Kimi K2.6**:地形最有趣,但其他部分平淡。 ## 3D建筑/山景测试 - **Kimi K2.6**:整体漂亮,但屋顶明显不对,建筑应建在更高的山上。 - **DeepSeek V4 Pro**:视角损坏,元素排列混乱,像乱码。 - **GLM 5.1**:连贯性失效,建筑漂浮在空中,屋顶塌陷。 - **MIMO 2.5 Pro**:此例表现好,有GPT-4.1的感觉,屋顶形状相似。 ## 网站前端生成测试 ### 豪华民用太空旅行网站 - **GLM 5.1**:设计最喜欢,大的设计元素在前,周围其他元素协调。 - **Kimi K2.6**:界面清爽现代,行为一致。 - **DeepSeek V4 Pro**:不差,展示具体图表但感觉沉重。 - **MIMO 2.5 Pro**:元素挤在一起,不令人印象深刻。 按设计感排名:GLM 5.1 > Kimi K2.6 > DeepSeek > MIMO。 ### 基因研究站仪表盘 - **Kimi K2.6**:设计有意思但布局偏移。 - **GLM 5.1**:设计独特但不如另一个(未具体说明)。 - **DeepSeek V4 Pro**:设计普通。 - **MIMO 2.5 Pro**:本次表现不错,比第一次好很多,显示其在前端测试中的潜力。 ## SVG动态动作测试(网球发球) - **Kimi K2.6**:尝试最雄心勃勃,有完美发球ace动作,动态强(虽动作过头不太像网球)。 - **GLM 5.1、DeepSeek、MIMO**:效果相似,更像示意图。 ## 总结 测试表明,GLM 5.1在整体连贯性和质量上常占优势,尤其擅长复杂多元素协调的场景;Kimi K2.6在特定任务(如紧凑斗兽场、网站设计、动态SVG)中表现突出,风格独特;DeepSeek V4 Pro在某些创造性任务中表现出色,但有时出现结构性混乱;MIMO 2.5 Pro表现最不稳定,容易出现怪异模式或破坏性生成,但部分简单任务中也能产出不错结果。编码竞技场上的排名差距(GLM、Kimi领先于后两者)在实践中基本得到验证,但并非绝对。 Source: https://www.youtube.com/watch?v=k7WAGtS9cJY

相似文章

@yidabuilds: https://x.com/yidabuilds/status/2053409619641602286

X AI KOLs Timeline

作者对DeepSeek V4、Kimi K2.6、GLM-5.1和MiniMax M2.7四款国产AI模型进行了横向对比测试,分析了它们在成本、长上下文处理能力、编程稳定性及推理性能上的优劣,并给出了针对大文档分析、长程后台任务和批量内容生产的具体分流建议。

@Khazix0918: https://x.com/Khazix0918/status/2065790596653183156

X AI KOLs Timeline

智谱发布了GLM 5.2模型,专注于Coding能力,开源且支持1M上下文。实测显示其在大型工程和代码任务上接近Claude Opus 4.8水平,但缺乏多模态能力,受限于算力导致速度较慢。文章也提及Anthropic因美国商务部要求关停Fable 5和Mythos 5的事件,突显了AI开源与封闭的对比。

@0xcherry: https://x.com/0xcherry/status/2067610347633025281

X AI KOLs Timeline

本文分析智谱GLM-5.2性能飞跃的原因,认为其40B激活参数在扣除固定开销后提供更大有效容量,使RL后训练更有效;同时回顾中国AI模型发展史,指出大模型路线最终获胜。