@jiayuan_jy: 几个客观性说明: 1)这一条和 MiniMax 没有任何关系(我从来不接商单) 2)「体感」不等于真实水平,不是量化数据 用了更多的一些体验,整体上 coding 能力对比 m2.7 是质的提升,目前发现的缺点是 1-shot 的结果相比…

X AI KOLs Following 模型

摘要

Jiayuan Zhang分享了对M3模型coding能力的初步体验,称相比m2.7有质的提升,但1-shot结果不如Opus 4.6/4.7和GPT5.5全面。

几个客观性说明: 1)这一条和 MiniMax 没有任何关系(我从来不接商单) 2)「体感」不等于真实水平,不是量化数据 用了更多的一些体验,整体上 coding 能力对比 m2.7 是质的提升,目前发现的缺点是 1-shot 的结果相比较 Opus 4.6/4.7/gpt5.5 没有那么全面,会出现考虑不是特别全的情况。 https://t.co/Kd3stECxSM
查看原文
查看缓存全文

缓存时间: 2026/06/01 17:32

几个客观性说明: 1)这一条和 MiniMax 没有任何关系(我从来不接商单) 2)「体感」不等于真实水平,不是量化数据

用了更多的一些体验,整体上 coding 能力对比 m2.7 是质的提升,目前发现的缺点是 1-shot 的结果相比较 Opus 4.6/4.7/gpt5.5 没有那么全面,会出现考虑不是特别全的情况。 https://t.co/Kd3stECxSM

Jiayuan (JY) Zhang (@jiayuan_jy): 已经测试一个早上了,目前体感上接近 Opus 4.7(还需要进一步测试)。

用 M3 来写代码,Opus 4.8 + GPT5.5 来做对抗式的 code review,效果还不错。

已经完成了 1 个 PR

相似文章

使用五款中文编码大模型一个月后,M3真的会登顶吗?

Reddit r/ArtificialInteligence

一位用户分享了一个月内在TypeScript/Next.js代码库上对五款中文编码大模型(Kimi K2.6、GLM-5.1、MiMo V2.5 Pro、MiniMax 2.7、DeepSeek V4 Pro)的比较,从前端、后端、代码审查、全能型和推理等类别进行评分。他们指出MiniMax 2.7以约7%的成本实现了Opus 4.6约90%的质量,并推测即将推出的MiniMax 3.0是否会弥补规划和测试覆盖方面的不足,从而登上榜首。

@yidabuilds: https://x.com/yidabuilds/status/2053409619641602286

X AI KOLs Timeline

作者对DeepSeek V4、Kimi K2.6、GLM-5.1和MiniMax M2.7四款国产AI模型进行了横向对比测试,分析了它们在成本、长上下文处理能力、编程稳定性及推理性能上的优劣,并给出了针对大文档分析、长程后台任务和批量内容生产的具体分流建议。