@jiayuan_jy: 几个客观性说明： 1）这一条和 MiniMax 没有任何关系（我从来不接商单） 2）「体感」不等于真实水平，不是量化数据用了更多的一些体验，整体上 coding 能力对比 m2.7 是质的提升，目前发现的缺点是 1-shot 的结果相比…

X AI KOLs Following 2026/06/01 08:54 模型

coding-benchmark model-comparison gpt-5 claude-opus evaluation personal-testing

摘要

Jiayuan Zhang分享了对M3模型coding能力的初步体验，称相比m2.7有质的提升，但1-shot结果不如Opus 4.6/4.7和GPT5.5全面。

几个客观性说明： 1）这一条和 MiniMax 没有任何关系（我从来不接商单） 2）「体感」不等于真实水平，不是量化数据用了更多的一些体验，整体上 coding 能力对比 m2.7 是质的提升，目前发现的缺点是 1-shot 的结果相比较 Opus 4.6/4.7/gpt5.5 没有那么全面，会出现考虑不是特别全的情况。 https://t.co/Kd3stECxSM

查看原文

查看缓存全文

缓存时间: 2026/06/01 17:32

几个客观性说明： 1）这一条和 MiniMax 没有任何关系（我从来不接商单） 2）「体感」不等于真实水平，不是量化数据

用了更多的一些体验，整体上 coding 能力对比 m2.7 是质的提升，目前发现的缺点是 1-shot 的结果相比较 Opus 4.6/4.7/gpt5.5 没有那么全面，会出现考虑不是特别全的情况。 https://t.co/Kd3stECxSM

Jiayuan (JY) Zhang (@jiayuan_jy): 已经测试一个早上了，目前体感上接近 Opus 4.7（还需要进一步测试）。

用 M3 来写代码，Opus 4.8 + GPT5.5 来做对抗式的 code review，效果还不错。

已经完成了 1 个 PR

相似文章

@sdrzn: MiniMax的新m3模型在terminal-bench 2.1上得分与opus 4.7相同，计算/成本仅为前一代模…

X AI KOLs Following

MiniMax新推出的m3模型在terminal-bench 2.1上取得了与Opus 4.7相同的分数，但计算量和成本仅为原来的二十分之一，这归功于其全新的MiniMax Sparse Attention架构。

通过API在三个真实的机器学习和编程工作流中测试MiniMax M2.7

Hacker News Top

一位开发者通过API在三个实际的机器学习和编程工作流中测试了MiniMax M2.7模型，并评估了其性能。

使用五款中文编码大模型一个月后，M3真的会登顶吗？

Reddit r/ArtificialInteligence

一位用户分享了一个月内在TypeScript/Next.js代码库上对五款中文编码大模型（Kimi K2.6、GLM-5.1、MiMo V2.5 Pro、MiniMax 2.7、DeepSeek V4 Pro）的比较，从前端、后端、代码审查、全能型和推理等类别进行评分。他们指出MiniMax 2.7以约7%的成本实现了Opus 4.6约90%的质量，并推测即将推出的MiniMax 3.0是否会弥补规划和测试覆盖方面的不足，从而登上榜首。

@RookieRicardoR: 国产模型再次突破，比肩 Claude 4.6，Gemini 3.1 Pro 等顶尖模型。刚测完 Qwen3.7-Max，说几点真实感受。昨晚 API 上线第一时间就充了值，选了三个题目（见视频）来测试 Qwen3.7-Max 的前端能…

X AI KOLs Timeline

用户测试了Qwen3.7-Max，认为其在前端、算力和Agent能力上比肩Claude 4.6和Gemini 3.1 Pro等顶尖模型，推理能力显著提升，且迭代速度月更，已成为国产第一梯队。

@yidabuilds: https://x.com/yidabuilds/status/2053409619641602286