@jiayuan_jy: 几个客观性说明: 1)这一条和 MiniMax 没有任何关系(我从来不接商单) 2)「体感」不等于真实水平,不是量化数据 用了更多的一些体验,整体上 coding 能力对比 m2.7 是质的提升,目前发现的缺点是 1-shot 的结果相比…
摘要
Jiayuan Zhang分享了对M3模型coding能力的初步体验,称相比m2.7有质的提升,但1-shot结果不如Opus 4.6/4.7和GPT5.5全面。
查看缓存全文
缓存时间: 2026/06/01 17:32
几个客观性说明: 1)这一条和 MiniMax 没有任何关系(我从来不接商单) 2)「体感」不等于真实水平,不是量化数据
用了更多的一些体验,整体上 coding 能力对比 m2.7 是质的提升,目前发现的缺点是 1-shot 的结果相比较 Opus 4.6/4.7/gpt5.5 没有那么全面,会出现考虑不是特别全的情况。 https://t.co/Kd3stECxSM
Jiayuan (JY) Zhang (@jiayuan_jy): 已经测试一个早上了,目前体感上接近 Opus 4.7(还需要进一步测试)。
用 M3 来写代码,Opus 4.8 + GPT5.5 来做对抗式的 code review,效果还不错。
已经完成了 1 个 PR
相似文章
@sdrzn: MiniMax的新m3模型在terminal-bench 2.1上得分与opus 4.7相同,计算/成本仅为前一代模…
MiniMax新推出的m3模型在terminal-bench 2.1上取得了与Opus 4.7相同的分数,但计算量和成本仅为原来的二十分之一,这归功于其全新的MiniMax Sparse Attention架构。
通过API在三个真实的机器学习和编程工作流中测试MiniMax M2.7
一位开发者通过API在三个实际的机器学习和编程工作流中测试了MiniMax M2.7模型,并评估了其性能。
使用五款中文编码大模型一个月后,M3真的会登顶吗?
一位用户分享了一个月内在TypeScript/Next.js代码库上对五款中文编码大模型(Kimi K2.6、GLM-5.1、MiMo V2.5 Pro、MiniMax 2.7、DeepSeek V4 Pro)的比较,从前端、后端、代码审查、全能型和推理等类别进行评分。他们指出MiniMax 2.7以约7%的成本实现了Opus 4.6约90%的质量,并推测即将推出的MiniMax 3.0是否会弥补规划和测试覆盖方面的不足,从而登上榜首。
@RookieRicardoR: 国产模型再次突破,比肩 Claude 4.6,Gemini 3.1 Pro 等顶尖模型。 刚测完 Qwen3.7-Max,说几点真实感受。 昨晚 API 上线第一时间就充了值,选了三个题目(见视频)来测试 Qwen3.7-Max 的前端能…
用户测试了Qwen3.7-Max,认为其在前端、算力和Agent能力上比肩Claude 4.6和Gemini 3.1 Pro等顶尖模型,推理能力显著提升,且迭代速度月更,已成为国产第一梯队。
@yidabuilds: https://x.com/yidabuilds/status/2053409619641602286
作者对DeepSeek V4、Kimi K2.6、GLM-5.1和MiniMax M2.7四款国产AI模型进行了横向对比测试,分析了它们在成本、长上下文处理能力、编程稳定性及推理性能上的优劣,并给出了针对大文档分析、长程后台任务和批量内容生产的具体分流建议。