@0xLogicrw: MiniMax 发布技术博客,披露其 M2 系列大模型无法输出人名「马嘉祺」的根因排查过程。排查从一个个例出发,最终揭示了一个波及整个词表近 5% 的系统性退化问题。 根本原因是大模型两个训练阶段的数据覆盖严重脱节。第一阶段(预训练)用海…
摘要
MiniMax 发布技术博客,深入分析其 M2 系列大模型在无法输出特定人名背后的系统性词表退化问题,揭示了预训练与后训练数据覆盖脱节导致的参数偏移,并提出了通过全量合成数据进行修复的有效方案。
相似文章
MiniMaxAI/MiniMax-M2.7
MiniMaxAI发布了MiniMax-M2.7,这是一个开放权重模型,具备自我进化能力、先进的智能体团队支持,并在软件工程基准测试中表现出色(SWE-Pro上56.22%,MLE Bench Lite上66.6%奖牌率),在生产事故恢复和专业工作任务中有显著应用。
@QingQ77: 从0训练一个0.1B的端到端全模态模型,一个权重搞定文字、语音、图片输入,输出文字和流式语音。 https://github.com/jingyaogong/minimind-o… MiniMind-O 是一个只有0.1B参数的全模态模型…
MiniMind-O 发布了一个仅 0.1B 参数的端到端全模态模型,支持文本、语音和图片输入及流式语音输出。该项目开源了代码、权重、训练数据和技术报告,强调在普通 GPU 上即可快速训练和推理。
@0xLogicrw: Tilde Research 发现,被 DeepSeek V4、Kimi K2.5、GLM-5 等头部模型采用的优化器 Muon 有一个隐藏缺陷:它会在训练早期让 MLP 层超过四分之一的神经元永久死亡。团队据此设计了替代优化器 Auro…
Tilde Research 发现 Muon 优化器存在导致 MLP 神经元早期死亡的缺陷,并开源了替代方案 Aurora。Aurora 在保持正交性的同时解决了神经元死亡问题,显著提升了训练效率。
@berryxia: 小块有大智慧?这下真成真了! 7B小模型现在直接当上了GPT-5、Claude Sonnet 4、Gemini 2.5 Pro这些顶级大模型的老板。 一篇最新论文里,一个用强化学习训练的7B模型学会了写自然语言子任务、分配给不同大模型、精…
一篇最新论文提出通过强化学习训练7B小模型作为任务调度器,自动分解子任务并分配给GPT-5、Claude等顶级大模型,在多项硬核基准上超越单一前沿模型,证明端到端奖励学习可有效替代人工Prompt工程与多智能体流水线设计。
@stevibe:MiniMax M2.7 有 230B 参数,家里真能跑?我用 Unsloth 的 UD-IQ3_XXS(80 GB)在 4 套配置上实测:…
MiniMax M2.7 有 230B 参数,家里真能跑?我用 Unsloth 的 UD-IQ3_XXS(80 GB)在 4 套配置上实测:4×RTX 4090(96 GB):71.52 tok/s,首 token 延迟 1045 ms;4×RTX 5090(128 GB):120.54 tok/s,首 token 延迟 725 ms;1×RTX PRO 6000(96 GB):118.74 tok/s,首 token 延迟 765 ms;DGX