@0xLogicrw: MiniMax 发布技术博客，披露其 M2 系列大模型无法输出人名「马嘉祺」的根因排查过程。排查从一个个例出发，最终揭示了一个波及整个词表近 5% 的系统性退化问题。根本原因是大模型两个训练阶段的数据覆盖严重脱节。第一阶段（预训练）用海…

X AI KOLs Timeline 2026/05/10 04:19 新闻

llm-training tokenization minimax technical-analysis model-degradation post-training

摘要

MiniMax 发布技术博客，深入分析其 M2 系列大模型在无法输出特定人名背后的系统性词表退化问题，揭示了预训练与后训练数据覆盖脱节导致的参数偏移，并提出了通过全量合成数据进行修复的有效方案。

MiniMax 发布技术博客，披露其 M2 系列大模型无法输出人名「马嘉祺」的根因排查过程。排查从一个个例出发，最终揭示了一个波及整个词表近 5% 的系统性退化问题。根本原因是大模型两个训练阶段的数据覆盖严重脱节。第一阶段（预训练）用海量互联网文本编出了一本约 20 万词的「字典」；第二阶段（后训练）用精选的对话数据教模型说话，但这份对话数据只覆盖了字典里的一部分。字典里有、但对话数据里没练到的词，就会在第二阶段逐渐被遗忘。「嘉祺」就是这样的一个词。分词器（tokenizer，负责把文字切成模型能处理的最小单元）因为在互联网文本中见到「嘉祺」连用的次数够多，就把它合并成了一个独立单元。预训练时模型学会了这个词，但后训练的对话数据里包含「嘉祺」的样本不到 5 条。后训练不断调整模型参数，练到的词越来越准，没练到的词则在参数更新中被带偏。最终，模型仍然「认识」马嘉祺、能准确回答相关信息，丢失的只是把这个名字写出来的能力。退化排名靠前的还有「传奇私服」「无痛人流」等互联网 SEO 垃圾词。这类词在预训练的互联网语料中铺天盖地，分词器给了它们独立编号，但精选的后训练对话数据不会收录这些内容，结果同样被遗忘。团队对完整词表做了全量扫描，发现约 4.9% 的词发生了显著退化。退化最严重的是日语：29.7% 的日语词显著退化，远超韩语 3.3%、俄语 3.7%、中文 3.9% 和英文 3.5%。日语的严重退化还解开了一个旧谜。此前模型在日语对话中偶尔混入俄语或韩语字符，一直找不到原因。这次分析表明，大量日语词退化后，在模型内部的参数空间里「漂」到了其他语言的地盘上，导致模型该写日语时错写成俄语或韩语。修复方案是构造一份覆盖全词表的合成数据，让模型用简单的复读任务把字典里每个词都练一遍。效果立竿见影：日语回答中混入俄文字符的比例从 47% 降至 1%，全词表参数稳定度从最低 0.329 升至全部高于 0.97。

查看原文

相似文章

MiniMaxAI/MiniMax-M2.7

Hugging Face Models Trending

MiniMaxAI发布了MiniMax-M2.7，这是一个开放权重模型，具备自我进化能力、先进的智能体团队支持，并在软件工程基准测试中表现出色（SWE-Pro上56.22%，MLE Bench Lite上66.6%奖牌率），在生产事故恢复和专业工作任务中有显著应用。

@QingQ77: 从0训练一个0.1B的端到端全模态模型，一个权重搞定文字、语音、图片输入，输出文字和流式语音。 https://github.com/jingyaogong/minimind-o… MiniMind-O 是一个只有0.1B参数的全模态模型…

X AI KOLs Timeline

MiniMind-O 发布了一个仅 0.1B 参数的端到端全模态模型，支持文本、语音和图片输入及流式语音输出。该项目开源了代码、权重、训练数据和技术报告，强调在普通 GPU 上即可快速训练和推理。

@0xLogicrw: Tilde Research 发现，被 DeepSeek V4、Kimi K2.5、GLM-5 等头部模型采用的优化器 Muon 有一个隐藏缺陷：它会在训练早期让 MLP 层超过四分之一的神经元永久死亡。团队据此设计了替代优化器 Auro…

X AI KOLs Timeline

Tilde Research 发现 Muon 优化器存在导致 MLP 神经元早期死亡的缺陷，并开源了替代方案 Aurora。Aurora 在保持正交性的同时解决了神经元死亡问题，显著提升了训练效率。

@berryxia: 小块有大智慧？这下真成真了！ 7B小模型现在直接当上了GPT-5、Claude Sonnet 4、Gemini 2.5 Pro这些顶级大模型的老板。一篇最新论文里，一个用强化学习训练的7B模型学会了写自然语言子任务、分配给不同大模型、精…

X AI KOLs Timeline

一篇最新论文提出通过强化学习训练7B小模型作为任务调度器，自动分解子任务并分配给GPT-5、Claude等顶级大模型，在多项硬核基准上超越单一前沿模型，证明端到端奖励学习可有效替代人工Prompt工程与多智能体流水线设计。

@stevibe：MiniMax M2.7 有 230B 参数，家里真能跑？我用 Unsloth 的 UD-IQ3_XXS（80 GB）在 4 套配置上实测：…

X AI KOLs Following

MiniMax M2.7 有 230B 参数，家里真能跑？我用 Unsloth 的 UD-IQ3_XXS（80 GB）在 4 套配置上实测：4×RTX 4090（96 GB）：71.52 tok/s，首 token 延迟 1045 ms；4×RTX 5090（128 GB）：120.54 tok/s，首 token 延迟 725 ms；1×RTX PRO 6000（96 GB）：118.74 tok/s，首 token 延迟 765 ms；DGX

相似文章

MiniMaxAI/MiniMax-M2.7

@QingQ77: 从0训练一个0.1B的端到端全模态模型，一个权重搞定文字、语音、图片输入，输出文字和流式语音。 https://github.com/jingyaogong/minimind-o… MiniMind-O 是一个只有0.1B参数的全模态模型…

@0xLogicrw: Tilde Research 发现，被 DeepSeek V4、Kimi K2.5、GLM-5 等头部模型采用的优化器 Muon 有一个隐藏缺陷：它会在训练早期让 MLP 层超过四分之一的神经元永久死亡。团队据此设计了替代优化器 Auro…

@berryxia: 小块有大智慧？这下真成真了！ 7B小模型现在直接当上了GPT-5、Claude Sonnet 4、Gemini 2.5 Pro这些顶级大模型的老板。 一篇最新论文里，一个用强化学习训练的7B模型学会了写自然语言子任务、分配给不同大模型、精…

@stevibe：MiniMax M2.7 有 230B 参数，家里真能跑？我用 Unsloth 的 UD-IQ3_XXS（80 GB）在 4 套配置上实测：…

提交意见反馈

@berryxia: 小块有大智慧？这下真成真了！ 7B小模型现在直接当上了GPT-5、Claude Sonnet 4、Gemini 2.5 Pro这些顶级大模型的老板。一篇最新论文里，一个用强化学习训练的7B模型学会了写自然语言子任务、分配给不同大模型、精…