100万亿+的预训练数据？？？这是我见过模型训练中最大的数据量。

Reddit r/LocalLLaMA 2026/06/01 04:38 模型

摘要

一个新的人工智能模型正在使用超过100万亿个令牌进行训练，是其他模型如Kimi、Mimo和DeepSeek通常使用的27-50万亿令牌预训练数据规模的两倍。

https://preview.redd.it/oss7g2gnll4h1.png?width=894&format=png&auto=webp&s=5d4295707a700ed7541c274b8be8ad75bbd0903d 通常我们在大多数模型中看到27-50万亿个令牌，如Kimi、Mimo、DeepSeek。他们似乎将预训练数据量翻倍了。Minimax-m2.5大约是27万亿个令牌。如果看Mimo，他们做了： - 27万亿个令牌用于Mimo-v2.5-Pro 1万亿参数 - 48万亿个令牌用于较小的Mimo-v2.5模型（多模态）。 - 32万亿个令牌用于Deepseek V4 Flash和Pro。我很难相信这个模型会比之前的M2系列模型大很多。训练数据规模太大，需要更多资源来训练更大的模型。M3似乎可能低于5000亿参数。

查看原文

100万亿+的预训练数据？？？这是我见过模型训练中最大的数据量。

相似文章

Gemma 4 仍然偷懒

本地LLM vs AI API：值得吗？值得。

Anthropic 如何借助 Claude Code 进行大规模代码迁移（11 分钟阅读）

Retell 对比 Vapi 对比 Plura AI：用于生产环境语音代理，哪个更胜一筹？

统计优势是否值得付出成本？KAN与MLP在结构化数据分类上的实证比较

提交意见反馈