100万亿+的预训练数据???这是我见过模型训练中最大的数据量。

Reddit r/LocalLLaMA 模型

摘要

一个新的人工智能模型正在使用超过100万亿个令牌进行训练,是其他模型如Kimi、Mimo和DeepSeek通常使用的27-50万亿令牌预训练数据规模的两倍。

https://preview.redd.it/oss7g2gnll4h1.png?width=894&format=png&auto=webp&s=5d4295707a700ed7541c274b8be8ad75bbd0903d 通常我们在大多数模型中看到27-50万亿个令牌,如Kimi、Mimo、DeepSeek。他们似乎将预训练数据量翻倍了。Minimax-m2.5大约是27万亿个令牌。如果看Mimo,他们做了: - 27万亿个令牌用于Mimo-v2.5-Pro 1万亿参数 - 48万亿个令牌用于较小的Mimo-v2.5模型(多模态)。 - 32万亿个令牌用于Deepseek V4 Flash和Pro。 我很难相信这个模型会比之前的M2系列模型大很多。训练数据规模太大,需要更多资源来训练更大的模型。M3似乎可能低于5000亿参数。
查看原文

相似文章

使用Clojure约一个月后的感想

Hacker News Top

作者分享了学习Clojure一个月的体验,将其与Common Lisp和Scheme进行比较,并赞赏其一致性和务实设计。