@percyliang:对于下一个Marin模型,我们正在整理新的数据混合。目前我们有18T tokens,但可能需要更多。所以……

X AI KOLs Following 模型

摘要

Percy Liang宣布,对于下一个Marin模型,他们正在编译新的数据混合,并请求高质量的token数据用于预训练、中期训练和SFT。

对于下一个Marin模型,我们正在整理新的数据混合。目前我们有18T tokens,但可能需要更多。所以如果你手头有秘密的高质量token库存,请告诉我们!预训练、中期训练、SFT数据都欢迎。https://t.co/49DBdzvYXE
查看原文
查看缓存全文

缓存时间: 2026/05/13 18:25

对于下一个Marin模型,我们正在整理一个新的数据混合。目前我们有18T tokens,但可能需要更多。所以如果您手头有一些秘密的高质量tokens储备,请告诉我们!预训练、中期训练、SFT数据都欢迎。https://t.co/49DBdzvYXE

相似文章

想要构建自定义模型

Reddit r/LocalLLaMA

一位用户讨论将小型自动补全模型(2500万参数)作为学习项目来构建,提到硬件限制(32GB VRAM)、数据要求(约1亿个token),并寻求关于数据集和自动补全式训练的数据格式的建议。