@percyliang:对于下一个Marin模型,我们正在整理新的数据混合。目前我们有18T tokens,但可能需要更多。所以……
摘要
Percy Liang宣布,对于下一个Marin模型,他们正在编译新的数据混合,并请求高质量的token数据用于预训练、中期训练和SFT。
查看缓存全文
缓存时间: 2026/05/13 18:25
对于下一个Marin模型,我们正在整理一个新的数据混合。目前我们有18T tokens,但可能需要更多。所以如果您手头有一些秘密的高质量tokens储备,请告诉我们!预训练、中期训练、SFT数据都欢迎。https://t.co/49DBdzvYXE
相似文章
@eliebakouch:我最喜欢的项目之一是斯坦福团队的Marin,他们采用科学的方法进行训练,并且愿意……
Marin是斯坦福大学开发的开源框架,用于可复现的基础模型研究,涵盖数据整理、分词、训练和评估;它被用于训练一个80亿参数的模型,其性能超过了Llama 3.1 8B。
@WilliamBarrHeld: 要训练更好的开源模型,我们需要可预测的缩放。Delphi 是 Marin 迈出的第一步:我们预训练了许多小模型……
由 William Barr Held 领导的 Marin AI 研究团队推出了 Delphi,这是一种通过预训练小模型来准确预测更大规模 25B 参数训练结果的方法论。该研究旨在建立可预测的缩放规律,以实现更高效的人工智能开源模型开发。
@percyliang: 我们不仅希望训练出一个好模型,还希望在开始训练之前就知道它会很好。大约一个月前…
Marin团队预先注册了一个129B参数MoE模型训练运行的预测损失为2.252,实际结果为2.234,展示了在训练前准确预测损失的能力。
Nous Research 发布 Token Superposition Training,可将 LLM 预训练速度提升高达 2.5 倍,覆盖 270M 至 10B 参数模型
Nous Research 发布 Token Superposition Training (TST),这是一种可将 LLM 预训练速度提升高达 2.5 倍的方法,覆盖 270M 至 10B 参数模型,在不改变架构或数据的情况下减少实际运行时间。
想要构建自定义模型
一位用户讨论将小型自动补全模型(2500万参数)作为学习项目来构建,提到硬件限制(32GB VRAM)、数据要求(约1亿个token),并寻求关于数据集和自动补全式训练的数据格式的建议。