@percyliang：对于下一个Marin模型，我们正在整理新的数据混合。目前我们有18T tokens，但可能需要更多。所以……

X AI KOLs Following 2026/05/13 13:15 模型

data-collection pre-training sft marin-model language-model

摘要

Percy Liang宣布，对于下一个Marin模型，他们正在编译新的数据混合，并请求高质量的token数据用于预训练、中期训练和SFT。

对于下一个Marin模型，我们正在整理新的数据混合。目前我们有18T tokens，但可能需要更多。所以如果你手头有秘密的高质量token库存，请告诉我们！预训练、中期训练、SFT数据都欢迎。https://t.co/49DBdzvYXE

查看原文

查看缓存全文

缓存时间: 2026/05/13 18:25

对于下一个Marin模型，我们正在整理一个新的数据混合。目前我们有18T tokens，但可能需要更多。所以如果您手头有一些秘密的高质量tokens储备，请告诉我们！预训练、中期训练、SFT数据都欢迎。https://t.co/49DBdzvYXE

相似文章

@eliebakouch：我最喜欢的项目之一是斯坦福团队的Marin，他们采用科学的方法进行训练，并且愿意……

X AI KOLs Following

Marin是斯坦福大学开发的开源框架，用于可复现的基础模型研究，涵盖数据整理、分词、训练和评估；它被用于训练一个80亿参数的模型，其性能超过了Llama 3.1 8B。

@WilliamBarrHeld: 要训练更好的开源模型，我们需要可预测的缩放。Delphi 是 Marin 迈出的第一步：我们预训练了许多小模型……

X AI KOLs Following

由 William Barr Held 领导的 Marin AI 研究团队推出了 Delphi，这是一种通过预训练小模型来准确预测更大规模 25B 参数训练结果的方法论。该研究旨在建立可预测的缩放规律，以实现更高效的人工智能开源模型开发。

@percyliang: 我们不仅希望训练出一个好模型，还希望在开始训练之前就知道它会很好。大约一个月前…

X AI KOLs Following

Marin团队预先注册了一个129B参数MoE模型训练运行的预测损失为2.252，实际结果为2.234，展示了在训练前准确预测损失的能力。

Nous Research 发布 Token Superposition Training，可将 LLM 预训练速度提升高达 2.5 倍，覆盖 270M 至 10B 参数模型

Reddit r/singularity

Nous Research 发布 Token Superposition Training (TST)，这是一种可将 LLM 预训练速度提升高达 2.5 倍的方法，覆盖 270M 至 10B 参数模型，在不改变架构或数据的情况下减少实际运行时间。

想要构建自定义模型

Reddit r/LocalLLaMA

一位用户讨论将小型自动补全模型（2500万参数）作为学习项目来构建，提到硬件限制（32GB VRAM）、数据要求（约1亿个token），并寻求关于数据集和自动补全式训练的数据格式的建议。

提交意见反馈