@WilliamBarrHeld: 要训练更好的开源模型,我们需要可预测的缩放。Delphi 是 Marin 迈出的第一步:我们预训练了许多小模型……
摘要
由 William Barr Held 领导的 Marin AI 研究团队推出了 Delphi,这是一种通过预训练小模型来准确预测更大规模 25B 参数训练结果的方法论。该研究旨在建立可预测的缩放规律,以实现更高效的人工智能开源模型开发。
查看缓存全文
缓存时间: 2026/05/11 20:43
为了训练更好的开源模型,我们需要可预测的扩展性。
Delphi 是 Marin 迈出的第一步:我们使用同一套配方预训练了许多小型模型,随后进行了 300 倍外推,以预测一次 25B 参数 / 600B Token 的训练任务,误差仅为 0.2%。
为此我们付出了不少努力 🧵 https://t.co/HmlVFl11ag
相似文章
@eliebakouch:我最喜欢的项目之一是斯坦福团队的Marin,他们采用科学的方法进行训练,并且愿意……
Marin是斯坦福大学开发的开源框架,用于可复现的基础模型研究,涵盖数据整理、分词、训练和评估;它被用于训练一个80亿参数的模型,其性能超过了Llama 3.1 8B。
从零开始开发开源大语言模型:从预训练到RLHF(PPO/GRPO)
一位开发者分享了从零开始训练一个70亿参数开源大语言模型的进展,该模型基于DeepSeek架构并针对低显存进行了优化,目标是推动AI开发的民主化,并最终超越大型专有模型。
@percyliang: 我们不仅希望训练出一个好模型,还希望在开始训练之前就知道它会很好。大约一个月前…
Marin团队预先注册了一个129B参数MoE模型训练运行的预测损失为2.252,实际结果为2.234,展示了在训练前准确预测损失的能力。
一个4b模型现在在网络研究上击败30b模型,原因不在于规模
来自Apodex家族的一个40亿参数开放模型在网页研究基准上优于300亿参数模型,这归因于精心构建的训练数据和自我验证技术,而非原始规模,表明AI能力发展趋向更民主化。
@heyrobinai: 整个AI行业刚刚被羞辱了——一个仅用单张显卡训练几小时的微型模型正在规划...
Yann LeCun的团队发布了LeWorldModel,一个仅有1500万参数的物理模型,在单张GPU上训练数小时,在规划速度和物理合理性上超越了价值数十亿美元的基础模型,挑战了主流的规模扩展范式。