@percyliang: 我们不仅希望训练出一个好模型,还希望在开始训练之前就知道它会很好。大约一个月前…
摘要
Marin团队预先注册了一个129B参数MoE模型训练运行的预测损失为2.252,实际结果为2.234,展示了在训练前准确预测损失的能力。
查看缓存全文
缓存时间: 2026/05/25 06:32
我们不仅要训练一个好模型,还要在训练开始前就知道它会是好模型。
大约一个月前,Marin 团队启动了一次 129B(16B 活跃)1e23 FLOPs 的 MoE 运行,并预先登记了 2.252 的损失值。这次运行于上周完成,最终损失降至 2.234。 https://x.com/percyliang/status/2044994822965191106…
相似文章
@WilliamBarrHeld: 要训练更好的开源模型,我们需要可预测的缩放。Delphi 是 Marin 迈出的第一步:我们预训练了许多小模型……
由 William Barr Held 领导的 Marin AI 研究团队推出了 Delphi,这是一种通过预训练小模型来准确预测更大规模 25B 参数训练结果的方法论。该研究旨在建立可预测的缩放规律,以实现更高效的人工智能开源模型开发。
@percyliang:对于下一个Marin模型,我们正在整理新的数据混合。目前我们有18T tokens,但可能需要更多。所以……
Percy Liang宣布,对于下一个Marin模型,他们正在编译新的数据混合,并请求高质量的token数据用于预训练、中期训练和SFT。
@eliebakouch:我最喜欢的项目之一是斯坦福团队的Marin,他们采用科学的方法进行训练,并且愿意……
Marin是斯坦福大学开发的开源框架,用于可复现的基础模型研究,涵盖数据整理、分词、训练和评估;它被用于训练一个80亿参数的模型,其性能超过了Llama 3.1 8B。
@vintcessun: 预训练原来可以这么省?1B模型、~$1000就能从零训出可用的基础模型,计算和数据量直接砍掉数百倍。核心不靠堆算力,而是层次递归架构加上潜在空间推理,配合PrefixLM packing和FA3把效率拉满。有点离谱,但论文和代码都开源了。
HRM-Text发布了一个1B参数的基础模型,声称仅需约$1000即可从零完成预训练,计算量和数据量减少数百倍,采用层级递归架构、潜在空间推理和PrefixLM packing等高效技术,论文与代码均已开源。
@0xcherry: https://x.com/0xcherry/status/2067610347633025281
本文分析智谱GLM-5.2性能飞跃的原因,认为其40B激活参数在扣除固定开销后提供更大有效容量,使RL后训练更有效;同时回顾中国AI模型发展史,指出大模型路线最终获胜。