@percyliang: 我们不仅希望训练出一个好模型，还希望在开始训练之前就知道它会很好。大约一个月前…

X AI KOLs Following 2026/05/24 18:50 新闻

摘要

Marin团队预先注册了一个129B参数MoE模型训练运行的预测损失为2.252，实际结果为2.234，展示了在训练前准确预测损失的能力。

我们不仅希望训练出一个好模型，还希望在开始训练之前就知道它会很好。大约一个月前，Marin团队启动了一个129B（16B活跃参数）1e23 FLOPs的MoE运行，并预先注册了损失为2.252。该运行于上周完成，结果损失为2.234。 https://x.com/percyliang/status/2044994822965191106…

查看原文

查看缓存全文

缓存时间: 2026/05/25 06:32

我们不仅要训练一个好模型，还要在训练开始前就知道它会是好模型。

大约一个月前，Marin 团队启动了一次 129B（16B 活跃）1e23 FLOPs 的 MoE 运行，并预先登记了 2.252 的损失值。这次运行于上周完成，最终损失降至 2.234。 https://x.com/percyliang/status/2044994822965191106…

相似文章

@WilliamBarrHeld: 要训练更好的开源模型，我们需要可预测的缩放。Delphi 是 Marin 迈出的第一步：我们预训练了许多小模型……

X AI KOLs Following

由 William Barr Held 领导的 Marin AI 研究团队推出了 Delphi，这是一种通过预训练小模型来准确预测更大规模 25B 参数训练结果的方法论。该研究旨在建立可预测的缩放规律，以实现更高效的人工智能开源模型开发。

@percyliang：对于下一个Marin模型，我们正在整理新的数据混合。目前我们有18T tokens，但可能需要更多。所以……

X AI KOLs Following

Percy Liang宣布，对于下一个Marin模型，他们正在编译新的数据混合，并请求高质量的token数据用于预训练、中期训练和SFT。

@eliebakouch：我最喜欢的项目之一是斯坦福团队的Marin，他们采用科学的方法进行训练，并且愿意……

X AI KOLs Following

Marin是斯坦福大学开发的开源框架，用于可复现的基础模型研究，涵盖数据整理、分词、训练和评估；它被用于训练一个80亿参数的模型，其性能超过了Llama 3.1 8B。

@vintcessun: 预训练原来可以这么省？1B模型、~$1000就能从零训出可用的基础模型，计算和数据量直接砍掉数百倍。核心不靠堆算力，而是层次递归架构加上潜在空间推理，配合PrefixLM packing和FA3把效率拉满。有点离谱，但论文和代码都开源了。

X AI KOLs Timeline

HRM-Text发布了一个1B参数的基础模型，声称仅需约$1000即可从零完成预训练，计算量和数据量减少数百倍，采用层级递归架构、潜在空间推理和PrefixLM packing等高效技术，论文与代码均已开源。

@0xcherry: https://x.com/0xcherry/status/2067610347633025281

X AI KOLs Timeline

本文分析智谱GLM-5.2性能飞跃的原因，认为其40B激活参数在扣除固定开销后提供更大有效容量，使RL后训练更有效；同时回顾中国AI模型发展史，指出大模型路线最终获胜。

相似文章

@WilliamBarrHeld: 要训练更好的开源模型，我们需要可预测的缩放。Delphi 是 Marin 迈出的第一步：我们预训练了许多小模型……

@percyliang：对于下一个Marin模型，我们正在整理新的数据混合。目前我们有18T tokens，但可能需要更多。所以……

@eliebakouch：我最喜欢的项目之一是斯坦福团队的Marin，他们采用科学的方法进行训练，并且愿意……

@0xcherry: https://x.com/0xcherry/status/2067610347633025281

提交意见反馈