@percyliang: 我们不仅希望训练出一个好模型,还希望在开始训练之前就知道它会很好。大约一个月前…

X AI KOLs Following 新闻

摘要

Marin团队预先注册了一个129B参数MoE模型训练运行的预测损失为2.252,实际结果为2.234,展示了在训练前准确预测损失的能力。

我们不仅希望训练出一个好模型,还希望在开始训练之前就知道它会很好。 大约一个月前,Marin团队启动了一个129B(16B活跃参数)1e23 FLOPs的MoE运行,并预先注册了损失为2.252。该运行于上周完成,结果损失为2.234。 https://x.com/percyliang/status/2044994822965191106…
查看原文
查看缓存全文

缓存时间: 2026/05/25 06:32

我们不仅要训练一个好模型,还要在训练开始前就知道它会是好模型。

大约一个月前,Marin 团队启动了一次 129B(16B 活跃)1e23 FLOPs 的 MoE 运行,并预先登记了 2.252 的损失值。这次运行于上周完成,最终损失降至 2.234。 https://x.com/percyliang/status/2044994822965191106…

相似文章

@vintcessun: 预训练原来可以这么省?1B模型、~$1000就能从零训出可用的基础模型,计算和数据量直接砍掉数百倍。核心不靠堆算力,而是层次递归架构加上潜在空间推理,配合PrefixLM packing和FA3把效率拉满。有点离谱,但论文和代码都开源了。

X AI KOLs Timeline

HRM-Text发布了一个1B参数的基础模型,声称仅需约$1000即可从零完成预训练,计算量和数据量减少数百倍,采用层级递归架构、潜在空间推理和PrefixLM packing等高效技术,论文与代码均已开源。

@0xcherry: https://x.com/0xcherry/status/2067610347633025281

X AI KOLs Timeline

本文分析智谱GLM-5.2性能飞跃的原因,认为其40B激活参数在扣除固定开销后提供更大有效容量,使RL后训练更有效;同时回顾中国AI模型发展史,指出大模型路线最终获胜。