@aakashgupta:Karpathy 对 Dwarkesh 说,只要数据足够干净,10 亿参数的模型就能达到今天 1.8 万亿参数前沿模型的智能水平

X AI KOLs Timeline 新闻

摘要

Andrej Karpathy 向 Dwarkesh Patel 表示,用超干净数据训练的 10 亿参数模型可媲美当今 1.8 万亿参数的前沿模型,相当于 1,800 倍的有效压缩。

Karpathy 告诉 Dwarkesh,只要数据足够干净,10 亿参数的模型就能达到今天 1.8 万亿参数前沿模型的智能水平——这相当于 1,800 倍的压缩比。听起来夸张,但其背后的数学并非毫无根据。当各大前沿实验室的研究人员……
查看原文
查看缓存全文

缓存时间: 2026/04/22 11:28

Karpathy 在 Dwarkesh 的播客里说,只要数据足够干净,10 亿参数的模型就能达到今天 1.8 万亿参数前沿模型的智能水平——相当于压缩了 1 800 倍。这个数字听起来夸张,但背后的数学并非站不住脚。前沿实验室的研究人员……

相似文章

@vintcessun: 预训练原来可以这么省?1B模型、~$1000就能从零训出可用的基础模型,计算和数据量直接砍掉数百倍。核心不靠堆算力,而是层次递归架构加上潜在空间推理,配合PrefixLM packing和FA3把效率拉满。有点离谱,但论文和代码都开源了。

X AI KOLs Timeline

HRM-Text发布了一个1B参数的基础模型,声称仅需约$1000即可从零完成预训练,计算量和数据量减少数百倍,采用层级递归架构、潜在空间推理和PrefixLM packing等高效技术,论文与代码均已开源。