@aakashgupta:Karpathy 对 Dwarkesh 说,只要数据足够干净,10 亿参数的模型就能达到今天 1.8 万亿参数前沿模型的智能水平
摘要
Andrej Karpathy 向 Dwarkesh Patel 表示,用超干净数据训练的 10 亿参数模型可媲美当今 1.8 万亿参数的前沿模型,相当于 1,800 倍的有效压缩。
查看缓存全文
缓存时间: 2026/04/22 11:28
Karpathy 在 Dwarkesh 的播客里说,只要数据足够干净,10 亿参数的模型就能达到今天 1.8 万亿参数前沿模型的智能水平——相当于压缩了 1 800 倍。这个数字听起来夸张,但背后的数学并非站不住脚。前沿实验室的研究人员……
相似文章
@draecomino: Cerebras 创下新纪录:万亿参数模型,每秒 1000 个 token
Cerebras 宣布,在企业试用中,其运行万亿参数模型 Kimi K2.6 的速度约为每秒 1000 个 token,并声称这是 Artificial Analysis 有史以来测得的最快前沿模型性能。
一个4b模型现在在网络研究上击败30b模型,原因不在于规模
来自Apodex家族的一个40亿参数开放模型在网页研究基准上优于300亿参数模型,这归因于精心构建的训练数据和自我验证技术,而非原始规模,表明AI能力发展趋向更民主化。
@eliebakouch:@OpenAI 这次发布太棒了!一个总参数量 1.5 B、仅激活 50 M 的 gpt-oss 架构 MoE,能从万亿级数据中廉价滤除隐私信息…
OpenAI 发布 15 亿总参数的 MoE 模型,仅激活 5000 万参数,即可在万亿 token 数据集中过滤隐私信息,同时保持 128 k 上下文长度。
@heyrobinai: 整个AI行业刚刚被羞辱了——一个仅用单张显卡训练几小时的微型模型正在规划...
Yann LeCun的团队发布了LeWorldModel,一个仅有1500万参数的物理模型,在单张GPU上训练数小时,在规划速度和物理合理性上超越了价值数十亿美元的基础模型,挑战了主流的规模扩展范式。
@vintcessun: 预训练原来可以这么省?1B模型、~$1000就能从零训出可用的基础模型,计算和数据量直接砍掉数百倍。核心不靠堆算力,而是层次递归架构加上潜在空间推理,配合PrefixLM packing和FA3把效率拉满。有点离谱,但论文和代码都开源了。
HRM-Text发布了一个1B参数的基础模型,声称仅需约$1000即可从零完成预训练,计算量和数据量减少数百倍,采用层级递归架构、潜在空间推理和PrefixLM packing等高效技术,论文与代码均已开源。