@aakashgupta:Karpathy 对 Dwarkesh 说,只要数据足够干净,10 亿参数的模型就能达到今天 1.8 万亿参数前沿模型的智能水平
摘要
Andrej Karpathy 向 Dwarkesh Patel 表示,用超干净数据训练的 10 亿参数模型可媲美当今 1.8 万亿参数的前沿模型,相当于 1,800 倍的有效压缩。
Karpathy 告诉 Dwarkesh,只要数据足够干净,10 亿参数的模型就能达到今天 1.8 万亿参数前沿模型的智能水平——这相当于 1,800 倍的压缩比。听起来夸张,但其背后的数学并非毫无根据。当各大前沿实验室的研究人员……
查看缓存全文
缓存时间: 2026/04/22 11:28
Karpathy 在 Dwarkesh 的播客里说,只要数据足够干净,10 亿参数的模型就能达到今天 1.8 万亿参数前沿模型的智能水平——相当于压缩了 1 800 倍。这个数字听起来夸张,但背后的数学并非站不住脚。前沿实验室的研究人员……
相似文章
@eliebakouch:@OpenAI 这次发布太棒了!一个总参数量 1.5 B、仅激活 50 M 的 gpt-oss 架构 MoE,能从万亿级数据中廉价滤除隐私信息…
OpenAI 发布 15 亿总参数的 MoE 模型,仅激活 5000 万参数,即可在万亿 token 数据集中过滤隐私信息,同时保持 128 k 上下文长度。
@heyrobinai: 整个AI行业刚刚被羞辱了——一个仅用单张显卡训练几小时的微型模型正在规划...
Yann LeCun的团队发布了LeWorldModel,一个仅有1500万参数的物理模型,在单张GPU上训练数小时,在规划速度和物理合理性上超越了价值数十亿美元的基础模型,挑战了主流的规模扩展范式。
@j_golebiowski:17 亿参数模型在 Schema Guided Dialogue 上击败 7440 亿参数的 GLM-5——即便训练数据被污染。这相当于……
17 亿参数模型在训练数据受损的情况下,仍在 Schema Guided Dialogue 任务上超越 7440 亿参数的 GLM-5,体积效率高达 437 倍。
@runes_leo: Karpathy 4/30 在 Sequoia Ascent 把今年最有用的 AI 解释,压缩成三个论点。读完你看 AI 的方式会变。 1. AI 不只是"更快",是新范式 过去 2 年大家都在讲 AI 让事情变快。 Karpathy 说…
本文总结了Karpathy在Sequoia Ascent大会上的核心观点,指出AI是重塑任务流的新范式而非单纯加速工具,通过可验证性与经济价值划分了模型能力的“参差不齐边界”,并预言未来软件将演变为以LLM为逻辑层、传统代码为传感器/执行器的智能体原生架构。
@iotcoi:OpenAI 训练了完美 LLM,让 OpenAI 自己都看不到数据 openai/privacy-filter Apache 2.0,1B 参数 MoE,本地运行 我的……
OpenAI 发布 10 亿参数 Apache-2.0 MoE 模型,可在任何 LLM 接收前自动脱敏,实现完全本地、零泄露的工作流。