@neural_avb: 给他们一大笔钱,这样他们就能进行这些扩展到70亿参数及以上的大语言模型的实验。从中学到的东西太多了…
摘要
Zyphra 分享了他们在大型语言模型持续学习方面的首项工作,研究模型是否能够从新数据中持续学习,并推导出在高达70亿参数的扩展实验中塑性丧失开始的缩放定律。
查看缓存全文
缓存时间: 2026/06/26 10:11
给他们一大笔钱,这样他们就能进行这些扩展到7B大语言模型甚至更大的缩放实验
从这些论文中可以学到很多 https://t.co/VhZvCJH0nk
Zyphra (@ZyphraAI): Zyphra正在分享我们在持续学习方面的首项工作,研究的是:大语言模型能否从新数据中不断学习?
许多人将持续学习视为通过递归自我改进(RSI)通往AGI的路径。
第一个障碍是可塑性丧失。我们推导出了其出现的缩放定律 🧵
相似文章
@harshbhatt7585: https://x.com/harshbhatt7585/status/2063593933314113587
作者分享了从头训练一个160M参数大语言模型的经验,尝试了多种架构,如多Token预测和分层推理模型。他强调快速迭代、简化思路以及理解架构有效原因的重要性。
@neural_avb: 如果你仔细想想,2026年的LLM训练其实是一个三步循环:- 用一些数据训练 - 内部测试/运行分类评估…
这条推文概述了2026年LLM训练的三步循环:用数据训练、运行评估、为表现不佳的任务添加合成数据。它强调了通过开源模型和廉价API进行合法蒸馏的易得性,并指出仅凭推理轨迹训练就能获得高分。
@lilianweng: 一篇超级迟到的(3年以上?)关于扩展定律的帖子。计算很昂贵。扩展定律是一种帮助我们推理…
Lilian Weng的博客文章全面概述了深度学习中的扩展定律,涵盖了它们的推导、计算最优分配以及Kaplan等人与Chinchilla之间的争论。
从零开始开发开源大语言模型:从预训练到RLHF(PPO/GRPO)
一位开发者分享了从零开始训练一个70亿参数开源大语言模型的进展,该模型基于DeepSeek架构并针对低显存进行了优化,目标是推动AI开发的民主化,并最终超越大型专有模型。
神经语言模型的缩放规律
基础性实证研究,展示了语言模型性能与模型规模、数据集大小和计算预算之间的幂律缩放关系,对最优训练资源分配和样本效率有重要启示。