@neural_avb: 给他们一大笔钱，这样他们就能进行这些扩展到70亿参数及以上的大语言模型的实验。从中学到的东西太多了…

X AI KOLs Timeline 2026/06/25 13:12 论文

continual-learning llm scaling plasticity research

摘要

Zyphra 分享了他们在大型语言模型持续学习方面的首项工作，研究模型是否能够从新数据中持续学习，并推导出在高达70亿参数的扩展实验中塑性丧失开始的缩放定律。

给他们一大笔钱，这样他们就能进行这些扩展到70亿参数及以上的大语言模型实验。从这些论文中可以学到很多东西 https://t.co/VhZvCJH0nk

查看原文

查看缓存全文

缓存时间: 2026/06/26 10:11

给他们一大笔钱，这样他们就能进行这些扩展到7B大语言模型甚至更大的缩放实验

从这些论文中可以学到很多 https://t.co/VhZvCJH0nk

Zyphra (@ZyphraAI): Zyphra正在分享我们在持续学习方面的首项工作，研究的是：大语言模型能否从新数据中不断学习？

许多人将持续学习视为通过递归自我改进（RSI）通往AGI的路径。

第一个障碍是可塑性丧失。我们推导出了其出现的缩放定律 🧵

相似文章

X AI KOLs Timeline

作者分享了从头训练一个160M参数大语言模型的经验，尝试了多种架构，如多Token预测和分层推理模型。他强调快速迭代、简化思路以及理解架构有效原因的重要性。

X AI KOLs Timeline

这条推文概述了2026年LLM训练的三步循环：用数据训练、运行评估、为表现不佳的任务添加合成数据。它强调了通过开源模型和廉价API进行合法蒸馏的易得性，并指出仅凭推理轨迹训练就能获得高分。

X AI KOLs Timeline

Lilian Weng的博客文章全面概述了深度学习中的扩展定律，涵盖了它们的推导、计算最优分配以及Kaplan等人与Chinchilla之间的争论。

Reddit r/LocalLLaMA

一位开发者分享了从零开始训练一个70亿参数开源大语言模型的进展，该模型基于DeepSeek架构并针对低显存进行了优化，目标是推动AI开发的民主化，并最终超越大型专有模型。

OpenAI Blog

基础性实证研究，展示了语言模型性能与模型规模、数据集大小和计算预算之间的幂律缩放关系，对最优训练资源分配和样本效率有重要启示。