我从零开始训练了一个75M参数的LLM，使用18B tokens，它击败了几乎两倍大小的模型

Reddit r/LocalLLaMA 2026/06/02 17:41 模型

摘要

从零开始训练了一个名为KeyLM的75M参数LLM，使用18B tokens，在指令跟随得分上与更大模型竞争，同时使用更少的参数和更少的数据。

我从零开始训练了一个小型语言模型，名为KeyLM。它有75M参数，仅解码器架构，包含预训练基座、指令微调版本和GGUF版本。在IFEval（指令跟随）测试中，75M的指令模型得分略高于原始SmolLM-135M-Instruct，参数约其一半，训练数据仅为其一小部分。（SmolLM在600B tokens上预训练，SmolLM2在2T tokens上预训练，而KeyLM仅在18B tokens上预训练。）模型参数 IFEval --------------------- ------ ------ KeyLM-75M-Instruct 75M 17.85 SmolLM-135M-Instruct 135M 17.15 SmolLM2-135M-Instruct 135M 26.98 尽管其余基准测试的表现符合该尺寸模型的预期。基准分数 ------------------------ ----- MMLU (acc) 24.0% ARC-Easy (acc) 40.3% ARC-Challenge (acc_norm) 22.6% HellaSwag (acc_norm) 31.0% PIQA (acc) 61.3% WinoGrande (acc) 48.3% 其架构是该尺寸模型的标准配置。GQA（8个查询头/2个KV头）、RoPE、SwiGLU、每头QK-Norm、24层、隐藏层512、上下文长度2048、12,020字节级BPE词表、bf16。在约18B tokens的公开数据（FineWeb-Edu、Wikipedia、Reddit、StackExchange、WildChat、UltraChat、LMSYS、OASST2、Cosmopedia）上训练，然后在smol-smoltalk和smoltalk2上进行SFT。以下是部分样本输出（KeyLM-75M-Instruct，贪心解码）： **解释光合作用。** ▎光合作用是植物利用阳光、水和二氧化碳制造能量的过程。它还会释放氧气，供人和动物呼吸。 **天气和气候有什么区别？** ▎天气是大气在短时间内的情况，比如今天的雨、风或温度。气候是一个地区天气的长期模式。 **什么是重力？** ▎重力是物体之间相互吸引的力。它使月球围绕地球运动，地球围绕太阳运动。 **解释水循环。** ▎太阳加热海洋、湖泊、河流和土壤中的水，使其部分蒸发到空气中。水蒸气冷却后通过凝结形成云。当云变得沉重时，水以雨、雪、霰或冰雹的形式降落。 **经济学中的通货膨胀是什么？** ▎通货膨胀意味着价格随时间上涨。如果通货膨胀高，同等金额的钱能买到的东西比以前少。 **解释宗教的概念。** ▎宗教是一种信仰体系，影响人们的生活方式、工作和与周围世界的互动。它可以塑造文化、政治和价值观。 **给老师写一封简短的感谢信。** ▎感谢您今年给予的耐心和支持。我感谢您为帮助我学习所付出的时间。该模型仅支持英语，在知识基准测试中近乎随机，因此几乎总是会产生幻觉。所有三个版本（Base、Instruct、GGUF）均已发布在huggingface上，您可以自行尝试： * Base：[https://huggingface.co/Eclipse-Senpai/KeyLM-75M](https://huggingface.co/Eclipse-Senpai/KeyLM-75M) * Instruct：[https://huggingface.co/Eclipse-Senpai/KeyLM-75M-Instruct](https://huggingface.co/Eclipse-Senpai/KeyLM-75M-Instruct) * GGUF：[https://huggingface.co/Eclipse-Senpai/KeyLM-75M-Instruct-GGUF](https://huggingface.co/Eclipse-Senpai/KeyLM-75M-Instruct-GGUF)

查看原文

我从零开始训练了一个75M参数的LLM，使用18B tokens，它击败了几乎两倍大小的模型

相似文章

我从头开始预训练和后训练了一个500M参数的LLM和一个330M参数的图像生成器

@LiorOnAI：现在你可以将任何LLM转换成更快的版本，而无需从头重新训练。NVIDIA刚刚在他们30B的模型上实现了这一点。她…

Nous Research 发布 Token Superposition Training，可将 LLM 预训练速度提升高达 2.5 倍，覆盖 270M 至 10B 参数模型

基于1800年代文本从头训练LLM（160GB数据集）

@cjzafir: 垂直语言模型（VLMs）正在击败顶级大语言模型。这些参数量7B到15B的小型专精模型在各自的细分领域击败了SoTA模型……

提交意见反馈