我从零开始训练了一个75M参数的LLM,使用18B tokens,它击败了几乎两倍大小的模型
摘要
从零开始训练了一个名为KeyLM的75M参数LLM,使用18B tokens,在指令跟随得分上与更大模型竞争,同时使用更少的参数和更少的数据。
我从零开始训练了一个小型语言模型,名为KeyLM。它有75M参数,仅解码器架构,包含预训练基座、指令微调版本和GGUF版本。在IFEval(指令跟随)测试中,75M的指令模型得分略高于原始SmolLM-135M-Instruct,参数约其一半,训练数据仅为其一小部分。(SmolLM在600B tokens上预训练,SmolLM2在2T tokens上预训练,而KeyLM仅在18B tokens上预训练。)
模型 参数 IFEval
--------------------- ------ ------
KeyLM-75M-Instruct 75M 17.85
SmolLM-135M-Instruct 135M 17.15
SmolLM2-135M-Instruct 135M 26.98
尽管其余基准测试的表现符合该尺寸模型的预期。
基准 分数
------------------------ -----
MMLU (acc) 24.0%
ARC-Easy (acc) 40.3%
ARC-Challenge (acc_norm) 22.6%
HellaSwag (acc_norm) 31.0%
PIQA (acc) 61.3%
WinoGrande (acc) 48.3%
其架构是该尺寸模型的标准配置。GQA(8个查询头/2个KV头)、RoPE、SwiGLU、每头QK-Norm、24层、隐藏层512、上下文长度2048、12,020字节级BPE词表、bf16。
在约18B tokens的公开数据(FineWeb-Edu、Wikipedia、Reddit、StackExchange、WildChat、UltraChat、LMSYS、OASST2、Cosmopedia)上训练,然后在smol-smoltalk和smoltalk2上进行SFT。
以下是部分样本输出(KeyLM-75M-Instruct,贪心解码):
**解释光合作用。**
▎光合作用是植物利用阳光、水和二氧化碳制造能量的过程。它还会释放氧气,供人和动物呼吸。
**天气和气候有什么区别?**
▎天气是大气在短时间内的情况,比如今天的雨、风或温度。气候是一个地区天气的长期模式。
**什么是重力?**
▎重力是物体之间相互吸引的力。它使月球围绕地球运动,地球围绕太阳运动。
**解释水循环。**
▎太阳加热海洋、湖泊、河流和土壤中的水,使其部分蒸发到空气中。水蒸气冷却后通过凝结形成云。当云变得沉重时,水以雨、雪、霰或冰雹的形式降落。
**经济学中的通货膨胀是什么?**
▎通货膨胀意味着价格随时间上涨。如果通货膨胀高,同等金额的钱能买到的东西比以前少。
**解释宗教的概念。**
▎宗教是一种信仰体系,影响人们的生活方式、工作和与周围世界的互动。它可以塑造文化、政治和价值观。
**给老师写一封简短的感谢信。**
▎感谢您今年给予的耐心和支持。我感谢您为帮助我学习所付出的时间。
该模型仅支持英语,在知识基准测试中近乎随机,因此几乎总是会产生幻觉。所有三个版本(Base、Instruct、GGUF)均已发布在huggingface上,您可以自行尝试:
* Base:[https://huggingface.co/Eclipse-Senpai/KeyLM-75M](https://huggingface.co/Eclipse-Senpai/KeyLM-75M)
* Instruct:[https://huggingface.co/Eclipse-Senpai/KeyLM-75M-Instruct](https://huggingface.co/Eclipse-Senpai/KeyLM-75M-Instruct)
* GGUF:[https://huggingface.co/Eclipse-Senpai/KeyLM-75M-Instruct-GGUF](https://huggingface.co/Eclipse-Senpai/KeyLM-75M-Instruct-GGUF)
相似文章
Nous Research 发布 Token Superposition Training,可将 LLM 预训练速度提升高达 2.5 倍,覆盖 270M 至 10B 参数模型
Nous Research 发布 Token Superposition Training (TST),这是一种可将 LLM 预训练速度提升高达 2.5 倍的方法,覆盖 270M 至 10B 参数模型,在不改变架构或数据的情况下减少实际运行时间。
@cjzafir: 垂直语言模型(VLMs)正在击败顶级大语言模型。这些参数量7B到15B的小型专精模型在各自的细分领域击败了SoTA模型……
作者演示了,通过使用开源模型和Codex编排进行高性价比微调,小型垂直语言模型(6B-15B)能够在细分基准上超越顶级大语言模型,仅用价值300美元的数据集就取得了成果。
从零开始在8GB显存上训练LLM。我开心
构建了一个仓库,用于在8GB显存上从零训练一个微型语言模型(25M参数),支持MTP,但指出mHC和BitNet的局限性。
从零开始开发开源大语言模型:从预训练到RLHF(PPO/GRPO)
一位开发者分享了从零开始训练一个70亿参数开源大语言模型的进展,该模型基于DeepSeek架构并针对低显存进行了优化,目标是推动AI开发的民主化,并最终超越大型专有模型。
@j_golebiowski:17 亿参数模型在 Schema Guided Dialogue 上击败 7440 亿参数的 GLM-5——即便训练数据被污染。这相当于……
17 亿参数模型在训练数据受损的情况下,仍在 Schema Guided Dialogue 任务上超越 7440 亿参数的 GLM-5,体积效率高达 437 倍。