我从零开始训练了一个75M参数的LLM,使用18B tokens,它击败了几乎两倍大小的模型

Reddit r/LocalLLaMA 模型

摘要

从零开始训练了一个名为KeyLM的75M参数LLM,使用18B tokens,在指令跟随得分上与更大模型竞争,同时使用更少的参数和更少的数据。

我从零开始训练了一个小型语言模型,名为KeyLM。它有75M参数,仅解码器架构,包含预训练基座、指令微调版本和GGUF版本。在IFEval(指令跟随)测试中,75M的指令模型得分略高于原始SmolLM-135M-Instruct,参数约其一半,训练数据仅为其一小部分。(SmolLM在600B tokens上预训练,SmolLM2在2T tokens上预训练,而KeyLM仅在18B tokens上预训练。) 模型 参数 IFEval --------------------- ------ ------ KeyLM-75M-Instruct 75M 17.85 SmolLM-135M-Instruct 135M 17.15 SmolLM2-135M-Instruct 135M 26.98 尽管其余基准测试的表现符合该尺寸模型的预期。 基准 分数 ------------------------ ----- MMLU (acc) 24.0% ARC-Easy (acc) 40.3% ARC-Challenge (acc_norm) 22.6% HellaSwag (acc_norm) 31.0% PIQA (acc) 61.3% WinoGrande (acc) 48.3% 其架构是该尺寸模型的标准配置。GQA(8个查询头/2个KV头)、RoPE、SwiGLU、每头QK-Norm、24层、隐藏层512、上下文长度2048、12,020字节级BPE词表、bf16。 在约18B tokens的公开数据(FineWeb-Edu、Wikipedia、Reddit、StackExchange、WildChat、UltraChat、LMSYS、OASST2、Cosmopedia)上训练,然后在smol-smoltalk和smoltalk2上进行SFT。 以下是部分样本输出(KeyLM-75M-Instruct,贪心解码): **解释光合作用。** ▎光合作用是植物利用阳光、水和二氧化碳制造能量的过程。它还会释放氧气,供人和动物呼吸。 **天气和气候有什么区别?** ▎天气是大气在短时间内的情况,比如今天的雨、风或温度。气候是一个地区天气的长期模式。 **什么是重力?** ▎重力是物体之间相互吸引的力。它使月球围绕地球运动,地球围绕太阳运动。 **解释水循环。** ▎太阳加热海洋、湖泊、河流和土壤中的水,使其部分蒸发到空气中。水蒸气冷却后通过凝结形成云。当云变得沉重时,水以雨、雪、霰或冰雹的形式降落。 **经济学中的通货膨胀是什么?** ▎通货膨胀意味着价格随时间上涨。如果通货膨胀高,同等金额的钱能买到的东西比以前少。 **解释宗教的概念。** ▎宗教是一种信仰体系,影响人们的生活方式、工作和与周围世界的互动。它可以塑造文化、政治和价值观。 **给老师写一封简短的感谢信。** ▎感谢您今年给予的耐心和支持。我感谢您为帮助我学习所付出的时间。 该模型仅支持英语,在知识基准测试中近乎随机,因此几乎总是会产生幻觉。所有三个版本(Base、Instruct、GGUF)均已发布在huggingface上,您可以自行尝试: * Base:[https://huggingface.co/Eclipse-Senpai/KeyLM-75M](https://huggingface.co/Eclipse-Senpai/KeyLM-75M) * Instruct:[https://huggingface.co/Eclipse-Senpai/KeyLM-75M-Instruct](https://huggingface.co/Eclipse-Senpai/KeyLM-75M-Instruct) * GGUF:[https://huggingface.co/Eclipse-Senpai/KeyLM-75M-Instruct-GGUF](https://huggingface.co/Eclipse-Senpai/KeyLM-75M-Instruct-GGUF)
查看原文

相似文章