我从头开始预训练和后训练了一个500M参数的LLM和一个330M参数的图像生成器
摘要
作者详细介绍了从头开始预训练和后训练一个500M参数的语言模型和一个330M参数的图像生成器的过程。
暂无内容
相似文章
我从零开始训练了一个75M参数的LLM,使用18B tokens,它击败了几乎两倍大小的模型
从零开始训练了一个名为KeyLM的75M参数LLM,使用18B tokens,在指令跟随得分上与更大模型竞争,同时使用更少的参数和更少的数据。
@tom_doerr: 在单个 GPU 上从头训练十亿参数的大语言模型 https://github.com/FareedKhan-dev/train-llm-from-scratch…
一个 GitHub 仓库提供了基于 Transformer 架构、使用 PyTorch 在单个 GPU 上从头训练十亿参数语言模型的脚本。
从零构建一个复古风格的LLM
作者记录了从零构建一个340M参数LLM的过程,该模型仅使用1900年以前的文本进行训练,包括自定义数据集、训练脚本,并开源了模型和代码。
从零开始在8GB显存上训练LLM。我开心
构建了一个仓库,用于在8GB显存上从零训练一个微型语言模型(25M参数),支持MTP,但指出mHC和BitNet的局限性。
从零开始开发开源大语言模型:从预训练到RLHF(PPO/GRPO)
一位开发者分享了从零开始训练一个70亿参数开源大语言模型的进展,该模型基于DeepSeek架构并针对低显存进行了优化,目标是推动AI开发的民主化,并最终超越大型专有模型。