从零开始在8GB显存上训练LLM。我开心
摘要
构建了一个仓库,用于在8GB显存上从零训练一个微型语言模型(25M参数),支持MTP,但指出mHC和BitNet的局限性。
我昨天发了个帖子:[https://www.reddit.com/r/LocalLLaMA/comments/1tqjuzg/why\_is\_there\_no\_community\_project\_for\_training/](https://www.reddit.com/r/LocalLLaMA/comments/1tqjuzg/why_is_there_no_community_project_for_training/) 我今天写了个程序:[https://github.com/epoyraz/train-a-model-from-scratch](https://github.com/epoyraz/train-a-model-from-scratch) 亮点:\- 用8GB显存从零训练tinystories。耶 \- mHC不好(模型太小) \- BitNet太慢(训练时没有内存增益) \- TurboQuant(不需要) \- MTP可行。耶耶耶(但让训练变慢) 嗯……这不是LLM,是个25M的小模型:[https://huggingface.co/epoyraz/tinystories-25m](https://huggingface.co/epoyraz/tinystories-25m)
相似文章
本地LLM CPU用户……你们做任何事情要花多长时间?
关于在CPU上本地运行大语言模型性能的讨论,特别是大上下文尺寸的情况,以及显存限制带来的挑战。
@heygurisingh: 过去训练参数量达数十亿的LLM需要花费1000万美元以上。有人开源了一个仓库,现在可以在单张GPU上完成。
一个名为train-llm-from-scratch的开源仓库使得在单张GPU上训练十亿级参数的LLM成为可能,它提供了一个从原始文本到推理的可配置流水线,包括数据集流式加载和检查点保存,采用MIT许可证。
rasbt/LLMs-from-scratch
该仓库提供开源代码,用于从零开始构建、预训练和微调一个类似GPT的大型语言模型,是Sebastian Raschka同名书籍的官方代码配套。
我从零开始训练了一个75M参数的LLM,使用18B tokens,它击败了几乎两倍大小的模型
从零开始训练了一个名为KeyLM的75M参数LLM,使用18B tokens,在指令跟随得分上与更大模型竞争,同时使用更少的参数和更少的数据。
@tom_doerr: 在单个4GB GPU上运行70B大语言模型 https://github.com/lyogavin/airllm
AirLLM是一个开源工具,优化推理内存使用,无需量化即可在单个4GB GPU上运行70B大语言模型,并支持在8GB显存上运行405B模型。