我从头开始预训练和后训练了一个500M参数的LLM和一个330M参数的图像生成器

Reddit r/LocalLLaMA 2026/06/21 16:52 工具

pretraining post-training llm image-generation from-scratch 500m-parameters 330m-parameters

摘要

作者详细介绍了从头开始预训练和后训练一个500M参数的语言模型和一个330M参数的图像生成器的过程。

暂无内容

查看原文

相似文章

Reddit r/LocalLLaMA

从零开始训练了一个名为KeyLM的75M参数LLM，使用18B tokens，在指令跟随得分上与更大模型竞争，同时使用更少的参数和更少的数据。

X AI KOLs Timeline

一个 GitHub 仓库提供了基于 Transformer 架构、使用 PyTorch 在单个 GPU 上从头训练十亿参数语言模型的脚本。

Hacker News Top

作者记录了从零构建一个340M参数LLM的过程，该模型仅使用1900年以前的文本进行训练，包括自定义数据集、训练脚本，并开源了模型和代码。

Reddit r/LocalLLaMA

构建了一个仓库，用于在8GB显存上从零训练一个微型语言模型（25M参数），支持MTP，但指出mHC和BitNet的局限性。

Reddit r/LocalLLaMA

一位开发者分享了从零开始训练一个70亿参数开源大语言模型的进展，该模型基于DeepSeek架构并针对低显存进行了优化，目标是推动AI开发的民主化，并最终超越大型专有模型。