想要构建自定义模型
摘要
一位用户讨论将小型自动补全模型(2500万参数)作为学习项目来构建,提到硬件限制(32GB VRAM)、数据要求(约1亿个token),并寻求关于数据集和自动补全式训练的数据格式的建议。
我一直在考虑自己构建一个模型的想法。目前,架构和训练流程似乎已经相当成熟,我相当有信心能够从头搭建一个小型模型。硬件显然是瓶颈。我只有32GB VRAM,所以这显然不会是什么旗舰级基础模型。它甚至可能对通用任务也不是特别有用,但这听起来像一个有趣的项目,也是一次很好的学习经历。我目前的想法是完全避免完整的对话回复,而是构建一个小型自动补全模型,参数大概在2500万左右。目标很简单:给定上下文,预测下一个token、句子或段落。最大的挑战似乎是数据。据我了解,一个粗略的经验法则是用数倍于参数数量的token进行训练,所以即使是一个2500万参数的模型,理想情况下也需要大约1亿以上的token用于实验。第一次尝试时,我在考虑一些更专业或更有趣的方向。一个想法是用YouTube上清理过的转录文本训练一个喜剧模型,学习铺垫到笑点的延续模式。另一个更乏味的可能性是专注于Python、Linux或网络安全的技术模型。对于那些之前训练过小型模型的人:你们是从哪里找到高质量数据集的?除了像维基百科、Common Crawl衍生数据或前沿模型生成的合成数据这些显而易见的选择之外?另外也好奇人们是如何为自动补全式训练格式化数据的,与聊天或问答数据集有何不同。
相似文章
小型本地模型用于自动化,真的可行吗?
一位 Reddit 用户探讨了小规模本地语言模型(1B-4B 参数)在自动化和脚本编写方面的潜力,并询问了专注于这一应用场景的资源。
如果我真的很想从零开始训练一个AI会怎样?
对从零开始训练AI模型的挑战与魅力的个人反思,强调了数据、硬件和扩展方面的困难,同时指出令人惊讶的是,在普通硬件上也能训练出相当不错的小模型。
从零开始在8GB显存上训练LLM。我开心
构建了一个仓库,用于在8GB显存上从零训练一个微型语言模型(25M参数),支持MTP,但指出mHC和BitNet的局限性。
@paulabartabajo_:给AI工程师的建议——在自定义数据上微调的小型视觉语言模型,准确率堪比GPT-5……
一条推文称,在自定义数据上微调的小型视觉语言模型准确率可媲美GPT-5,成本却低50倍,并举例Liquid AI的1.6B模型可用llama.cpp本地全速运行。
@harshbhatt7585: https://x.com/harshbhatt7585/status/2063593933314113587
作者分享了从头训练一个160M参数大语言模型的经验,尝试了多种架构,如多Token预测和分层推理模型。他强调快速迭代、简化思路以及理解架构有效原因的重要性。