想要构建自定义模型

Reddit r/LocalLLaMA 2026/06/14 05:32 新闻

small-model custom-model training dataset autocomplete hardware vram

摘要

一位用户讨论将小型自动补全模型（2500万参数）作为学习项目来构建，提到硬件限制（32GB VRAM）、数据要求（约1亿个token），并寻求关于数据集和自动补全式训练的数据格式的建议。

我一直在考虑自己构建一个模型的想法。目前，架构和训练流程似乎已经相当成熟，我相当有信心能够从头搭建一个小型模型。硬件显然是瓶颈。我只有32GB VRAM，所以这显然不会是什么旗舰级基础模型。它甚至可能对通用任务也不是特别有用，但这听起来像一个有趣的项目，也是一次很好的学习经历。我目前的想法是完全避免完整的对话回复，而是构建一个小型自动补全模型，参数大概在2500万左右。目标很简单：给定上下文，预测下一个token、句子或段落。最大的挑战似乎是数据。据我了解，一个粗略的经验法则是用数倍于参数数量的token进行训练，所以即使是一个2500万参数的模型，理想情况下也需要大约1亿以上的token用于实验。第一次尝试时，我在考虑一些更专业或更有趣的方向。一个想法是用YouTube上清理过的转录文本训练一个喜剧模型，学习铺垫到笑点的延续模式。另一个更乏味的可能性是专注于Python、Linux或网络安全的技术模型。对于那些之前训练过小型模型的人：你们是从哪里找到高质量数据集的？除了像维基百科、Common Crawl衍生数据或前沿模型生成的合成数据这些显而易见的选择之外？另外也好奇人们是如何为自动补全式训练格式化数据的，与聊天或问答数据集有何不同。

查看原文

想要构建自定义模型

相似文章

小型本地模型用于自动化，真的可行吗？

如果我真的很想从零开始训练一个AI会怎样？

从零开始在8GB显存上训练LLM。我开心

@paulabartabajo_：给AI工程师的建议——在自定义数据上微调的小型视觉语言模型，准确率堪比GPT-5……

@harshbhatt7585: https://x.com/harshbhatt7585/status/2063593933314113587

提交意见反馈