想要构建自定义模型

Reddit r/LocalLLaMA 新闻

摘要

一位用户讨论将小型自动补全模型(2500万参数)作为学习项目来构建,提到硬件限制(32GB VRAM)、数据要求(约1亿个token),并寻求关于数据集和自动补全式训练的数据格式的建议。

我一直在考虑自己构建一个模型的想法。目前,架构和训练流程似乎已经相当成熟,我相当有信心能够从头搭建一个小型模型。硬件显然是瓶颈。我只有32GB VRAM,所以这显然不会是什么旗舰级基础模型。它甚至可能对通用任务也不是特别有用,但这听起来像一个有趣的项目,也是一次很好的学习经历。我目前的想法是完全避免完整的对话回复,而是构建一个小型自动补全模型,参数大概在2500万左右。目标很简单:给定上下文,预测下一个token、句子或段落。最大的挑战似乎是数据。据我了解,一个粗略的经验法则是用数倍于参数数量的token进行训练,所以即使是一个2500万参数的模型,理想情况下也需要大约1亿以上的token用于实验。第一次尝试时,我在考虑一些更专业或更有趣的方向。一个想法是用YouTube上清理过的转录文本训练一个喜剧模型,学习铺垫到笑点的延续模式。另一个更乏味的可能性是专注于Python、Linux或网络安全的技术模型。对于那些之前训练过小型模型的人:你们是从哪里找到高质量数据集的?除了像维基百科、Common Crawl衍生数据或前沿模型生成的合成数据这些显而易见的选择之外?另外也好奇人们是如何为自动补全式训练格式化数据的,与聊天或问答数据集有何不同。
查看原文

相似文章