LocalLLaMA 众包编程数据集

Reddit r/LocalLLaMA 2026/06/18 05:33 新闻

crowdsourced dataset local-llm community fine-tuning open-weight coding

摘要

一位社区成员提议为本地大语言模型创建一个众包编程数据集，以实现协作模型训练和微调，并回应了关于未来开源权重模型可用性的担忧。

我觉得这个社区的很多人（包括我自己）一直在急切地等待新小模型的发布，或现有模型的改进等等。有时候我希望能有更多社区发布的模型（就像有时会有社区发布的测试工具、前端或量化版本一样）。不幸的是，从头训练一个新模型是一项艰巨的任务，我们根本不具备相应的专业知识或资源。不过，还有另一种选择——任何人，无论使用什么硬件，都可以为数据集做出贡献。如果我们（或许还有其他社区）合作创建一个合适的数据集，并且拥有更强硬件的人愿意自愿进行微调和/或量化模型，那么我们就可以在家制作自己的'Qwen3.7-27B'。显然事情没那么简单，这里有很多需要考虑的地方。诸如提交质量、一致性等问题将是创建良好可用数据集需要克服的障碍。这绝对是一个巨大的挑战。但我认为，考虑到最近发生的事件，我们或许应该开始考虑做些这样的事情。如果有朝一日公司停止发布开源权重模型（如今这种可能性越来越大），如果我们有更多方法可以自己继续推进本地大语言模型的发展，而不是被迫停滞不前，我们的处境会好得多。如果有人对如何实现这一点有想法，无论是后勤方面还是其他方面，请告诉我。我认为这是能够真正惠及社区的事情。

查看原文

LocalLLaMA 众包编程数据集

相似文章

@tom_doerr: 本地LLM工具和硬件精选列表 https://github.com/0xSojalSec/LLMs-local…

Cohere的未发布编码模型（localllama早期访问）

迈向LLM的下一个前沿：私有数据训练——联邦微调的跨域基准

从零开始开发开源大语言模型：从预训练到RLHF（PPO/GRPO）

开源LLM基准测试每4小时运行147个编码任务，采用5次试验中位数及95%置信区间，并使用CUSUM进行变点检测。好奇大家对这种方法的看法。

提交意见反馈