@cjzafir: 垂直语言模型(VLMs)正在击败顶级大语言模型。这些参数量7B到15B的小型专精模型在各自的细分领域击败了SoTA模型……

X AI KOLs Timeline 新闻

摘要

作者演示了,通过使用开源模型和Codex编排进行高性价比微调,小型垂直语言模型(6B-15B)能够在细分基准上超越顶级大语言模型,仅用价值300美元的数据集就取得了成果。

垂直语言模型(VLMs)正在击败顶级大语言模型。这些参数量7B到15B的小型专精模型在各自的细分基准上击败了最先进的模型。我花了15天后训练了一个6B密集模型,击败了Sonnet 4.6和Gemini 3 Flash。我使用Codex 5.5(超强模式)来规划SFT数据集范围,然后使用DeepSeek v4 Pro和Kimi 2.6 API生成手写示例。(没有使用合成或模板数据集。)Codex通过质量关卡运行每个批次,并过滤掉所有弱数据。我仅用300美元就构建了一个3.5亿参数的数据集,Codex作为编排器,DS + Kimi作为执行器。我能够独自与大型数据实验室竞争,击败他们的VLM,而且不花大钱。这之所以成为可能,只是因为开源模型与最先进模型不相上下。如果我现在要开启职业生涯,我会创办一家为企业微调小型语言模型(SLM)的机构。我会收取1万到2万美元的一次性费用。使用Qwen 3.5或Gemma 4作为基础模型,Codex作为大脑,DeepSeek v4 + Kimi作为肌肉,以不到1000美元的成本后训练一个强大的SLM。这听起来可能有点不切实际,但6个月内你就会看到这样的机构。并非所有事情都需要大语言模型。如果训练得当,SLM可以以10倍更低的成本实现垂直智能,没有隐私问题,并且对模型完全可控。我将在X上随时分享技术发现。如果你喜欢极客式的微调内容,敬请关注。
查看原文

相似文章

超小型LLM真的有用吗?

Reddit r/singularity

探讨了非常小的语言模型是否能妥善处理日常对话,以及哪些训练因素使它们表现更佳。