@cjzafir: 垂直语言模型（VLMs）正在击败顶级大语言模型。这些参数量7B到15B的小型专精模型在各自的细分领域击败了SoTA模型……

X AI KOLs Timeline 2026/05/08 14:00 新闻

摘要

作者演示了，通过使用开源模型和Codex编排进行高性价比微调，小型垂直语言模型（6B-15B）能够在细分基准上超越顶级大语言模型，仅用价值300美元的数据集就取得了成果。

垂直语言模型（VLMs）正在击败顶级大语言模型。这些参数量7B到15B的小型专精模型在各自的细分基准上击败了最先进的模型。我花了15天后训练了一个6B密集模型，击败了Sonnet 4.6和Gemini 3 Flash。我使用Codex 5.5（超强模式）来规划SFT数据集范围，然后使用DeepSeek v4 Pro和Kimi 2.6 API生成手写示例。（没有使用合成或模板数据集。）Codex通过质量关卡运行每个批次，并过滤掉所有弱数据。我仅用300美元就构建了一个3.5亿参数的数据集，Codex作为编排器，DS + Kimi作为执行器。我能够独自与大型数据实验室竞争，击败他们的VLM，而且不花大钱。这之所以成为可能，只是因为开源模型与最先进模型不相上下。如果我现在要开启职业生涯，我会创办一家为企业微调小型语言模型（SLM）的机构。我会收取1万到2万美元的一次性费用。使用Qwen 3.5或Gemma 4作为基础模型，Codex作为大脑，DeepSeek v4 + Kimi作为肌肉，以不到1000美元的成本后训练一个强大的SLM。这听起来可能有点不切实际，但6个月内你就会看到这样的机构。并非所有事情都需要大语言模型。如果训练得当，SLM可以以10倍更低的成本实现垂直智能，没有隐私问题，并且对模型完全可控。我将在X上随时分享技术发现。如果你喜欢极客式的微调内容，敬请关注。

查看原文

@cjzafir: 垂直语言模型（VLMs）正在击败顶级大语言模型。这些参数量7B到15B的小型专精模型在各自的细分领域击败了SoTA模型……

相似文章

超小型LLM真的有用吗？

用于生物医学声明验证的小型LLM：经济高效的微调、结构化数据集捷径与跨域泛化

@paulabartabajo_：给AI工程师的建议——在自定义数据上微调的小型视觉语言模型，准确率堪比GPT-5……

一些好条款：比较LLMs与领域训练的小型语言模型在结构化合同提取中的表现

我从零开始训练了一个75M参数的LLM，使用18B tokens，它击败了几乎两倍大小的模型

提交意见反馈