@cjzafir: 垂直语言模型(VLMs)正在击败顶级大语言模型。这些参数量7B到15B的小型专精模型在各自的细分领域击败了SoTA模型……
摘要
作者演示了,通过使用开源模型和Codex编排进行高性价比微调,小型垂直语言模型(6B-15B)能够在细分基准上超越顶级大语言模型,仅用价值300美元的数据集就取得了成果。
垂直语言模型(VLMs)正在击败顶级大语言模型。这些参数量7B到15B的小型专精模型在各自的细分基准上击败了最先进的模型。我花了15天后训练了一个6B密集模型,击败了Sonnet 4.6和Gemini 3 Flash。我使用Codex 5.5(超强模式)来规划SFT数据集范围,然后使用DeepSeek v4 Pro和Kimi 2.6 API生成手写示例。(没有使用合成或模板数据集。)Codex通过质量关卡运行每个批次,并过滤掉所有弱数据。我仅用300美元就构建了一个3.5亿参数的数据集,Codex作为编排器,DS + Kimi作为执行器。我能够独自与大型数据实验室竞争,击败他们的VLM,而且不花大钱。这之所以成为可能,只是因为开源模型与最先进模型不相上下。如果我现在要开启职业生涯,我会创办一家为企业微调小型语言模型(SLM)的机构。我会收取1万到2万美元的一次性费用。使用Qwen 3.5或Gemma 4作为基础模型,Codex作为大脑,DeepSeek v4 + Kimi作为肌肉,以不到1000美元的成本后训练一个强大的SLM。这听起来可能有点不切实际,但6个月内你就会看到这样的机构。并非所有事情都需要大语言模型。如果训练得当,SLM可以以10倍更低的成本实现垂直智能,没有隐私问题,并且对模型完全可控。我将在X上随时分享技术发现。如果你喜欢极客式的微调内容,敬请关注。
相似文章
超小型LLM真的有用吗?
探讨了非常小的语言模型是否能妥善处理日常对话,以及哪些训练因素使它们表现更佳。
用于生物医学声明验证的小型LLM:经济高效的微调、结构化数据集捷径与跨域泛化
使用QLoRA对小型LLM(3B-7B)进行生物医学声明验证的微调,以44.5倍更低的成本实现了比GPT-4o和GPT-5更高的F1分数,并揭示了SciFact中的一个结构伪影。该研究表明,在结构合理的数据上进行训练可实现稳健的跨域迁移。
@paulabartabajo_:给AI工程师的建议——在自定义数据上微调的小型视觉语言模型,准确率堪比GPT-5……
一条推文称,在自定义数据上微调的小型视觉语言模型准确率可媲美GPT-5,成本却低50倍,并举例Liquid AI的1.6B模型可用llama.cpp本地全速运行。
一些好条款:比较LLMs与领域训练的小型语言模型在结构化合同提取中的表现
本文比较了领域训练的小型语言模型(Olava Extract)与前沿LLMs在结构化合同提取中的表现,结果显示该专业化模型获得了更高的F1分数且成本显著降低。
我从零开始训练了一个75M参数的LLM,使用18B tokens,它击败了几乎两倍大小的模型
从零开始训练了一个名为KeyLM的75M参数LLM,使用18B tokens,在指令跟随得分上与更大模型竞争,同时使用更少的参数和更少的数据。