小大脑,大成就:探索紧凑型语言模型
摘要
本文对17个紧凑型语言模型(1B-8B参数)在俄语RAG系统中作为生成器进行了基准测试,仅使用CPU推理,发现Qwen系列模型在私有、无GPU部署中提供了出色的质量-延迟权衡。
查看缓存全文
缓存时间: 2026/07/01 07:41
论文页面 - 小模型,大成就:探索紧凑型语言模型
来源:https://huggingface.co/papers/2606.30062
概述(https://cdn-uploads.huggingface.co/production/uploads/6415cb01486c7c9a5d1560f3/XUuB9TpgTCVHVj6FyXZCR.png)小型语言模型能否在无需GPU的情况下,足够强大以胜任实际的RAG生成任务?
我们对17个参数规模从1B到8B的紧凑型语言模型进行了基准测试,将它们作为俄语检索增强生成(RAG)系统中的生成器。所有候选模型均以本地GGUF变体的形式进行评估,包括Q4_K_M和Q5_K_M量化模型,并在仅CPU推理的约束下运行。
评估使用了基于五个俄语问答数据集构建的500样本基准,涵盖开源和专有领域特定数据。回答通过一个多评判器的LLM-as-a-Judge设置进行评估,评估维度包括正确性、答案相关性、忠实性、上下文相关性和延迟。
一个清晰的模式浮现出来:Qwen家族模型在这一场景中主导了顶级SLM(小型语言模型)层次。Qwen3-8B-Q4_K_M在整体SLM质量上表现最强,正确性达到0.72,忠实性达到0.83,在正确性上接近GPT-5-mini基线。同时,Qwen3-4B-Instruct-2507-Q5_K_M提供了最佳的实际质量-延迟权衡,正确性0.71,答案相关性0.89,忠实性0.80,且CPU延迟远低于8B模型。Qwen2.5-7B-Instruct-Q4_K_M也是一个强有力的候选者,在中等延迟下展现出高答案相关性和忠实性。
我们的研究结果表明,经过精心挑选的量化SLM(尤其是来自Qwen家族的模型)可以成为有竞争力的RAG生成器,同时支持本地化、私密且无需GPU的部署。这项工作对于设备端AI、隐私敏感型应用、边缘部署以及计算预算有限的生产级RAG系统尤其具有现实意义。
该论文已被ECML PKDD 2026应用数据科学轨道(Applied Data Science Track)接收。此为作者的预印本版本。
相似文章
LLiMba:单卡GPU上的撒丁语——将3B参数语言模型适配至一种濒临消失的罗曼语族语言
本文介绍了 LLiMba,这是一个基于 Qwen2.5 适配而来的3B参数模型,旨在支持撒丁语。该模型在单张消费级 GPU 上通过继续预训练和有监督微调完成训练。文章评估了多种 LoRA 配置,发现适配器容量对低资源语言适配的性能和事实准确性有显著影响。
扩散语言模型:实验分析
一项系统性的实验分析,评估了八种最先进的扩散语言模型在多个基准测试上的表现,分析了生成质量与计算效率之间的权衡。
探索用于法院观点生成的轻量级大语言模型
本文系统性地探索了轻量级(<2B)大语言模型在刑事法院观点生成中的能力,研究了模型架构、规模与对罪名预测影响之间的权衡。作者还介绍了CVGEvalKit,一个包含三个公开数据集的评估框架。
大型语言模型在某些营销任务中过于庞大。小语言模型登场。
ZeroGPU推出了针对广告技术任务的专用小语言模型(SLM),与大型语言模型相比,成本更低、性能更快。这些小语言模型在CPU上运行,已帮助早期采用者Dappier将费用降低了50%。
@cjzafir: 垂直语言模型(VLMs)正在击败顶级大语言模型。这些参数量7B到15B的小型专精模型在各自的细分领域击败了SoTA模型……
作者演示了,通过使用开源模型和Codex编排进行高性价比微调,小型垂直语言模型(6B-15B)能够在细分基准上超越顶级大语言模型,仅用价值300美元的数据集就取得了成果。