小大脑，大成就：探索紧凑型语言模型

Hugging Face Daily Papers 2026/06/29 00:00 论文

摘要

本文对17个紧凑型语言模型（1B-8B参数）在俄语RAG系统中作为生成器进行了基准测试，仅使用CPU推理，发现Qwen系列模型在私有、无GPU部署中提供了出色的质量-延迟权衡。

尽管大型语言模型近来主导了研究领域，但小型语言模型在多个领域中仍然高度相关；然而，它们受到的关注却少得多。在本研究中，我们探讨了较小语言模型在检索增强生成（RAG）系统的生成阶段中的表现。为了有效评估这些模型，我们使用了涵盖不同学科领域和问题类型的开源及专有数据集。我们的研究结果表明，基于小型语言模型的RAG系统可以在无需任何GPU硬件的情况下，直接在设备上合理时间内执行。实验代码和补充材料的链接可通过GitHub仓库获取：https://github.com/SibNN/SLM-RAG-EVAL。

查看原文

查看缓存全文

缓存时间: 2026/07/01 07:41

论文页面 - 小模型，大成就：探索紧凑型语言模型

来源：https://huggingface.co/papers/2606.30062
概述（https://cdn-uploads.huggingface.co/production/uploads/6415cb01486c7c9a5d1560f3/XUuB9TpgTCVHVj6FyXZCR.png）小型语言模型能否在无需GPU的情况下，足够强大以胜任实际的RAG生成任务？

我们对17个参数规模从1B到8B的紧凑型语言模型进行了基准测试，将它们作为俄语检索增强生成（RAG）系统中的生成器。所有候选模型均以本地GGUF变体的形式进行评估，包括Q4_K_M和Q5_K_M量化模型，并在仅CPU推理的约束下运行。

评估使用了基于五个俄语问答数据集构建的500样本基准，涵盖开源和专有领域特定数据。回答通过一个多评判器的LLM-as-a-Judge设置进行评估，评估维度包括正确性、答案相关性、忠实性、上下文相关性和延迟。

一个清晰的模式浮现出来：Qwen家族模型在这一场景中主导了顶级SLM（小型语言模型）层次。Qwen3-8B-Q4_K_M在整体SLM质量上表现最强，正确性达到0.72，忠实性达到0.83，在正确性上接近GPT-5-mini基线。同时，Qwen3-4B-Instruct-2507-Q5_K_M提供了最佳的实际质量-延迟权衡，正确性0.71，答案相关性0.89，忠实性0.80，且CPU延迟远低于8B模型。Qwen2.5-7B-Instruct-Q4_K_M也是一个强有力的候选者，在中等延迟下展现出高答案相关性和忠实性。

我们的研究结果表明，经过精心挑选的量化SLM（尤其是来自Qwen家族的模型）可以成为有竞争力的RAG生成器，同时支持本地化、私密且无需GPU的部署。这项工作对于设备端AI、隐私敏感型应用、边缘部署以及计算预算有限的生产级RAG系统尤其具有现实意义。

该论文已被ECML PKDD 2026应用数据科学轨道（Applied Data Science Track）接收。此为作者的预印本版本。

小大脑，大成就：探索紧凑型语言模型

论文页面 - 小模型，大成就：探索紧凑型语言模型

相似文章

LLiMba：单卡GPU上的撒丁语——将3B参数语言模型适配至一种濒临消失的罗曼语族语言

扩散语言模型：实验分析

探索用于法院观点生成的轻量级大语言模型

大型语言模型在某些营销任务中过于庞大。小语言模型登场。

@cjzafir: 垂直语言模型（VLMs）正在击败顶级大语言模型。这些参数量7B到15B的小型专精模型在各自的细分领域击败了SoTA模型……

提交意见反馈