小大脑,大成就:探索紧凑型语言模型

Hugging Face Daily Papers 论文

摘要

本文对17个紧凑型语言模型(1B-8B参数)在俄语RAG系统中作为生成器进行了基准测试,仅使用CPU推理,发现Qwen系列模型在私有、无GPU部署中提供了出色的质量-延迟权衡。

尽管大型语言模型近来主导了研究领域,但小型语言模型在多个领域中仍然高度相关;然而,它们受到的关注却少得多。在本研究中,我们探讨了较小语言模型在检索增强生成(RAG)系统的生成阶段中的表现。为了有效评估这些模型,我们使用了涵盖不同学科领域和问题类型的开源及专有数据集。我们的研究结果表明,基于小型语言模型的RAG系统可以在无需任何GPU硬件的情况下,直接在设备上合理时间内执行。实验代码和补充材料的链接可通过GitHub仓库获取:https://github.com/SibNN/SLM-RAG-EVAL。
查看原文
查看缓存全文

缓存时间: 2026/07/01 07:41

论文页面 - 小模型,大成就:探索紧凑型语言模型

来源:https://huggingface.co/papers/2606.30062
概述(https://cdn-uploads.huggingface.co/production/uploads/6415cb01486c7c9a5d1560f3/XUuB9TpgTCVHVj6FyXZCR.png)小型语言模型能否在无需GPU的情况下,足够强大以胜任实际的RAG生成任务?

我们对17个参数规模从1B到8B的紧凑型语言模型进行了基准测试,将它们作为俄语检索增强生成(RAG)系统中的生成器。所有候选模型均以本地GGUF变体的形式进行评估,包括Q4_K_M和Q5_K_M量化模型,并在仅CPU推理的约束下运行。

评估使用了基于五个俄语问答数据集构建的500样本基准,涵盖开源和专有领域特定数据。回答通过一个多评判器的LLM-as-a-Judge设置进行评估,评估维度包括正确性、答案相关性、忠实性、上下文相关性和延迟。

一个清晰的模式浮现出来:Qwen家族模型在这一场景中主导了顶级SLM(小型语言模型)层次。Qwen3-8B-Q4_K_M在整体SLM质量上表现最强,正确性达到0.72,忠实性达到0.83,在正确性上接近GPT-5-mini基线。同时,Qwen3-4B-Instruct-2507-Q5_K_M提供了最佳的实际质量-延迟权衡,正确性0.71,答案相关性0.89,忠实性0.80,且CPU延迟远低于8B模型。Qwen2.5-7B-Instruct-Q4_K_M也是一个强有力的候选者,在中等延迟下展现出高答案相关性和忠实性。

我们的研究结果表明,经过精心挑选的量化SLM(尤其是来自Qwen家族的模型)可以成为有竞争力的RAG生成器,同时支持本地化、私密且无需GPU的部署。这项工作对于设备端AI、隐私敏感型应用、边缘部署以及计算预算有限的生产级RAG系统尤其具有现实意义。

该论文已被ECML PKDD 2026应用数据科学轨道(Applied Data Science Track)接收。此为作者的预印本版本。

相似文章

扩散语言模型:实验分析

arXiv cs.AI

一项系统性的实验分析,评估了八种最先进的扩散语言模型在多个基准测试上的表现,分析了生成质量与计算效率之间的权衡。

探索用于法院观点生成的轻量级大语言模型

arXiv cs.CL

本文系统性地探索了轻量级(<2B)大语言模型在刑事法院观点生成中的能力,研究了模型架构、规模与对罪名预测影响之间的权衡。作者还介绍了CVGEvalKit,一个包含三个公开数据集的评估框架。