面向大语言模型的自适应多分辨率程序性知识压缩

Hugging Face Daily Papers 论文

摘要

SKIM是一个自适应多分辨率软令牌压缩框架,用于压缩面向LLM的程序性技能,在降低预填充成本和延迟的同时保持任务性能。

大语言模型(LLM)被广泛用于通过自主工作流处理复杂任务。近年来,可重用的自然语言技能作为一种将程序性知识注入LLM应用的流行范式出现。由于常用技能往往被反复调用,在每个上下文中放置其完整文本会显著增加预填充成本和延迟。虽然文本压缩技术有潜力解决这一问题,但现有方法大多设计用于压缩文档中的事实性知识而非程序性知识,因此不足以应对技能压缩。本文认为,有效的技能压缩方法应满足:1) 保留工作流和工具协议之间的逻辑依赖关系;2) 支持对频繁更新的社区技能进行轻量级离线压缩;3) 能够适应不同技能之间的复杂性差异。为此,我们提出了SKIM(技能压缩),一个用于程序性技能的自适应多分辨率软令牌压缩框架。根据每个技能的复杂度,SKIM创建不同数量的软令牌,不仅提升LLM推理效率,还保持了技能使用的有效性。实验表明,SKIM将技能压缩至原始令牌长度的30%到60%,同时比现有压缩方法更好地保留了任务性能。我们已在 https://github.com/bebr2/SKIM 上发布了代码。
查看原文
查看缓存全文

缓存时间: 2026/06/11 13:36

论文页面 - 面向大型语言模型的自适应多分辨率程序性知识压缩技术

来源:https://huggingface.co/papers/2606.12203

摘要

SKIM 是一种自适应多分辨率软令牌压缩框架,能够在高效压缩程序性技能的同时保持任务性能,并支持对频繁更新的社区技能进行轻量级离线压缩。

大型语言模型(https://huggingface.co/papers?q=Large%20language%20models)被广泛用于处理具有自主工作流的复杂任务。近年来,可复用的自然语言技能(https://huggingface.co/papers?q=reusable%20natural%20language%20skills)已成为将程序性知识(https://huggingface.co/papers?q=procedural%20knowledge)注入 LLM 应用的热门范式。由于常用技能往往被反复调用,将其完整文本放入每个上下文会显著增加预填充成本和延迟。虽然文本压缩(https://huggingface.co/papers?q=text%20compression)技术有潜力解决这一问题,但现有方法大多针对文档中的事实性知识而非程序性知识(https://huggingface.co/papers?q=procedural%20knowledge)进行压缩,因此不足以应对技能压缩(https://huggingface.co/papers?q=skill%20compression)。本文认为,有效的技能压缩(https://huggingface.co/papers?q=skill%20compression)方法应满足:1)保留工作流与工具协议之间的逻辑依赖关系;2)支持对频繁更新的社区技能进行轻量级离线压缩;3)能够适应不同技能的复杂度变化。为此,我们提出了 SKIM(SKIll coMpression,https://huggingface.co/papers?q=SKIll%20coMpression),一种面向程序性技能的自适应多分辨率软令牌压缩框架。根据每个技能的复杂度,SKIM 创建不同数量的软令牌(https://huggingface.co/papers?q=soft%20tokens),这不仅提高了 LLM 推理(https://huggingface.co/papers?q=LLM%20inference)的效率,还保持了技能使用的有效性。实验表明,SKIM 能将技能压缩至原始令牌长度的 30% 到 60%,同时在任务性能(https://huggingface.co/papers?q=task%20performance)保持方面优于现有压缩方法。我们已在 https://github.com/bebr2/SKIM 发布了代码。

查看 arXiv 页面(https://arxiv.org/abs/2606.12203)查看 PDF(https://arxiv.org/pdf/2606.12203)GitHub(https://github.com/bebr2/SKIM)添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2606.12203)

在您的智能体中获取此论文:

hf papers read 2606.12203

没有最新 CLI?curl -LsSf https://hf.co/cli/install.sh | bash

引用此论文的模型0

无模型关联此论文

在模型 README.md 中引用 arxiv.org/abs/2606.12203 即可从此页面链接。

引用此论文的数据集0

无数据集关联此论文

在数据集 README.md 中引用 arxiv.org/abs/2606.12203 即可从此页面链接。

引用此论文的 Spaces 空间0

无 Space 空间关联此论文

在 Space 空间的 README.md 中引用 arxiv.org/abs/2606.12203 即可从此页面链接。

包含此论文的收藏集0

无收藏集包含此论文

将此论文添加到一个收藏集(https://huggingface.co/new-collection)中即可从此页面链接。

相似文章

通过令牌剪枝优化韩语中心的大语言模型

arXiv cs.CL

本文系统地评估了令牌剪枝这一压缩技术在韩语中心的LLM任务上的应用,该技术通过移除与无关语言对应的令牌和嵌入参数来压缩模型。研究评估了流行的多语言模型(Qwen3、Gemma-3、Llama-3、Aya)在不同词汇配置下的表现,发现令牌剪枝能显著改进生成稳定性并降低特定领域部署的内存占用。

大规模端到端上下文压缩

Hugging Face Daily Papers

本文提出隐上下文语言模型(LCLMs),这是一系列编码器-解码器压缩器,通过架构搜索和大规模预训练高效处理长上下文,在准确性、速度和内存使用上优于传统KV缓存方法。