面向大语言模型的自适应多分辨率程序性知识压缩
摘要
SKIM是一个自适应多分辨率软令牌压缩框架,用于压缩面向LLM的程序性技能,在降低预填充成本和延迟的同时保持任务性能。
查看缓存全文
缓存时间: 2026/06/11 13:36
论文页面 - 面向大型语言模型的自适应多分辨率程序性知识压缩技术
来源:https://huggingface.co/papers/2606.12203
摘要
SKIM 是一种自适应多分辨率软令牌压缩框架,能够在高效压缩程序性技能的同时保持任务性能,并支持对频繁更新的社区技能进行轻量级离线压缩。
大型语言模型(https://huggingface.co/papers?q=Large%20language%20models)被广泛用于处理具有自主工作流的复杂任务。近年来,可复用的自然语言技能(https://huggingface.co/papers?q=reusable%20natural%20language%20skills)已成为将程序性知识(https://huggingface.co/papers?q=procedural%20knowledge)注入 LLM 应用的热门范式。由于常用技能往往被反复调用,将其完整文本放入每个上下文会显著增加预填充成本和延迟。虽然文本压缩(https://huggingface.co/papers?q=text%20compression)技术有潜力解决这一问题,但现有方法大多针对文档中的事实性知识而非程序性知识(https://huggingface.co/papers?q=procedural%20knowledge)进行压缩,因此不足以应对技能压缩(https://huggingface.co/papers?q=skill%20compression)。本文认为,有效的技能压缩(https://huggingface.co/papers?q=skill%20compression)方法应满足:1)保留工作流与工具协议之间的逻辑依赖关系;2)支持对频繁更新的社区技能进行轻量级离线压缩;3)能够适应不同技能的复杂度变化。为此,我们提出了 SKIM(SKIll coMpression,https://huggingface.co/papers?q=SKIll%20coMpression),一种面向程序性技能的自适应多分辨率软令牌压缩框架。根据每个技能的复杂度,SKIM 创建不同数量的软令牌(https://huggingface.co/papers?q=soft%20tokens),这不仅提高了 LLM 推理(https://huggingface.co/papers?q=LLM%20inference)的效率,还保持了技能使用的有效性。实验表明,SKIM 能将技能压缩至原始令牌长度的 30% 到 60%,同时在任务性能(https://huggingface.co/papers?q=task%20performance)保持方面优于现有压缩方法。我们已在 https://github.com/bebr2/SKIM 发布了代码。
查看 arXiv 页面(https://arxiv.org/abs/2606.12203)查看 PDF(https://arxiv.org/pdf/2606.12203)GitHub(https://github.com/bebr2/SKIM)添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2606.12203)
在您的智能体中获取此论文:
hf papers read 2606.12203
没有最新 CLI?curl -LsSf https://hf.co/cli/install.sh | bash
引用此论文的模型0
无模型关联此论文
在模型 README.md 中引用 arxiv.org/abs/2606.12203 即可从此页面链接。
引用此论文的数据集0
无数据集关联此论文
在数据集 README.md 中引用 arxiv.org/abs/2606.12203 即可从此页面链接。
引用此论文的 Spaces 空间0
无 Space 空间关联此论文
在 Space 空间的 README.md 中引用 arxiv.org/abs/2606.12203 即可从此页面链接。
包含此论文的收藏集0
无收藏集包含此论文
将此论文添加到一个收藏集(https://huggingface.co/new-collection)中即可从此页面链接。
相似文章
SkillLens:面向成本高效型大模型智能体的自适应多粒度技能复用
本文提出了 SkillLens,这是一种用于大模型智能体自适应多粒度技能复用的分层框架,在基准任务中展示了更高的准确性和成本效益。
通过令牌剪枝优化韩语中心的大语言模型
本文系统地评估了令牌剪枝这一压缩技术在韩语中心的LLM任务上的应用,该技术通过移除与无关语言对应的令牌和嵌入参数来压缩模型。研究评估了流行的多语言模型(Qwen3、Gemma-3、Llama-3、Aya)在不同词汇配置下的表现,发现令牌剪枝能显著改进生成稳定性并降低特定领域部署的内存占用。
SimpleMem: 面向大语言模型智能体的高效终身记忆
介绍SimpleMem,一种面向LLM智能体的高效记忆框架,利用语义无损压缩提升准确率并降低token消耗,F1分数提升26.4%,推理时token使用量减少高达30倍。
大规模端到端上下文压缩
本文提出隐上下文语言模型(LCLMs),这是一系列编码器-解码器压缩器,通过架构搜索和大规模预训练高效处理长上下文,在准确性、速度和内存使用上优于传统KV缓存方法。
如何在强化学习后训练中压缩 KV 缓存?用于内存高效对齐的阴影掩码蒸馏
本文提出了阴影掩码蒸馏(SMD),旨在解决大语言模型在强化学习后训练中因 KV 缓存压缩而导致的离策略偏差。该方法引入了一种机制,确保在策略上的对齐,并提高长上下文推理任务的内存效率。