面向高效全模态LLM的阶段自适应Token选择方法

Hugging Face Daily Papers 2026/05/19 00:00 论文

摘要

SEATS是一种无需训练的阶段自适应Token选择方法，通过逐步剪枝冗余的视觉和音频Token来降低全模态LLM的计算开销，实现了9.3倍FLOPs减少和4.8倍预填充加速，同时保持96.3%的性能。

全模态大语言模型（om-LLM）通过将视频和音频编码为在窗口级别交错的时间对齐Token序列，实现统一的视听理解。然而，在整个LLM中处理这些密集的非文本Token会带来巨大的计算开销。尽管无需训练的Token选择可以降低这一成本，但现有方法要么仅关注视觉输入，要么仅在LLM之前以固定的每模态比例剪枝om-LLM Token，未能捕捉跨模态Token重要性在层间的演变。为解决这一局限，我们首先分析了om-LLM的逐层Token依赖性。我们发现视觉和音频依赖遵循块状模式，并随深度逐渐减弱，表明许多深层非文本Token在跨模态融合后变得冗余。基于这一观察，我们提出了SEATS，一种无需训练的阶段自适应Token选择方法，用于高效的om-LLM推理。在LLM之前，SEATS通过注意力加权的多样性选择去除时空冗余。在LLM内部，它逐步跨块剪枝Token，并使用查询相关性分数动态地将保留预算从时间窗口分配到各模态。在深层，一旦跨模态融合完成，它移除所有剩余的非文本Token。在Qwen2.5-Omni和Qwen3-Omni上的实验表明，SEATS有效提升了推理效率。仅保留10%的视觉和音频Token，它实现了9.3倍FLOPs减少和4.8倍预填充加速，同时保持96.3%的原始性能。

查看原文

查看缓存全文

缓存时间: 2026/05/20 14:38

论文页面 - Stage-adaptive Token Selection for Efficient Omni-modal LLMs

来源：https://huggingface.co/papers/2605.20035

摘要

SEATS 是一种无需训练、阶段自适应的 Token 选择方法，通过在预 LLM 和 LLM 阶段逐步剪枝冗余的视觉和音频 Token，降低了 om‑LLMs 的计算开销。

全模态大语言模型（om‑LLMs (https://huggingface.co/papers?q=om-LLMs)）通过将视频和音频编码为窗口级别交错的时间对齐 Token 序列（temporally aligned token sequences (https://huggingface.co/papers?q=temporally%20aligned%20token%20sequences)），实现了统一的音视频理解（audio‑visual understanding (https://huggingface.co/papers?q=audio-visual%20understanding)）。然而，在整个 LLM 中处理这些密集的非文本 Token 会产生巨大的计算开销（computational overhead (https://huggingface.co/papers?q=computational%20overhead)）。虽然无需训练的 Token 选择（token selection (https://huggingface.co/papers?q=token%20selection)）可以降低这一成本，但现有方法要么仅关注纯视觉输入，要么仅在 LLM 之前以固定的每模态比例剪枝 om‑LLM Token，无法捕获跨模态 Token 重要性（cross‑modal token importance (https://huggingface.co/papers?q=cross-modal%20token%20importance)）在各层之间的演化。为解决这一局限，我们首先分析了 om‑LLMs (https://huggingface.co/papers?q=om-LLMs) 的逐层 Token 依赖（layer‑wise token dependency (https://huggingface.co/papers?q=layer-wise%20token%20dependency)）。我们发现视觉和音频依赖呈现块状模式，并随深度逐渐减弱，这表明许多深层非文本 Token 在跨模态融合（cross‑modal fusion (https://huggingface.co/papers?q=cross-modal%20fusion)）完成后变得冗余。受此观察启发，我们提出 SEATS，一种用于高效 om‑LLM 推理的无需训练、阶段自适应的 Token 选择（token selection (https://huggingface.co/papers?q=token%20selection)）方法。在 LLM 之前，SEATS 通过注意力加权多样性选择（attention‑weighted diversity selection (https://huggingface.co/papers?q=attention-weighted%20diversity%20selection)）去除时空冗余。在 LLM 内部，它逐步跨块剪枝 Token，并使用查询相关性分数（query relevance scores (https://huggingface.co/papers?q=query%20relevance%20scores)）将保留预算从时间窗口动态分配给各模态。在深层，一旦跨模态融合（cross‑modal fusion (https://huggingface.co/papers?q=cross-modal%20fusion)）完成，它便移除所有剩余的非文本 Token。在 Qwen2.5‑Omni 和 Qwen3‑Omni 上的实验表明，SEATS 有效提高了推理效率。仅保留 10% 的视觉和音频 Token，它实现了 9.3 倍 FLOPs 缩减（FLOPs reduction (https://huggingface.co/papers?q=FLOPs%20reduction)）和 4.8 倍预填充加速（prefill speedup (https://huggingface.co/papers?q=prefill%20speedup)），同时保持了 96.3% 的原始性能。

查看 arXiv 页面 (https://arxiv.org/abs/2605.20035)查看 PDF (https://arxiv.org/pdf/2605.20035)项目页面 (https://xxayt.github.io/SEATS/)GitHub2 (https://github.com/xxayt/SEATS)添加至收藏 (https://huggingface.co/login?next=%2Fpapers%2F2605.20035)

在你的智能体中获取此论文：

hf papers read 2605\.20035

没有最新的 CLI？curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用本文的模型0

尚无模型链接至此论文

在模型 README.md 中引用 arxiv.org/abs/2605.20035 即可从本页面链接。

引用本文的数据集0

尚无数据集链接至此论文

在数据集 README.md 中引用 arxiv.org/abs/2605.20035 即可从本页面链接。

引用本文的 Space0

尚无 Space 链接至此论文

在 Space README.md 中引用 arxiv.org/abs/2605.20035 即可从本页面链接。

面向高效全模态LLM的阶段自适应Token选择方法

论文页面 - Stage-adaptive Token Selection for Efficient Omni-modal LLMs

摘要

引用本文的模型0

引用本文的数据集0

引用本文的 Space0

包含本文的收藏1

相似文章

OmniFocus: 查询引导的模态平衡令牌压缩方法用于全模态大语言模型

使用Token叠加的高效预训练

AVOC: 通过检索启发的令牌压缩增强全模态大语言模型中的小时级音视频理解

面向大语言模型激活稀疏化的敏感性感知阈值化与令牌路由

使用ART微调多模态大语言模型：基于艺术强化训练

提交意见反馈