面向高效全模态LLM的阶段自适应Token选择方法

Hugging Face Daily Papers 论文

摘要

SEATS是一种无需训练的阶段自适应Token选择方法,通过逐步剪枝冗余的视觉和音频Token来降低全模态LLM的计算开销,实现了9.3倍FLOPs减少和4.8倍预填充加速,同时保持96.3%的性能。

全模态大语言模型(om-LLM)通过将视频和音频编码为在窗口级别交错的时间对齐Token序列,实现统一的视听理解。然而,在整个LLM中处理这些密集的非文本Token会带来巨大的计算开销。尽管无需训练的Token选择可以降低这一成本,但现有方法要么仅关注视觉输入,要么仅在LLM之前以固定的每模态比例剪枝om-LLM Token,未能捕捉跨模态Token重要性在层间的演变。为解决这一局限,我们首先分析了om-LLM的逐层Token依赖性。我们发现视觉和音频依赖遵循块状模式,并随深度逐渐减弱,表明许多深层非文本Token在跨模态融合后变得冗余。基于这一观察,我们提出了SEATS,一种无需训练的阶段自适应Token选择方法,用于高效的om-LLM推理。在LLM之前,SEATS通过注意力加权的多样性选择去除时空冗余。在LLM内部,它逐步跨块剪枝Token,并使用查询相关性分数动态地将保留预算从时间窗口分配到各模态。在深层,一旦跨模态融合完成,它移除所有剩余的非文本Token。在Qwen2.5-Omni和Qwen3-Omni上的实验表明,SEATS有效提升了推理效率。仅保留10%的视觉和音频Token,它实现了9.3倍FLOPs减少和4.8倍预填充加速,同时保持96.3%的原始性能。
查看原文
查看缓存全文

缓存时间: 2026/05/20 14:38

论文页面 - Stage-adaptive Token Selection for Efficient Omni-modal LLMs

来源:https://huggingface.co/papers/2605.20035

摘要

SEATS 是一种无需训练、阶段自适应的 Token 选择方法,通过在预 LLM 和 LLM 阶段逐步剪枝冗余的视觉和音频 Token,降低了 om‑LLMs 的计算开销。

全模态大语言模型(om‑LLMs (https://huggingface.co/papers?q=om-LLMs))通过将视频和音频编码为窗口级别交错的时间对齐 Token 序列(temporally aligned token sequences (https://huggingface.co/papers?q=temporally%20aligned%20token%20sequences)),实现了统一的音视频理解(audio‑visual understanding (https://huggingface.co/papers?q=audio-visual%20understanding))。然而,在整个 LLM 中处理这些密集的非文本 Token 会产生巨大的计算开销(computational overhead (https://huggingface.co/papers?q=computational%20overhead))。虽然无需训练的 Token 选择(token selection (https://huggingface.co/papers?q=token%20selection))可以降低这一成本,但现有方法要么仅关注纯视觉输入,要么仅在 LLM 之前以固定的每模态比例剪枝 om‑LLM Token,无法捕获跨模态 Token 重要性(cross‑modal token importance (https://huggingface.co/papers?q=cross-modal%20token%20importance))在各层之间的演化。为解决这一局限,我们首先分析了 om‑LLMs (https://huggingface.co/papers?q=om-LLMs) 的逐层 Token 依赖(layer‑wise token dependency (https://huggingface.co/papers?q=layer-wise%20token%20dependency))。我们发现视觉和音频依赖呈现块状模式,并随深度逐渐减弱,这表明许多深层非文本 Token 在跨模态融合(cross‑modal fusion (https://huggingface.co/papers?q=cross-modal%20fusion))完成后变得冗余。受此观察启发,我们提出 SEATS,一种用于高效 om‑LLM 推理的无需训练、阶段自适应的 Token 选择(token selection (https://huggingface.co/papers?q=token%20selection))方法。在 LLM 之前,SEATS 通过注意力加权多样性选择(attention‑weighted diversity selection (https://huggingface.co/papers?q=attention-weighted%20diversity%20selection))去除时空冗余。在 LLM 内部,它逐步跨块剪枝 Token,并使用查询相关性分数(query relevance scores (https://huggingface.co/papers?q=query%20relevance%20scores))将保留预算从时间窗口动态分配给各模态。在深层,一旦跨模态融合(cross‑modal fusion (https://huggingface.co/papers?q=cross-modal%20fusion))完成,它便移除所有剩余的非文本 Token。在 Qwen2.5‑Omni 和 Qwen3‑Omni 上的实验表明,SEATS 有效提高了推理效率。仅保留 10% 的视觉和音频 Token,它实现了 9.3 倍 FLOPs 缩减(FLOPs reduction (https://huggingface.co/papers?q=FLOPs%20reduction))和 4.8 倍预填充加速(prefill speedup (https://huggingface.co/papers?q=prefill%20speedup)),同时保持了 96.3% 的原始性能。

查看 arXiv 页面 (https://arxiv.org/abs/2605.20035)查看 PDF (https://arxiv.org/pdf/2605.20035)项目页面 (https://xxayt.github.io/SEATS/)GitHub2 (https://github.com/xxayt/SEATS)添加至收藏 (https://huggingface.co/login?next=%2Fpapers%2F2605.20035)

在你的智能体中获取此论文:

hf papers read 2605\.20035

没有最新的 CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用本文的模型0

尚无模型链接至此论文

在模型 README.md 中引用 arxiv.org/abs/2605.20035 即可从本页面链接。

引用本文的数据集0

尚无数据集链接至此论文

在数据集 README.md 中引用 arxiv.org/abs/2605.20035 即可从本页面链接。

引用本文的 Space0

尚无 Space 链接至此论文

在 Space README.md 中引用 arxiv.org/abs/2605.20035 即可从本页面链接。

包含本文的收藏1

相似文章

使用Token叠加的高效预训练

Hugging Face Daily Papers

Token叠加训练(TST)通过将连续token组合成包并在叠加阶段使用多热交叉熵目标,在不改变架构的情况下实现预训练时间最多减少2.5倍,从而提高LLM预训练效率。

知道何时放弃:通过多阶段飞行中拒绝实现令牌高效的LLM合成数据生成

arXiv cs.AI

本文提出了多阶段飞行中拒绝(MSIFR),一种无需训练的框架,通过在中间检查点检测并终止低质量生成轨迹来减少基于LLM的合成数据生成中的令牌浪费。在五个模型和七个基准测试中,MSIFR作为独立方法可减少11%-77%的令牌消耗,与早期退出方法结合时最多减少78.2%,同时保持或提升准确率。

SALSA:通过学习的引导激活向量实现语音感知LLM的自适应

arXiv cs.CL

SALSA提出了一种轻量级自适应方法,用于语音感知的大语言模型,通过监督目标学习逐层引导向量,在域外语音基准上取得了显著改进(相对提升高达46.8%),并表明引导编码器层(尤其是较深层)比修改LLM主干更有效。