Reroute,而非移除:面向视觉语言模型的可恢复视觉令牌路由

Hugging Face Daily Papers 论文

摘要

提出Reroute,一种无需训练的视觉语言模型插件,用可恢复的路由替代不可逆的视觉令牌剪枝,允许令牌在后续阶段重新进入流水线,从而在激进的令牌缩减下提升接地性能,同时保持VQA性能。

视觉语言模型(VLM)将图像投影为成百上千个视觉令牌,使得解码器推理在注意力计算和KV缓存内存两方面都很昂贵。现有的视觉令牌缩减方法大多遵循排序并移除的范式:它们对视觉令牌进行评分,保留一个紧凑的子集,并永久丢弃其余部分。我们表明,这种不可逆操作是脆弱的,因为视觉令牌的重要性随解码器深度变化;在一个阶段排名较低的令牌可能在后续层中变得相关,尤其是对于接地敏感的查询。我们提出Reroute,一种无需训练的插件,用可恢复的路由替代移除。在每个路由阶段,被选中的视觉令牌通过解码器块,而被推迟的令牌则跳过该阶段,并在下一个路由决策时重新进入候选池。Reroute重用现有的注意力得分排序规则和分阶段调度,保持其增强的剪枝方法的理论TFLOPs和KV缓存预算类别。在基于LLaVA-1.5和Qwen主干网络的FastV、PDrop和Nüwa变体上,Reroute在激进令牌缩减下改善了接地性能,同时保持通用VQA性能。这些结果表明,VLM令牌缩减不应仅被视为不可逆剪枝,还应被视为可恢复路由。代码可在此处找到:https://github.com/elmma/mllm-reroute/
查看原文
查看缓存全文

缓存时间: 2026/06/11 17:35

论文页面 - 重新路由,而非移除:视觉语言模型的可恢复视觉令牌路由

来源: https://huggingface.co/papers/2606.12412

摘要

视觉语言模型可以通过将不可逆的视觉令牌剪枝替换为可恢复路由(允许令牌在后续阶段重新进入处理流水线),在激进令牌缩减下提升定位性能。

视觉语言模型 (https://huggingface.co/papers?q=Vision-language%20models) (VLM) 将图像投影为成百上千个视觉令牌 (https://huggingface.co/papers?q=visual%20tokens),导致解码器推理 (https://huggingface.co/papers?q=decoder%20inference) 在注意力计算 (https://huggingface.co/papers?q=attention%20computation) 和 KV 缓存内存 (https://huggingface.co/papers?q=KV-cache%20memory) 两方面成本高昂。现有视觉令牌缩减 (https://huggingface.co/papers?q=visual-token%20reduction) 方法大多遵循排序并移除 (https://huggingface.co/papers?q=rank-and-remove%20paradigm) 范式:它们对视觉令牌 (https://huggingface.co/papers?q=visual%20tokens) 进行评分,保留一个紧凑子集,并永久丢弃其余部分。我们表明这种不可逆操作是脆弱的,因为视觉令牌的重要性会随解码器深度而变化;在某一阶段排名较低的令牌可能在后续层中变得相关,尤其对于定位敏感查询 (https://huggingface.co/papers?q=grounding-sensitive%20queries)。我们提出 Reroute,一种免训练的即插即用模块,将移除替换为可恢复路由。在每个路由阶段,选中的视觉令牌通过解码器块 (https://huggingface.co/papers?q=decoder%20blocks),而被延迟的令牌则绕过该阶段,在下一个路由决策时重新进入候选池。Reroute 复用现有的注意力分数排序 (https://huggingface.co/papers?q=attention-score%20ranking) 规则和阶段级调度,保留了其增强的剪枝方法的理论 TFLOPs 和 KV 缓存预算类别。在基于 LLaVA-1.5 和 Qwen 骨干网络的 FastV、PDrop 和 Nüwa 变体上,Reroute 在激进的令牌缩减 (https://huggingface.co/papers?q=token%20reduction) 下提升了定位性能,同时保持了通用 VQA 性能。这些结果表明,VLM 令牌缩减 (https://huggingface.co/papers?q=token%20reduction) 不应仅被视为不可逆的剪枝,也应被视为可恢复的路由。代码可在此处找到:https://github.com/elmma/mllm-reroute/

查看 arXiv 页面 (https://arxiv.org/abs/2606.12412) | 查看 PDF (https://arxiv.org/pdf/2606.12412) | GitHub (https://github.com/elmma/mllm-reroute) | 添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2606.12412)

在你的 agent 中获取此论文:

hf papers read 2606.12412

没有最新的 CLI?curl -LsSf https://hf.co/cli/install.sh | bash

引用此论文的模型 (0)

暂无模型链接此论文

在模型的 README.md 中引用 arxiv.org/abs/2606.12412 即可从此页面链接。

引用此论文的数据集 (0)

暂无数据集链接此论文

在数据集的 README.md 中引用 arxiv.org/abs/2606.12412 即可从此页面链接。

引用此论文的 Spaces (0)

暂无 Space 链接此论文

在 Space 的 README.md 中引用 arxiv.org/abs/2606.12412 即可从此页面链接。

包含此论文的收藏 (0)

暂无包含此论文的收藏

将此论文添加到收藏 (https://huggingface.co/new-collection) 即可从此页面链接。

相似文章

Residual Paving:诊断选择性拒绝编辑中的路由瓶颈

arXiv cs.LG

介绍Residual Paving,一种针对冻结指令调优Transformer的路由残差编辑方法,将路由选择性(是否干预)与残差编辑能力(应用何种编辑)分离,在Gemma-3-4B-IT上显著降低了编辑拒绝率,同时保留了良性和有害行为。

ReVision:通过时间视觉冗余缩减扩展计算机使用智能体

arXiv cs.CL

本文介绍了 ReVision,一种通过从连续屏幕截图中移除冗余视觉块来减少计算机使用智能体 token 使用量的方法。研究表明,这种效率提升使得智能体能够处理更长的轨迹,并在 OSWorld 等基准测试中提高性能。