Reroute，而非移除：面向视觉语言模型的可恢复视觉令牌路由

Hugging Face Daily Papers 2026/06/10 00:00 论文

vision-language-models token-reduction attention-mechanism recoverable-routing grounding kv-cache efficiency

摘要

提出Reroute，一种无需训练的视觉语言模型插件，用可恢复的路由替代不可逆的视觉令牌剪枝，允许令牌在后续阶段重新进入流水线，从而在激进的令牌缩减下提升接地性能，同时保持VQA性能。

视觉语言模型（VLM）将图像投影为成百上千个视觉令牌，使得解码器推理在注意力计算和KV缓存内存两方面都很昂贵。现有的视觉令牌缩减方法大多遵循排序并移除的范式：它们对视觉令牌进行评分，保留一个紧凑的子集，并永久丢弃其余部分。我们表明，这种不可逆操作是脆弱的，因为视觉令牌的重要性随解码器深度变化；在一个阶段排名较低的令牌可能在后续层中变得相关，尤其是对于接地敏感的查询。我们提出Reroute，一种无需训练的插件，用可恢复的路由替代移除。在每个路由阶段，被选中的视觉令牌通过解码器块，而被推迟的令牌则跳过该阶段，并在下一个路由决策时重新进入候选池。Reroute重用现有的注意力得分排序规则和分阶段调度，保持其增强的剪枝方法的理论TFLOPs和KV缓存预算类别。在基于LLaVA-1.5和Qwen主干网络的FastV、PDrop和Nüwa变体上，Reroute在激进令牌缩减下改善了接地性能，同时保持通用VQA性能。这些结果表明，VLM令牌缩减不应仅被视为不可逆剪枝，还应被视为可恢复路由。代码可在此处找到：https://github.com/elmma/mllm-reroute/

查看原文

查看缓存全文

缓存时间: 2026/06/11 17:35

论文页面 - 重新路由，而非移除：视觉语言模型的可恢复视觉令牌路由

来源: https://huggingface.co/papers/2606.12412

摘要

视觉语言模型可以通过将不可逆的视觉令牌剪枝替换为可恢复路由（允许令牌在后续阶段重新进入处理流水线），在激进令牌缩减下提升定位性能。

视觉语言模型 (https://huggingface.co/papers?q=Vision-language%20models) (VLM) 将图像投影为成百上千个视觉令牌 (https://huggingface.co/papers?q=visual%20tokens)，导致解码器推理 (https://huggingface.co/papers?q=decoder%20inference) 在注意力计算 (https://huggingface.co/papers?q=attention%20computation) 和 KV 缓存内存 (https://huggingface.co/papers?q=KV-cache%20memory) 两方面成本高昂。现有视觉令牌缩减 (https://huggingface.co/papers?q=visual-token%20reduction) 方法大多遵循排序并移除 (https://huggingface.co/papers?q=rank-and-remove%20paradigm) 范式：它们对视觉令牌 (https://huggingface.co/papers?q=visual%20tokens) 进行评分，保留一个紧凑子集，并永久丢弃其余部分。我们表明这种不可逆操作是脆弱的，因为视觉令牌的重要性会随解码器深度而变化；在某一阶段排名较低的令牌可能在后续层中变得相关，尤其对于定位敏感查询 (https://huggingface.co/papers?q=grounding-sensitive%20queries)。我们提出 Reroute，一种免训练的即插即用模块，将移除替换为可恢复路由。在每个路由阶段，选中的视觉令牌通过解码器块 (https://huggingface.co/papers?q=decoder%20blocks)，而被延迟的令牌则绕过该阶段，在下一个路由决策时重新进入候选池。Reroute 复用现有的注意力分数排序 (https://huggingface.co/papers?q=attention-score%20ranking) 规则和阶段级调度，保留了其增强的剪枝方法的理论 TFLOPs 和 KV 缓存预算类别。在基于 LLaVA-1.5 和 Qwen 骨干网络的 FastV、PDrop 和 Nüwa 变体上，Reroute 在激进的令牌缩减 (https://huggingface.co/papers?q=token%20reduction) 下提升了定位性能，同时保持了通用 VQA 性能。这些结果表明，VLM 令牌缩减 (https://huggingface.co/papers?q=token%20reduction) 不应仅被视为不可逆的剪枝，也应被视为可恢复的路由。代码可在此处找到：https://github.com/elmma/mllm-reroute/

查看 arXiv 页面 (https://arxiv.org/abs/2606.12412) | 查看 PDF (https://arxiv.org/pdf/2606.12412) | GitHub (https://github.com/elmma/mllm-reroute) | 添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2606.12412)

在你的 agent 中获取此论文：

hf papers read 2606.12412

没有最新的 CLI？curl -LsSf https://hf.co/cli/install.sh | bash

引用此论文的模型 (0)

暂无模型链接此论文

在模型的 README.md 中引用 arxiv.org/abs/2606.12412 即可从此页面链接。

引用此论文的数据集 (0)

暂无数据集链接此论文

在数据集的 README.md 中引用 arxiv.org/abs/2606.12412 即可从此页面链接。

引用此论文的 Spaces (0)

暂无 Space 链接此论文

在 Space 的 README.md 中引用 arxiv.org/abs/2606.12412 即可从此页面链接。

包含此论文的收藏 (0)

暂无包含此论文的收藏

将此论文添加到收藏 (https://huggingface.co/new-collection) 即可从此页面链接。

Reroute，而非移除：面向视觉语言模型的可恢复视觉令牌路由

论文页面 - 重新路由，而非移除：视觉语言模型的可恢复视觉令牌路由

摘要

引用此论文的模型 (0)

引用此论文的数据集 (0)

引用此论文的 Spaces (0)

包含此论文的收藏 (0)

相似文章

Late-Layer Fusion 足矣：视觉饱和下多模态大语言模型的双路径视觉令牌路由

Residual Paving：诊断选择性拒绝编辑中的路由瓶颈

ReVision：通过时间视觉冗余缩减扩展计算机使用智能体

INAR-VL: 面向边缘-云端视觉语言推理的输入感知路由

叛逆的学生：通过自蒸馏 RLVR 反转教师信号以进行推理探索

提交意见反馈