Reroute,而非移除:面向视觉语言模型的可恢复视觉令牌路由
摘要
提出Reroute,一种无需训练的视觉语言模型插件,用可恢复的路由替代不可逆的视觉令牌剪枝,允许令牌在后续阶段重新进入流水线,从而在激进的令牌缩减下提升接地性能,同时保持VQA性能。
查看缓存全文
缓存时间: 2026/06/11 17:35
论文页面 - 重新路由,而非移除:视觉语言模型的可恢复视觉令牌路由
来源: https://huggingface.co/papers/2606.12412
摘要
视觉语言模型可以通过将不可逆的视觉令牌剪枝替换为可恢复路由(允许令牌在后续阶段重新进入处理流水线),在激进令牌缩减下提升定位性能。
视觉语言模型 (https://huggingface.co/papers?q=Vision-language%20models) (VLM) 将图像投影为成百上千个视觉令牌 (https://huggingface.co/papers?q=visual%20tokens),导致解码器推理 (https://huggingface.co/papers?q=decoder%20inference) 在注意力计算 (https://huggingface.co/papers?q=attention%20computation) 和 KV 缓存内存 (https://huggingface.co/papers?q=KV-cache%20memory) 两方面成本高昂。现有视觉令牌缩减 (https://huggingface.co/papers?q=visual-token%20reduction) 方法大多遵循排序并移除 (https://huggingface.co/papers?q=rank-and-remove%20paradigm) 范式:它们对视觉令牌 (https://huggingface.co/papers?q=visual%20tokens) 进行评分,保留一个紧凑子集,并永久丢弃其余部分。我们表明这种不可逆操作是脆弱的,因为视觉令牌的重要性会随解码器深度而变化;在某一阶段排名较低的令牌可能在后续层中变得相关,尤其对于定位敏感查询 (https://huggingface.co/papers?q=grounding-sensitive%20queries)。我们提出 Reroute,一种免训练的即插即用模块,将移除替换为可恢复路由。在每个路由阶段,选中的视觉令牌通过解码器块 (https://huggingface.co/papers?q=decoder%20blocks),而被延迟的令牌则绕过该阶段,在下一个路由决策时重新进入候选池。Reroute 复用现有的注意力分数排序 (https://huggingface.co/papers?q=attention-score%20ranking) 规则和阶段级调度,保留了其增强的剪枝方法的理论 TFLOPs 和 KV 缓存预算类别。在基于 LLaVA-1.5 和 Qwen 骨干网络的 FastV、PDrop 和 Nüwa 变体上,Reroute 在激进的令牌缩减 (https://huggingface.co/papers?q=token%20reduction) 下提升了定位性能,同时保持了通用 VQA 性能。这些结果表明,VLM 令牌缩减 (https://huggingface.co/papers?q=token%20reduction) 不应仅被视为不可逆的剪枝,也应被视为可恢复的路由。代码可在此处找到:https://github.com/elmma/mllm-reroute/
查看 arXiv 页面 (https://arxiv.org/abs/2606.12412) | 查看 PDF (https://arxiv.org/pdf/2606.12412) | GitHub (https://github.com/elmma/mllm-reroute) | 添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2606.12412)
在你的 agent 中获取此论文:
hf papers read 2606.12412
没有最新的 CLI?curl -LsSf https://hf.co/cli/install.sh | bash
引用此论文的模型 (0)
暂无模型链接此论文
在模型的 README.md 中引用 arxiv.org/abs/2606.12412 即可从此页面链接。
引用此论文的数据集 (0)
暂无数据集链接此论文
在数据集的 README.md 中引用 arxiv.org/abs/2606.12412 即可从此页面链接。
引用此论文的 Spaces (0)
暂无 Space 链接此论文
在 Space 的 README.md 中引用 arxiv.org/abs/2606.12412 即可从此页面链接。
包含此论文的收藏 (0)
暂无包含此论文的收藏
将此论文添加到收藏 (https://huggingface.co/new-collection) 即可从此页面链接。
相似文章
Late-Layer Fusion 足矣:视觉饱和下多模态大语言模型的双路径视觉令牌路由
本文提出 DPVR-LF,一种面向多模态大语言模型(MLLM)的模态不对称路由框架,该框架在视觉令牌饱和点将其路由到轻量级侧分支,并执行晚期融合,从而在减少视觉计算量的同时保持具有竞争力的性能。
Residual Paving:诊断选择性拒绝编辑中的路由瓶颈
介绍Residual Paving,一种针对冻结指令调优Transformer的路由残差编辑方法,将路由选择性(是否干预)与残差编辑能力(应用何种编辑)分离,在Gemma-3-4B-IT上显著降低了编辑拒绝率,同时保留了良性和有害行为。
ReVision:通过时间视觉冗余缩减扩展计算机使用智能体
本文介绍了 ReVision,一种通过从连续屏幕截图中移除冗余视觉块来减少计算机使用智能体 token 使用量的方法。研究表明,这种效率提升使得智能体能够处理更长的轨迹,并在 OSWorld 等基准测试中提高性能。
INAR-VL: 面向边缘-云端视觉语言推理的输入感知路由
INAR-VL 提出了一种轻量级路由系统,用于边缘-云端视觉语言推理。该系统根据查询复杂度动态选择边缘或云端模型,在保持接近云端准确率的同时,显著降低延迟和能耗。
叛逆的学生:通过自蒸馏 RLVR 反转教师信号以进行推理探索
本文介绍了 RLRT,这是一种在自蒸馏过程中反转教师信号的方法,旨在强化学生模型成功的偏离行为,从而增强大语言模型的推理探索能力。