PARCEL: 基于池锚重采样与条件弹性查询的高效视觉语言理解

Hugging Face Daily Papers 2026/05/28 00:00 论文

摘要

PARCEL提出了一种新颖的视觉语言模型架构，利用池锚重采样和条件弹性查询来提高不同视觉令牌预算下的效率和性能，优于现有的matryoshka基线。

大型视觉语言模型（LVLMs）将视觉输入映射为密集的令牌序列，导致推理时产生二次计算瓶颈。弹性视觉令牌压缩通过训练单个模型以在不同视觉令牌预算下运行来解决这一问题。然而，现有方法在激进压缩下表现不佳。仅空间压缩（如嵌套池化）表现为不完美的低通滤波器，并引起频谱混叠，从而模糊了细粒度细节。仅查询压缩（如嵌套查询重采样）用非局部摘要取代显式的网格对齐令牌，严重降低了空间定位能力。为解决这一表征冲突，我们提出了PARCEL（基于池锚重采样与条件弹性查询的高效视觉语言理解），这是一种视觉令牌化架构，能够动态分配特征提取的工作。PARCEL将空间池令牌建立为低频布局锚点，并通过池条件查询重采样使弹性查询令牌依赖于这些锚点。这促使查询令牌专注于互补的视觉特征，而非冗余的空间映射。在27个基准上的广泛评估表明，PARCEL改进了性能-效率帕累托前沿，在各种视觉令牌预算下始终优于现有的matryoshka基线，同时保留了'一次训练，任意部署'的范式。

查看原文

查看缓存全文

缓存时间: 2026/06/02 15:35

论文页面 - PARCEL：基于池锚定重采样与条件弹性查询的高效视觉-语言理解

来源：https://huggingface.co/papers/2605.30126

摘要

PARCEL 是一种视觉-语言模型架构，能够动态分配特征提取任务，从而在不同视觉令牌预算下提升效率与性能。

大型视觉-语言模型（LVLMs）将视觉输入映射为密集的令牌序列，导致推理时产生二次计算瓶颈。弹性视觉令牌压缩（https://huggingface.co/papers?q=Elastic%20visual-token%20compression）通过训练单一模型以支持多种视觉令牌预算（https://huggingface.co/papers?q=visual-token%20budgets）来解决这一问题。然而，现有方法在高度压缩下表现不佳。仅空间压缩（https://huggingface.co/papers?q=Spatial-only%20compression）（例如嵌套池化（https://huggingface.co/papers?q=nested%20pooling））表现得像一个不完美的低通滤波器，并引起频谱混叠，从而掩盖了精细细节。仅查询压缩（https://huggingface.co/papers?q=Query-only%20compression）（例如嵌套查询重采样（https://huggingface.co/papers?q=nested%20query%20resampling））则用非局部摘要替换了显式的网格对齐令牌，严重降低了空间定位能力。为解决这种表征冲突，我们提出了 PARCEL（Pool-Anchored Resampling with Conditioned Elastic Queries for Efficient Vision-Language Understanding），一种视觉令牌化架构（https://huggingface.co/papers?q=visual%20tokenization%20architecture），它能够动态分配特征提取（https://huggingface.co/papers?q=feature%20extraction）的工作。PARCEL 将空间池令牌作为低频布局锚点，并通过池条件查询重采样（https://huggingface.co/papers?q=Pool-Conditioned%20Query%20Resampling）使弹性查询令牌以这些锚点为条件。这鼓励查询令牌专注于互补的视觉特征，而非冗余的空间映射。在 27 个基准上的广泛评估表明，PARCEL 改进了性能-效率帕累托前沿，在多个视觉令牌预算（https://huggingface.co/papers?q=visual-token%20budgets）下始终优于现有的嵌套基线，同时保留了“一次训练，随处部署”的范式。

查看 arXiv 页面 (https://arxiv.org/abs/2605.30126)
查看 PDF (https://arxiv.org/pdf/2605.30126)
项目页面 (https://parcel-elastic-inference.github.io/)
添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2605.30126)

在你的智能体中获取此论文：

hf papers read 2605.30126

没有最新的 CLI？curl -LsSf https://hf.co/cli/install.sh | bash

引用此论文的模型0

没有模型链接此论文

请在模型 README.md 中引用 arxiv.org/abs/2605.30126 以从此页面链接。

引用此论文的数据集0

没有数据集链接此论文

请在数据集 README.md 中引用 arxiv.org/abs/2605.30126 以从此页面链接。

引用此论文的 Spaces0

没有 Space 链接此论文

请在 Space README.md 中引用 arxiv.org/abs/2605.30126 以从此页面链接。

PARCEL: 基于池锚重采样与条件弹性查询的高效视觉语言理解

论文页面 - PARCEL：基于池锚定重采样与条件弹性查询的高效视觉-语言理解

摘要

引用此论文的模型0

引用此论文的数据集0

引用此论文的 Spaces0

包含此论文的收藏集1

相似文章

Video2LoRA: 视觉-语言模型的参数化视频内化

看我之意：面向视频细粒度对象理解的视觉与语言表征对齐

Stateful Visual Encoders for Vision-Language Models

Parallax: 参数化局部线性注意力机制用于语言建模

PaddleOCR-VL：通过 0.9B 超紧凑视觉语言模型提升多语言文档解析能力

提交意见反馈