PARCEL: 基于池锚重采样与条件弹性查询的高效视觉语言理解
摘要
PARCEL提出了一种新颖的视觉语言模型架构,利用池锚重采样和条件弹性查询来提高不同视觉令牌预算下的效率和性能,优于现有的matryoshka基线。
查看缓存全文
缓存时间: 2026/06/02 15:35
论文页面 - PARCEL:基于池锚定重采样与条件弹性查询的高效视觉-语言理解
来源:https://huggingface.co/papers/2605.30126
摘要
PARCEL 是一种视觉-语言模型架构,能够动态分配特征提取任务,从而在不同视觉令牌预算下提升效率与性能。
大型视觉-语言模型(LVLMs)将视觉输入映射为密集的令牌序列,导致推理时产生二次计算瓶颈。弹性视觉令牌压缩(https://huggingface.co/papers?q=Elastic%20visual-token%20compression)通过训练单一模型以支持多种视觉令牌预算(https://huggingface.co/papers?q=visual-token%20budgets)来解决这一问题。然而,现有方法在高度压缩下表现不佳。仅空间压缩(https://huggingface.co/papers?q=Spatial-only%20compression)(例如嵌套池化(https://huggingface.co/papers?q=nested%20pooling))表现得像一个不完美的低通滤波器,并引起频谱混叠,从而掩盖了精细细节。仅查询压缩(https://huggingface.co/papers?q=Query-only%20compression)(例如嵌套查询重采样(https://huggingface.co/papers?q=nested%20query%20resampling))则用非局部摘要替换了显式的网格对齐令牌,严重降低了空间定位能力。为解决这种表征冲突,我们提出了 PARCEL(Pool-Anchored Resampling with Conditioned Elastic Queries for Efficient Vision-Language Understanding),一种视觉令牌化架构(https://huggingface.co/papers?q=visual%20tokenization%20architecture),它能够动态分配特征提取(https://huggingface.co/papers?q=feature%20extraction)的工作。PARCEL 将空间池令牌作为低频布局锚点,并通过池条件查询重采样(https://huggingface.co/papers?q=Pool-Conditioned%20Query%20Resampling)使弹性查询令牌以这些锚点为条件。这鼓励查询令牌专注于互补的视觉特征,而非冗余的空间映射。在 27 个基准上的广泛评估表明,PARCEL 改进了性能-效率帕累托前沿,在多个视觉令牌预算(https://huggingface.co/papers?q=visual-token%20budgets)下始终优于现有的嵌套基线,同时保留了“一次训练,随处部署”的范式。
查看 arXiv 页面 (https://arxiv.org/abs/2605.30126)
查看 PDF (https://arxiv.org/pdf/2605.30126)
项目页面 (https://parcel-elastic-inference.github.io/)
添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2605.30126)
在你的智能体中获取此论文:
hf papers read 2605.30126
没有最新的 CLI?curl -LsSf https://hf.co/cli/install.sh | bash
引用此论文的模型0
没有模型链接此论文
请在模型 README.md 中引用 arxiv.org/abs/2605.30126 以从此页面链接。
引用此论文的数据集0
没有数据集链接此论文
请在数据集 README.md 中引用 arxiv.org/abs/2605.30126 以从此页面链接。
引用此论文的 Spaces0
没有 Space 链接此论文
请在 Space README.md 中引用 arxiv.org/abs/2605.30126 以从此页面链接。
包含此论文的收藏集1
相似文章
Video2LoRA: 视觉-语言模型的参数化视频内化
本文介绍Video2LoRA,一种直接从视频表示预测低秩适配(LoRA)权重的方法,能够在冻结的视觉-语言模型中实现高效的视频处理。它将视觉令牌负载降低最多1500倍,查询TTFT降低6-80倍,同时在视频摘要和字幕生成基准上保持性能。
看我之意:面向视频细粒度对象理解的视觉与语言表征对齐
SWIM是一种新颖的训练策略,仅使用文本提示即可对齐视觉和语言表征以实现细粒度对象理解,并在训练期间利用掩码监督来改善跨模态注意力。该方法引入了NL-Refer数据集,并在细粒度对象理解基准测试中取得了优于基于视觉提示的方法的性能。
Stateful Visual Encoders for Vision-Language Models
本文介绍了一种用于视觉-语言模型的有状态视觉编码器,该编码器基于先前的特征来调节视觉表示,从而在多图像和智能体设置中实现更好的视觉比较。该方法在跨图像空间聚合、纵向放射学等任务上展现出一致的改进。
Parallax: 参数化局部线性注意力机制用于语言建模
介绍Parallax,一种参数化局部线性注意力机制,结合硬件感知优化,提升LLM预训练效率和性能,在0.6B和1.7B规模实现帕累托改进。
PaddleOCR-VL:通过 0.9B 超紧凑视觉语言模型提升多语言文档解析能力
PaddleOCR-VL 是一个紧凑的 0.9B 视觉语言模型,通过集成 NaViT 风格的动态分辨率与 ERNIE 语言模型,在多语言文档解析和元素识别方面实现了最先进的性能。