visual-tokens

#visual-tokens

基于查询的跨模态投影器增强 Mamba 多模态大语言模型

arXiv cs.CL ↗ · 4天前缓存

本文提出了一种基于查询的跨模态投影器，通过交叉注意力机制对视觉标记进行压缩，以提升基于 Mamba 的多模态大语言模型的性能。该方法在视觉语言基准测试中同时提高了模型性能和吞吐量，并消除了手动设计二维扫描顺序的需求。

0 人收藏 0 人点赞

#visual-tokens

Hugging Face Daily Papers ↗ · 2026-06-01 缓存

AdaCodec 通过仅在场景预测失败时传输完整视觉标记，否则使用紧凑的帧间变化描述，从而减少多模态大模型中的视频编码冗余。在匹配的标记预算下，它优于逐帧 RGB 基线，并且在使用显著更少标记的情况下取得更好或相当的结果，将首令牌延迟从 9.26 秒降至 1.62 秒。

0 人收藏 0 人点赞