visual-tokens

标签

Cards List
#visual-tokens

基于查询的跨模态投影器增强 Mamba 多模态大语言模型

arXiv cs.CL · 4天前 缓存

本文提出了一种基于查询的跨模态投影器,通过交叉注意力机制对视觉标记进行压缩,以提升基于 Mamba 的多模态大语言模型的性能。该方法在视觉语言基准测试中同时提高了模型性能和吞吐量,并消除了手动设计二维扫描顺序的需求。

0 人收藏 0 人点赞
#visual-tokens

AdaCodec:面向视频多模态大模型的预测性视觉编码

Hugging Face Daily Papers · 2026-06-01 缓存

AdaCodec 通过仅在场景预测失败时传输完整视觉标记,否则使用紧凑的帧间变化描述,从而减少多模态大模型中的视频编码冗余。在匹配的标记预算下,它优于逐帧 RGB 基线,并且在使用显著更少标记的情况下取得更好或相当的结果,将首令牌延迟从 9.26 秒降至 1.62 秒。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈