vision-encoders

#vision-encoders

超越标量距离：来自冻结MLLM的语义属性梯度用于视觉嵌入

Hugging Face Daily Papers ↗ · 2026-06-13 缓存

SAGA框架利用冻结的多模态大语言模型，通过分组相对策略优化为视觉编码器提供属性感知监督，在细粒度基准上将零样本图像检索性能提升3-6个百分点。

0 人收藏 0 人点赞

#vision-encoders

Papers with Code Trending ↗ · 2026-04-27 缓存

Tuna-2 是一个统一的多模态模型，通过直接从像素嵌入处理视觉理解与生成任务，无需预训练视觉编码器，达到了最先进的性能水平。

0 人收藏 0 人点赞