标签
IDEAL提出了一种用于离散表示自编码的深度对齐框架,联合对齐量化令牌与浅层和深层VFM特征,以实现卓越的重建和生成性能。
提出了一种用于纵向医学视觉问答的注意力引导编码器-解码器,使用冻结的基于DINO的掩码生成器和辅助损失函数来提高一致性和可解释性,在Medical-Diff-VQA基准上取得了强劲的结果。
SOCO基准通过一致的部件级标注和关键点描述来评估视觉模型中的结构化对象理解,揭示了语言驱动定位与视觉对应之间的差距,同时证明了其对下游任务性能的强大预测能力。
Re2Pix 是一个分层视频预测框架,通过首先使用冻结的视觉基础模型预测语义表征,然后将这些预测作为条件输入到潜在扩散模型中以生成逼真的帧,从而改进未来视频生成。该方法通过嵌套丢弃和混合监督策略解决了训练-测试不匹配问题,在自动驾驶基准测试中实现了更好的时间语义一致性和感知质量。