从二维网格到一维标记:改革多模态图像融合的共享表示
摘要
本文提出了一种多模态图像融合方法,该方法使用来自预训练图像标记器的一维标记接口,通过选择性标记编辑(STE)来增强全局外观一致性,同时保留局部细节。在四个基准上的实验表明,该方法在全局一致性和局部保真度方面均达到了最先进性能。
查看缓存全文
缓存时间: 2026/06/12 10:52
Paper page - From 2D Grids to 1D Tokens: Reforming Shared Representations for Multimodal Image Fusion
来源: https://huggingface.co/papers/2606.12303
摘要
一种多模态图像融合方法,利用预训练图像分词器的一维令牌接口,通过选择性令牌编辑在保持局部细节的同时增强全局外观一致性。
多模态图像融合旨在将不同模态的互补信息整合到一张融合图像中,在保留丰富局部细节的同时保持全局一致的外观。现有方法建立在二维特征网格上的共享表示上,这类方法擅长建模局部结构,但对图像级全局外观因素的调控能力有限。为平衡这些目标,我们引入一个基于冻结预训练图像分词器的紧凑一维令牌接口,用于建模非局部外观/基础因素。我们的设计并非将分词器作为重建骨干网络,而是将一维令牌空间作为全局载体,同时保留二维空间通路用于局部结构复原。具体而言,我们提出选择性令牌编辑(STE),该机制稀疏地更新/替换少量关键令牌,提供一种轻量级手段来引导全局外观一致性,同时保持融合骨干网络不变且无需额外损失。在四个常用基准上的实验表明,我们的方法取得了最佳整体性能,在全局一致性和局部保真度上均有多指标的一致提升。项目页面: https://zju-xyc.github.io/1D-Fusion-Project-Page/
查看 arXiv 页面 (https://arxiv.org/abs/2606.12303)
查看 PDF (https://arxiv.org/pdf/2606.12303)
项目页面 (https://zju-xyc.github.io/1D-Fusion-Project-Page/)
加入收藏 (https://huggingface.co/login?next=%2Fpapers%2F2606.12303)
在你的 agent 中获取本文:
hf papers read 2606.12303
没有最新的 CLI?curl -LsSf https://hf.co/cli/install.sh | bash
引用本文的模型0
无模型链接本文
请在模型 README.md 中引用 arxiv.org/abs/2606.12303 以从本页链接到它。
引用本文的数据集0
无数据集链接本文
请在数据集 README.md 中引用 arxiv.org/abs/2606.12303 以从本页链接到它。
引用本文的空间0
无空间链接本文
请在空间 README.md 中引用 arxiv.org/abs/2606.12303 以从本页链接到它。
包含本文的收藏0
无收藏包含本文
请将本文添加到一个收藏 (https://huggingface.co/new-collection) 以从本页链接到它。
相似文章
超越最后一层:用于视觉标记化的多层表示融合
本文提出了 DRoRAE,这是一种通过融合预训练视觉编码器中的多层特征(而非仅依赖最后一层)来改善视觉标记化的方法。该方法在 ImageNet 上展示了重构和生成质量的显著提升,并确立了融合容量与性能之间的缩放定律。
(1D) 有序词元实现高效测试时搜索
# 论文页面 - (1D) 有序词元实现高效测试时搜索 来源:[https://huggingface.co/papers/2604.15453](https://huggingface.co/papers/2604.15453) ## 摘要 具有“粗到细”词元结构的自回归模型在测试时扩展上表现更佳,并在与图文验证器结合后,实现无需训练的文本到图像生成。 [词元化](https://huggingface.co/papers?q=Tokenization) 是自回归(AR)生成模型的关键组件,将原始
统一多模态自回归建模:共享上下文-视觉分词器是实现统一的关键
UniAR提出了一个统一的自回归框架,使用单个离散视觉分词器桥接视觉理解与生成,在图像生成和编辑方面取得了最佳成果。
Late-Layer Fusion 足矣:视觉饱和下多模态大语言模型的双路径视觉令牌路由
本文提出 DPVR-LF,一种面向多模态大语言模型(MLLM)的模态不对称路由框架,该框架在视觉令牌饱和点将其路由到轻量级侧分支,并执行晚期融合,从而在减少视觉计算量的同时保持具有竞争力的性能。
星系的分词器指南:科学基础模型的基准测试
本文在统一的transformer框架内,比较了四种分词方法(Affine、AIM、JetFormer、VQ-VAE)用于天文图像,使用64万张星系图像评估重构质量、物理属性预测和形态保持能力。研究发现,没有单一方法在所有任务中表现最佳,突显了表示学习中的权衡。