从二维网格到一维标记:改革多模态图像融合的共享表示

Hugging Face Daily Papers 论文

摘要

本文提出了一种多模态图像融合方法,该方法使用来自预训练图像标记器的一维标记接口,通过选择性标记编辑(STE)来增强全局外观一致性,同时保留局部细节。在四个基准上的实验表明,该方法在全局一致性和局部保真度方面均达到了最先进性能。

多模态图像融合旨在将来自不同模态的互补信息整合到融合图像中,使其在保持全局一致外观的同时保留丰富的局部细节。现有方法在二维特征网格上构建共享表示,这擅长建模局部结构,但在图像级全局外观因素上的控制有限。为了平衡这些目标,我们引入了一个基于冻结预训练图像标记器的紧凑一维标记接口,用于建模非局部外观/基础因素。我们的设计没有将标记器用作重建主干,而是将一维标记空间用作全局载体,同时保留二维空间路径用于局部结构恢复。具体来说,我们引入了选择性标记编辑(STE),它会稀疏地更新/替换一小部分关键标记,提供了一种轻量级机制来引导全局外观一致性,同时保持融合主干不变并避免额外损失。在四个常用基准上的实验表明,我们的方法取得了最佳整体性能,在全局一致性和局部保真度方面均有一致的多指标改进。项目页面:https://zju-xyc.github.io/1D-Fusion-Project-Page/
查看原文
查看缓存全文

缓存时间: 2026/06/12 10:52

Paper page - From 2D Grids to 1D Tokens: Reforming Shared Representations for Multimodal Image Fusion

来源: https://huggingface.co/papers/2606.12303

摘要

一种多模态图像融合方法,利用预训练图像分词器的一维令牌接口,通过选择性令牌编辑在保持局部细节的同时增强全局外观一致性。

多模态图像融合旨在将不同模态的互补信息整合到一张融合图像中,在保留丰富局部细节的同时保持全局一致的外观。现有方法建立在二维特征网格上的共享表示上,这类方法擅长建模局部结构,但对图像级全局外观因素的调控能力有限。为平衡这些目标,我们引入一个基于冻结预训练图像分词器的紧凑一维令牌接口,用于建模非局部外观/基础因素。我们的设计并非将分词器作为重建骨干网络,而是将一维令牌空间作为全局载体,同时保留二维空间通路用于局部结构复原。具体而言,我们提出选择性令牌编辑(STE),该机制稀疏地更新/替换少量关键令牌,提供一种轻量级手段来引导全局外观一致性,同时保持融合骨干网络不变且无需额外损失。在四个常用基准上的实验表明,我们的方法取得了最佳整体性能,在全局一致性和局部保真度上均有多指标的一致提升。项目页面: https://zju-xyc.github.io/1D-Fusion-Project-Page/

查看 arXiv 页面 (https://arxiv.org/abs/2606.12303)
查看 PDF (https://arxiv.org/pdf/2606.12303)
项目页面 (https://zju-xyc.github.io/1D-Fusion-Project-Page/)
加入收藏 (https://huggingface.co/login?next=%2Fpapers%2F2606.12303)

在你的 agent 中获取本文:

hf papers read 2606.12303

没有最新的 CLI?curl -LsSf https://hf.co/cli/install.sh | bash

引用本文的模型0

无模型链接本文

请在模型 README.md 中引用 arxiv.org/abs/2606.12303 以从本页链接到它。

引用本文的数据集0

无数据集链接本文

请在数据集 README.md 中引用 arxiv.org/abs/2606.12303 以从本页链接到它。

引用本文的空间0

无空间链接本文

请在空间 README.md 中引用 arxiv.org/abs/2606.12303 以从本页链接到它。

包含本文的收藏0

无收藏包含本文

请将本文添加到一个收藏 (https://huggingface.co/new-collection) 以从本页链接到它。

相似文章

超越最后一层:用于视觉标记化的多层表示融合

Hugging Face Daily Papers

本文提出了 DRoRAE,这是一种通过融合预训练视觉编码器中的多层特征(而非仅依赖最后一层)来改善视觉标记化的方法。该方法在 ImageNet 上展示了重构和生成质量的显著提升,并确立了融合容量与性能之间的缩放定律。

(1D) 有序词元实现高效测试时搜索

Hugging Face Daily Papers

# 论文页面 - (1D) 有序词元实现高效测试时搜索 来源:[https://huggingface.co/papers/2604.15453](https://huggingface.co/papers/2604.15453) ## 摘要 具有“粗到细”词元结构的自回归模型在测试时扩展上表现更佳,并在与图文验证器结合后,实现无需训练的文本到图像生成。 [词元化](https://huggingface.co/papers?q=Tokenization) 是自回归(AR)生成模型的关键组件,将原始

星系的分词器指南:科学基础模型的基准测试

Hugging Face Daily Papers

本文在统一的transformer框架内,比较了四种分词方法(Affine、AIM、JetFormer、VQ-VAE)用于天文图像,使用64万张星系图像评估重构质量、物理属性预测和形态保持能力。研究发现,没有单一方法在所有任务中表现最佳,突显了表示学习中的权衡。