从二维网格到一维标记：改革多模态图像融合的共享表示

Hugging Face Daily Papers 2026/06/10 00:00 论文

摘要

本文提出了一种多模态图像融合方法，该方法使用来自预训练图像标记器的一维标记接口，通过选择性标记编辑（STE）来增强全局外观一致性，同时保留局部细节。在四个基准上的实验表明，该方法在全局一致性和局部保真度方面均达到了最先进性能。

多模态图像融合旨在将来自不同模态的互补信息整合到融合图像中，使其在保持全局一致外观的同时保留丰富的局部细节。现有方法在二维特征网格上构建共享表示，这擅长建模局部结构，但在图像级全局外观因素上的控制有限。为了平衡这些目标，我们引入了一个基于冻结预训练图像标记器的紧凑一维标记接口，用于建模非局部外观/基础因素。我们的设计没有将标记器用作重建主干，而是将一维标记空间用作全局载体，同时保留二维空间路径用于局部结构恢复。具体来说，我们引入了选择性标记编辑（STE），它会稀疏地更新/替换一小部分关键标记，提供了一种轻量级机制来引导全局外观一致性，同时保持融合主干不变并避免额外损失。在四个常用基准上的实验表明，我们的方法取得了最佳整体性能，在全局一致性和局部保真度方面均有一致的多指标改进。项目页面：https://zju-xyc.github.io/1D-Fusion-Project-Page/

查看原文

查看缓存全文

缓存时间: 2026/06/12 10:52

Paper page - From 2D Grids to 1D Tokens: Reforming Shared Representations for Multimodal Image Fusion

来源: https://huggingface.co/papers/2606.12303

摘要

一种多模态图像融合方法，利用预训练图像分词器的一维令牌接口，通过选择性令牌编辑在保持局部细节的同时增强全局外观一致性。

多模态图像融合旨在将不同模态的互补信息整合到一张融合图像中，在保留丰富局部细节的同时保持全局一致的外观。现有方法建立在二维特征网格上的共享表示上，这类方法擅长建模局部结构，但对图像级全局外观因素的调控能力有限。为平衡这些目标，我们引入一个基于冻结预训练图像分词器的紧凑一维令牌接口，用于建模非局部外观/基础因素。我们的设计并非将分词器作为重建骨干网络，而是将一维令牌空间作为全局载体，同时保留二维空间通路用于局部结构复原。具体而言，我们提出选择性令牌编辑（STE），该机制稀疏地更新/替换少量关键令牌，提供一种轻量级手段来引导全局外观一致性，同时保持融合骨干网络不变且无需额外损失。在四个常用基准上的实验表明，我们的方法取得了最佳整体性能，在全局一致性和局部保真度上均有多指标的一致提升。项目页面: https://zju-xyc.github.io/1D-Fusion-Project-Page/

查看 arXiv 页面 (https://arxiv.org/abs/2606.12303)
查看 PDF (https://arxiv.org/pdf/2606.12303)
项目页面 (https://zju-xyc.github.io/1D-Fusion-Project-Page/)
加入收藏 (https://huggingface.co/login?next=%2Fpapers%2F2606.12303)

在你的 agent 中获取本文：

hf papers read 2606.12303

没有最新的 CLI？curl -LsSf https://hf.co/cli/install.sh | bash

引用本文的模型0

无模型链接本文

请在模型 README.md 中引用 arxiv.org/abs/2606.12303 以从本页链接到它。

引用本文的数据集0

无数据集链接本文

请在数据集 README.md 中引用 arxiv.org/abs/2606.12303 以从本页链接到它。

引用本文的空间0

无空间链接本文

请在空间 README.md 中引用 arxiv.org/abs/2606.12303 以从本页链接到它。

包含本文的收藏0

无收藏包含本文

请将本文添加到一个收藏 (https://huggingface.co/new-collection) 以从本页链接到它。

从二维网格到一维标记：改革多模态图像融合的共享表示

Paper page - From 2D Grids to 1D Tokens: Reforming Shared Representations for Multimodal Image Fusion

摘要

引用本文的模型0

引用本文的数据集0

引用本文的空间0

包含本文的收藏0

相似文章

超越最后一层：用于视觉标记化的多层表示融合

(1D) 有序词元实现高效测试时搜索

统一多模态自回归建模：共享上下文-视觉分词器是实现统一的关键

Late-Layer Fusion 足矣：视觉饱和下多模态大语言模型的双路径视觉令牌路由

星系的分词器指南：科学基础模型的基准测试

提交意见反馈