标签
本文提出了一种多模态图像融合方法,该方法使用来自预训练图像标记器的一维标记接口,通过选择性标记编辑(STE)来增强全局外观一致性,同时保留局部细节。在四个基准上的实验表明,该方法在全局一致性和局部保真度方面均达到了最先进性能。