Delta-Adapter:通过单对监督实现可扩展的基于示例的图像编辑

Hugging Face Daily Papers 论文

摘要

Delta-Adapter 通过从预训练视觉编码器中提取语义 delta 并通过基于 Perceiver 的适配器注入它们,实现了使用单对监督的基于示例的图像编辑,提高了准确性和泛化能力。

基于示例的图像编辑将由源 - 目标图像对定义的变换应用于新的查询图像。现有方法依赖于双对监督范式,需要两个共享相同编辑语义的图像对来学习目标变换。这一限制使得大规模训练数据难以整理,并限制了在不同编辑类型上的泛化能力。我们提出了 Delta-Adapter,这是一种在单对监督下学习可迁移编辑语义的方法,不需要文本指导。我们并非直接将示例对暴露给模型,而是利用预训练视觉编码器提取语义 delta,以编码两幅图像之间的视觉变换。该语义 delta 通过基于 Perceiver 的适配器注入到预训练图像编辑模型中。由于目标图像从未直接对模型可见,它可以作为预测目标,从而实现无需额外示例对的单对监督。这种设计允许我们利用现有的大规模编辑数据集进行训练。为了进一步促进忠实的变换迁移,我们引入了一种语义 delta 一致性损失,使生成输出的语义变化与从示例对中提取的真值语义 delta 保持一致。大量实验表明,在可见的编辑任务上,Delta-Adapter 相较于四个强基线一致地提高了编辑准确性和内容一致性,同时也更有效地泛化到未见过的编辑任务。代码将在 https://delta-adapter.github.io 提供。
查看原文
查看缓存全文

缓存时间: 2026/05/11 18:55

论文页面 - Delta-Adapter: 基于单对监督的可扩展样例图像编辑

来源:https://huggingface.co/papers/2605.07940

摘要

Delta-Adapter 通过从预训练视觉编码器中提取语义增量,并通过基于 Perceiver 的适配器将其注入编辑模型,在单对监督下实现了图像编辑,提高了准确性和泛化能力。

基于样例的图像编辑(https://huggingface.co/papers?q=Exemplar-based%20image%20editing)将源–目标图像对所定义的变换应用到新的查询图像上。现有方法依赖双对监督范式(https://huggingface.co/papers?q=pair-of-pairs%20supervision),需要两对共享相同编辑语义的图像对来学习目标变换。这一限制使得训练数据难以大规模整理,并削弱了对不同编辑类型的泛化能力。我们提出 Delta-Adapter,一种在单对监督(https://huggingface.co/papers?q=single-pair%20supervision)下学习可迁移编辑语义的方法,无需任何文本引导。我们没有直接将样例对暴露给模型,而是利用预训练视觉编码器(https://huggingface.co/papers?q=pre-trained%20vision%20encoder)提取语义增量(https://huggingface.co/papers?q=semantic%20delta),该增量编码了两幅图像之间的视觉变换。该语义增量(https://huggingface.co/papers?q=semantic%20delta)通过基于 Perceiver 的适配器(https://huggingface.co/papers?q=Perceiver-based%20adapter)注入预训练的图像编辑模型(https://huggingface.co/papers?q=image%20editing%20model)。由于目标图像对模型始终不可见,它可以作为预测目标,从而实现单对监督(https://huggingface.co/papers?q=single-pair%20supervision)且无需额外的样例对。这一设计使我们能够利用现有的大规模编辑数据集进行训练。为了进一步促进忠实的变换迁移,我们引入了语义增量一致性损失(https://huggingface.co/papers?q=semantic%20delta%20consistency%20loss),使生成输出的语义变化与从样例对中提取的真实语义增量(https://huggingface.co/papers?q=semantic%20delta)对齐。大量实验表明,Delta-Adapter 在已见编辑任务上相比四个强基线,持续提升了编辑准确度和内容一致性,同时能更有效地泛化到未见编辑任务。代码将发布于 https://delta-adapter.github.io/。

查看 arXiv 页面(https://arxiv.org/abs/2605.07940)查看 PDF(https://arxiv.org/pdf/2605.07940)项目页面(https://delta-adapter.github.io/)GitHub2(https://github.com/cst7R/Delta-Adapter)添加到 collection(https://huggingface.co/login?next=%2Fpapers%2F2605.07940)

在你的 agent 中获取此论文:

hf papers read 2605.07940

没有最新的 CLI?执行以下命令安装:

curl -LsSf https://hf.co/cli/install.sh | bash

引用此论文的模型 0

没有模型链接此论文

在模型 README.md 中引用 arxiv.org/abs/2605.07940 以从此页面链接它。

引用此论文的数据集 0

没有数据集链接此论文

在数据集 README.md 中引用 arxiv.org/abs/2605.07940 以从此页面链接它。

引用此论文的 Spaces 0

没有 Space 链接此论文

在 Space README.md 中引用 arxiv.org/abs/2605.07940 以从此页面链接它。

包含此论文的 Collections 0

没有 Collection 包含此论文

将此论文添加到一个 collection(https://huggingface.co/new-collection)以从此页面链接它。

相似文章

Delta Attention Residuals

Hugging Face Daily Papers

Delta Attention Residuals 通过关注特征变化(增量)而非累积隐藏状态,改进了Transformer模型中的逐层路由,在220M到7.6B参数的规模上实现了1.7-8.2%的验证困惑度提升。