Delta-Adapter：通过单对监督实现可扩展的基于示例的图像编辑

Hugging Face Daily Papers 2026/05/08 00:00 论文

摘要

Delta-Adapter 通过从预训练视觉编码器中提取语义 delta 并通过基于 Perceiver 的适配器注入它们，实现了使用单对监督的基于示例的图像编辑，提高了准确性和泛化能力。

基于示例的图像编辑将由源 - 目标图像对定义的变换应用于新的查询图像。现有方法依赖于双对监督范式，需要两个共享相同编辑语义的图像对来学习目标变换。这一限制使得大规模训练数据难以整理，并限制了在不同编辑类型上的泛化能力。我们提出了 Delta-Adapter，这是一种在单对监督下学习可迁移编辑语义的方法，不需要文本指导。我们并非直接将示例对暴露给模型，而是利用预训练视觉编码器提取语义 delta，以编码两幅图像之间的视觉变换。该语义 delta 通过基于 Perceiver 的适配器注入到预训练图像编辑模型中。由于目标图像从未直接对模型可见，它可以作为预测目标，从而实现无需额外示例对的单对监督。这种设计允许我们利用现有的大规模编辑数据集进行训练。为了进一步促进忠实的变换迁移，我们引入了一种语义 delta 一致性损失，使生成输出的语义变化与从示例对中提取的真值语义 delta 保持一致。大量实验表明，在可见的编辑任务上，Delta-Adapter 相较于四个强基线一致地提高了编辑准确性和内容一致性，同时也更有效地泛化到未见过的编辑任务。代码将在 https://delta-adapter.github.io 提供。

查看原文

查看缓存全文

缓存时间: 2026/05/11 18:55

论文页面 - Delta-Adapter: 基于单对监督的可扩展样例图像编辑

来源：https://huggingface.co/papers/2605.07940

摘要

Delta-Adapter 通过从预训练视觉编码器中提取语义增量，并通过基于 Perceiver 的适配器将其注入编辑模型，在单对监督下实现了图像编辑，提高了准确性和泛化能力。

基于样例的图像编辑（https://huggingface.co/papers?q=Exemplar-based%20image%20editing）将源–目标图像对所定义的变换应用到新的查询图像上。现有方法依赖双对监督范式（https://huggingface.co/papers?q=pair-of-pairs%20supervision），需要两对共享相同编辑语义的图像对来学习目标变换。这一限制使得训练数据难以大规模整理，并削弱了对不同编辑类型的泛化能力。我们提出 Delta-Adapter，一种在单对监督（https://huggingface.co/papers?q=single-pair%20supervision）下学习可迁移编辑语义的方法，无需任何文本引导。我们没有直接将样例对暴露给模型，而是利用预训练视觉编码器（https://huggingface.co/papers?q=pre-trained%20vision%20encoder）提取语义增量（https://huggingface.co/papers?q=semantic%20delta），该增量编码了两幅图像之间的视觉变换。该语义增量（https://huggingface.co/papers?q=semantic%20delta）通过基于 Perceiver 的适配器（https://huggingface.co/papers?q=Perceiver-based%20adapter）注入预训练的图像编辑模型（https://huggingface.co/papers?q=image%20editing%20model）。由于目标图像对模型始终不可见，它可以作为预测目标，从而实现单对监督（https://huggingface.co/papers?q=single-pair%20supervision）且无需额外的样例对。这一设计使我们能够利用现有的大规模编辑数据集进行训练。为了进一步促进忠实的变换迁移，我们引入了语义增量一致性损失（https://huggingface.co/papers?q=semantic%20delta%20consistency%20loss），使生成输出的语义变化与从样例对中提取的真实语义增量（https://huggingface.co/papers?q=semantic%20delta）对齐。大量实验表明，Delta-Adapter 在已见编辑任务上相比四个强基线，持续提升了编辑准确度和内容一致性，同时能更有效地泛化到未见编辑任务。代码将发布于 https://delta-adapter.github.io/。

查看 arXiv 页面（https://arxiv.org/abs/2605.07940）查看 PDF（https://arxiv.org/pdf/2605.07940）项目页面（https://delta-adapter.github.io/）GitHub2（https://github.com/cst7R/Delta-Adapter）添加到 collection（https://huggingface.co/login?next=%2Fpapers%2F2605.07940）

在你的 agent 中获取此论文：

hf papers read 2605.07940

没有最新的 CLI？执行以下命令安装：

curl -LsSf https://hf.co/cli/install.sh | bash

引用此论文的模型 0

没有模型链接此论文

在模型 README.md 中引用 arxiv.org/abs/2605.07940 以从此页面链接它。

引用此论文的数据集 0

没有数据集链接此论文

在数据集 README.md 中引用 arxiv.org/abs/2605.07940 以从此页面链接它。

引用此论文的 Spaces 0

没有 Space 链接此论文

在 Space README.md 中引用 arxiv.org/abs/2605.07940 以从此页面链接它。

包含此论文的 Collections 0

没有 Collection 包含此论文

将此论文添加到一个 collection（https://huggingface.co/new-collection）以从此页面链接它。

Delta-Adapter：通过单对监督实现可扩展的基于示例的图像编辑

论文页面 - Delta-Adapter: 基于单对监督的可扩展样例图像编辑

摘要

引用此论文的模型 0

引用此论文的数据集 0

引用此论文的 Spaces 0

包含此论文的 Collections 0

相似文章

@ninaddaithankar: 视觉模型能否在没有数据增强、掩码、裁剪或重建的情况下学会观察？它可以！介绍……

Delta-JEPA: 通过潜在差异解码学习动作敏感的世界模型

HP-Edit：面向图像编辑的人类偏好后训练框架

Uni-Edit：智能编辑是统一模型调优的通用任务

Delta Attention Residuals

提交意见反馈