Delta-Adapter:通过单对监督实现可扩展的基于示例的图像编辑
摘要
Delta-Adapter 通过从预训练视觉编码器中提取语义 delta 并通过基于 Perceiver 的适配器注入它们,实现了使用单对监督的基于示例的图像编辑,提高了准确性和泛化能力。
查看缓存全文
缓存时间: 2026/05/11 18:55
论文页面 - Delta-Adapter: 基于单对监督的可扩展样例图像编辑
来源:https://huggingface.co/papers/2605.07940
摘要
Delta-Adapter 通过从预训练视觉编码器中提取语义增量,并通过基于 Perceiver 的适配器将其注入编辑模型,在单对监督下实现了图像编辑,提高了准确性和泛化能力。
基于样例的图像编辑(https://huggingface.co/papers?q=Exemplar-based%20image%20editing)将源–目标图像对所定义的变换应用到新的查询图像上。现有方法依赖双对监督范式(https://huggingface.co/papers?q=pair-of-pairs%20supervision),需要两对共享相同编辑语义的图像对来学习目标变换。这一限制使得训练数据难以大规模整理,并削弱了对不同编辑类型的泛化能力。我们提出 Delta-Adapter,一种在单对监督(https://huggingface.co/papers?q=single-pair%20supervision)下学习可迁移编辑语义的方法,无需任何文本引导。我们没有直接将样例对暴露给模型,而是利用预训练视觉编码器(https://huggingface.co/papers?q=pre-trained%20vision%20encoder)提取语义增量(https://huggingface.co/papers?q=semantic%20delta),该增量编码了两幅图像之间的视觉变换。该语义增量(https://huggingface.co/papers?q=semantic%20delta)通过基于 Perceiver 的适配器(https://huggingface.co/papers?q=Perceiver-based%20adapter)注入预训练的图像编辑模型(https://huggingface.co/papers?q=image%20editing%20model)。由于目标图像对模型始终不可见,它可以作为预测目标,从而实现单对监督(https://huggingface.co/papers?q=single-pair%20supervision)且无需额外的样例对。这一设计使我们能够利用现有的大规模编辑数据集进行训练。为了进一步促进忠实的变换迁移,我们引入了语义增量一致性损失(https://huggingface.co/papers?q=semantic%20delta%20consistency%20loss),使生成输出的语义变化与从样例对中提取的真实语义增量(https://huggingface.co/papers?q=semantic%20delta)对齐。大量实验表明,Delta-Adapter 在已见编辑任务上相比四个强基线,持续提升了编辑准确度和内容一致性,同时能更有效地泛化到未见编辑任务。代码将发布于 https://delta-adapter.github.io/。
查看 arXiv 页面(https://arxiv.org/abs/2605.07940)查看 PDF(https://arxiv.org/pdf/2605.07940)项目页面(https://delta-adapter.github.io/)GitHub2(https://github.com/cst7R/Delta-Adapter)添加到 collection(https://huggingface.co/login?next=%2Fpapers%2F2605.07940)
在你的 agent 中获取此论文:
hf papers read 2605.07940
没有最新的 CLI?执行以下命令安装:
curl -LsSf https://hf.co/cli/install.sh | bash
引用此论文的模型 0
没有模型链接此论文
在模型 README.md 中引用 arxiv.org/abs/2605.07940 以从此页面链接它。
引用此论文的数据集 0
没有数据集链接此论文
在数据集 README.md 中引用 arxiv.org/abs/2605.07940 以从此页面链接它。
引用此论文的 Spaces 0
没有 Space 链接此论文
在 Space README.md 中引用 arxiv.org/abs/2605.07940 以从此页面链接它。
包含此论文的 Collections 0
没有 Collection 包含此论文
将此论文添加到一个 collection(https://huggingface.co/new-collection)以从此页面链接它。
相似文章
@ninaddaithankar: 视觉模型能否在没有数据增强、掩码、裁剪或重建的情况下学会观察?它可以!介绍……
介绍了时间差视觉表征学习范式(Temporal Difference in Vision, TDV),这是一种新颖的视觉表征学习范式,无需数据增强、掩码、裁剪或重建即可学习有用的表征,并在密集空间任务上达到与最先进方法相当的性能。
Delta-JEPA: 通过潜在差异解码学习动作敏感的世界模型
Delta-JEPA 引入了一种无重建的世界模型,通过潜在差异动作解码器增强潜在前向预测,以防止崩溃并提高动作敏感性,从而在视觉连续控制任务上实现更好的规划性能。
HP-Edit:面向图像编辑的人类偏好后训练框架
HP-Edit 提出一种后训练框架,通过 RLHF 将基于扩散的图像编辑模型与人类偏好对齐,依托全新 5 万张真实场景数据集及自动 VLM 评估器。
Uni-Edit:智能编辑是统一模型调优的通用任务
Uni-Edit提出使用智能图像编辑作为单一通用任务,以同时提升统一多模态模型的理解、生成和编辑能力,并配备自动化数据合成流程生成复杂的编辑指令。
Delta Attention Residuals
Delta Attention Residuals 通过关注特征变化(增量)而非累积隐藏状态,改进了Transformer模型中的逐层路由,在220M到7.6B参数的规模上实现了1.7-8.2%的验证困惑度提升。