Bootstrap Your Generator: 基于流匹配的非配对视觉编辑

Hugging Face Daily Papers 论文

摘要

Bootstrap Your Generator (ByG) 是一个用于流匹配编辑模型非配对训练的框架,利用基础模型知识和梯度路由,在数据稀缺的图像和视频编辑任务中实现了最先进的成果。

现代生成模型对视觉内容有深刻的理解,但训练它们进行图像编辑通常需要大量配对示例的数据集。这限制了可扩展性,尤其是在视频编辑中,收集配对数据的成本高得令人望而却步。我们提出了 Bootstrap Your Generator (ByG),一个用于流匹配编辑模型非配对训练的通用框架。它无需任何外部信号即可利用基础模型的知识。我们的方法将从冻结模型中提取的指令跟随线索与用于结构保持的循环一致性相结合。为了使这一点可行,我们提出将来自清洁预测的下游损失的梯度路由到嘈杂的训练状态。我们在具有挑战性的数据稀缺图像和视频编辑场景中展示了最先进的成果。广泛的评估和用户研究表明,我们的方法能够有效泛化到未见过的领域,并优于在数百万样本上训练的监督基线。分析表明,我们的梯度路由弥合了训练与推断之间的差距,而从基础模型中提取语义线索提供了强大的训练信号,从而无需外部奖励模型。
查看原文
查看缓存全文

缓存时间: 2026/06/03 15:38

论文页面 - Bootstrap Your Generator:使用流匹配的无配对视觉编辑

来源:https://huggingface.co/papers/2606.03911

摘要

Bootstrap Your Generator 框架通过利用基础模型的知识和梯度路由,在数据稀缺场景下实现流匹配编辑模型的无配对训练,从而提升泛化能力。

现代生成模型对视觉内容有着深刻理解,但训练它们进行图像编辑通常需要大量配对样本的数据集。这限制了可扩展性,尤其是在视频编辑领域,收集配对数据成本极高。我们提出 Bootstrap Your Generator(ByG),一个用于流匹配编辑模型的无配对训练的通用框架。它无需任何外部信号即可利用基础模型的知识。我们的方法将从冻结模型中提取的指令跟随提示与用于结构保持的循环一致性相结合。为了使这一方法可行,我们提出将下游损失的梯度从干净预测路由到带噪训练状态。我们在数据稀缺的图像和视频编辑挑战性场景中展示了最先进的结果。大量评估和用户研究表明,我们的方法能有效泛化到未见过的领域,并且优于在数百万样本上训练的有监督基线。分析表明,我们的梯度路由弥合了训练-推理差距,而从基础模型中提取语义提示提供了稳健的训练信号,从而无需外部奖励模型。

查看 arXiv 页面 (https://arxiv.org/abs/2606.03911)查看 PDF (https://arxiv.org/pdf/2606.03911)项目页面 (https://research.nvidia.com/labs/par/byg/)添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2606.03911)

在您的 agent 中获取此论文:

hf papers read 2606.03911

没有最新的 CLI?curl -LsSf https://hf.co/cli/install.sh | bash

引用此论文的模型0

没有模型链接此论文

请在模型 README.md 中引用 arxiv.org/abs/2606.03911 以从此页面链接。

引用此论文的数据集0

没有数据集链接此论文

请在数据集 README.md 中引用 arxiv.org/abs/2606.03911 以从此页面链接。

引用此论文的 Space0

没有 Space 链接此论文

请在 Space README.md 中引用 arxiv.org/abs/2606.03911 以从此页面链接。

包含此论文的收藏0

没有收藏包含此论文

请将此论文添加到一个收藏 (https://huggingface.co/new-collection) 以从此页面链接。

相似文章

遵循均值:参考引导的流匹配

Hugging Face Daily Papers

本文介绍了一种在流匹配中实现可控生成的方法,通过使用参考集调整条件端点均值,提供了无需训练和半参数化的指导方式,用于风格和内容控制。

LeapAlign:通过构建两步轨迹在任意生成步骤后训练流匹配模型

Hugging Face Daily Papers

LeapAlign是一种后训练方法,通过两步轨迹捷径降低计算成本,同时实现梯度稳定传播到早期生成步骤,从而改善流匹配模型与人类偏好的对齐。在微调Flux模型时,该方法在多种图像质量和文本对齐指标上均优于现有最先进方法。

Rectified Flows中基于对比速度匹配的几何擦除

arXiv cs.LG

本文介绍了GEM,一种面向Rectified Flow模型的概念擦除框架,它结合了基于轨迹的遗忘与教师引导的流匹配,实现了5倍更快且更安全的内容抑制,同时保留良性的生成能力。