Bootstrap Your Generator: 基于流匹配的非配对视觉编辑

Hugging Face Daily Papers 2026/06/02 00:00 论文

flow-matching image-editing video-editing unpaired-training generative-models gradient-routing nvidia

摘要

Bootstrap Your Generator (ByG) 是一个用于流匹配编辑模型非配对训练的框架，利用基础模型知识和梯度路由，在数据稀缺的图像和视频编辑任务中实现了最先进的成果。

现代生成模型对视觉内容有深刻的理解，但训练它们进行图像编辑通常需要大量配对示例的数据集。这限制了可扩展性，尤其是在视频编辑中，收集配对数据的成本高得令人望而却步。我们提出了 Bootstrap Your Generator (ByG)，一个用于流匹配编辑模型非配对训练的通用框架。它无需任何外部信号即可利用基础模型的知识。我们的方法将从冻结模型中提取的指令跟随线索与用于结构保持的循环一致性相结合。为了使这一点可行，我们提出将来自清洁预测的下游损失的梯度路由到嘈杂的训练状态。我们在具有挑战性的数据稀缺图像和视频编辑场景中展示了最先进的成果。广泛的评估和用户研究表明，我们的方法能够有效泛化到未见过的领域，并优于在数百万样本上训练的监督基线。分析表明，我们的梯度路由弥合了训练与推断之间的差距，而从基础模型中提取语义线索提供了强大的训练信号，从而无需外部奖励模型。

查看原文

查看缓存全文

缓存时间: 2026/06/03 15:38

论文页面 - Bootstrap Your Generator：使用流匹配的无配对视觉编辑

来源：https://huggingface.co/papers/2606.03911

摘要

Bootstrap Your Generator 框架通过利用基础模型的知识和梯度路由，在数据稀缺场景下实现流匹配编辑模型的无配对训练，从而提升泛化能力。

现代生成模型对视觉内容有着深刻理解，但训练它们进行图像编辑通常需要大量配对样本的数据集。这限制了可扩展性，尤其是在视频编辑领域，收集配对数据成本极高。我们提出 Bootstrap Your Generator（ByG），一个用于流匹配编辑模型的无配对训练的通用框架。它无需任何外部信号即可利用基础模型的知识。我们的方法将从冻结模型中提取的指令跟随提示与用于结构保持的循环一致性相结合。为了使这一方法可行，我们提出将下游损失的梯度从干净预测路由到带噪训练状态。我们在数据稀缺的图像和视频编辑挑战性场景中展示了最先进的结果。大量评估和用户研究表明，我们的方法能有效泛化到未见过的领域，并且优于在数百万样本上训练的有监督基线。分析表明，我们的梯度路由弥合了训练-推理差距，而从基础模型中提取语义提示提供了稳健的训练信号，从而无需外部奖励模型。

查看 arXiv 页面 (https://arxiv.org/abs/2606.03911)查看 PDF (https://arxiv.org/pdf/2606.03911)项目页面 (https://research.nvidia.com/labs/par/byg/)添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2606.03911)

在您的 agent 中获取此论文：

hf papers read 2606.03911

没有最新的 CLI？curl -LsSf https://hf.co/cli/install.sh | bash

引用此论文的模型0

没有模型链接此论文

请在模型 README.md 中引用 arxiv.org/abs/2606.03911 以从此页面链接。

引用此论文的数据集0

没有数据集链接此论文

请在数据集 README.md 中引用 arxiv.org/abs/2606.03911 以从此页面链接。

引用此论文的 Space0

没有 Space 链接此论文

请在 Space README.md 中引用 arxiv.org/abs/2606.03911 以从此页面链接。

包含此论文的收藏0

没有收藏包含此论文

请将此论文添加到一个收藏 (https://huggingface.co/new-collection) 以从此页面链接。

Bootstrap Your Generator: 基于流匹配的非配对视觉编辑

论文页面 - Bootstrap Your Generator：使用流匹配的无配对视觉编辑

摘要

引用此论文的模型0

引用此论文的数据集0

引用此论文的 Space0

包含此论文的收藏0

相似文章

遵循均值：参考引导的流匹配

LeapAlign：通过构建两步轨迹在任意生成步骤后训练流匹配模型

STARFlow2：连接语言模型与归一化流以实现统一的多模态生成

@HuggingPapers: Stable-GFlowNet：通过对比轨迹平衡实现多样化且鲁棒的 LLM 红队测试 Naver AI 消除了不稳定的…

Rectified Flows中基于对比速度匹配的几何擦除

提交意见反馈