Bootstrap Your Generator: 基于流匹配的非配对视觉编辑
摘要
Bootstrap Your Generator (ByG) 是一个用于流匹配编辑模型非配对训练的框架,利用基础模型知识和梯度路由,在数据稀缺的图像和视频编辑任务中实现了最先进的成果。
查看缓存全文
缓存时间: 2026/06/03 15:38
论文页面 - Bootstrap Your Generator:使用流匹配的无配对视觉编辑
来源:https://huggingface.co/papers/2606.03911
摘要
Bootstrap Your Generator 框架通过利用基础模型的知识和梯度路由,在数据稀缺场景下实现流匹配编辑模型的无配对训练,从而提升泛化能力。
现代生成模型对视觉内容有着深刻理解,但训练它们进行图像编辑通常需要大量配对样本的数据集。这限制了可扩展性,尤其是在视频编辑领域,收集配对数据成本极高。我们提出 Bootstrap Your Generator(ByG),一个用于流匹配编辑模型的无配对训练的通用框架。它无需任何外部信号即可利用基础模型的知识。我们的方法将从冻结模型中提取的指令跟随提示与用于结构保持的循环一致性相结合。为了使这一方法可行,我们提出将下游损失的梯度从干净预测路由到带噪训练状态。我们在数据稀缺的图像和视频编辑挑战性场景中展示了最先进的结果。大量评估和用户研究表明,我们的方法能有效泛化到未见过的领域,并且优于在数百万样本上训练的有监督基线。分析表明,我们的梯度路由弥合了训练-推理差距,而从基础模型中提取语义提示提供了稳健的训练信号,从而无需外部奖励模型。
查看 arXiv 页面 (https://arxiv.org/abs/2606.03911)查看 PDF (https://arxiv.org/pdf/2606.03911)项目页面 (https://research.nvidia.com/labs/par/byg/)添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2606.03911)
在您的 agent 中获取此论文:
hf papers read 2606.03911
没有最新的 CLI?curl -LsSf https://hf.co/cli/install.sh | bash
引用此论文的模型0
没有模型链接此论文
请在模型 README.md 中引用 arxiv.org/abs/2606.03911 以从此页面链接。
引用此论文的数据集0
没有数据集链接此论文
请在数据集 README.md 中引用 arxiv.org/abs/2606.03911 以从此页面链接。
引用此论文的 Space0
没有 Space 链接此论文
请在 Space README.md 中引用 arxiv.org/abs/2606.03911 以从此页面链接。
包含此论文的收藏0
没有收藏包含此论文
请将此论文添加到一个收藏 (https://huggingface.co/new-collection) 以从此页面链接。
相似文章
遵循均值:参考引导的流匹配
本文介绍了一种在流匹配中实现可控生成的方法,通过使用参考集调整条件端点均值,提供了无需训练和半参数化的指导方式,用于风格和内容控制。
LeapAlign:通过构建两步轨迹在任意生成步骤后训练流匹配模型
LeapAlign是一种后训练方法,通过两步轨迹捷径降低计算成本,同时实现梯度稳定传播到早期生成步骤,从而改善流匹配模型与人类偏好的对齐。在微调Flux模型时,该方法在多种图像质量和文本对齐指标上均优于现有最先进方法。
STARFlow2:连接语言模型与归一化流以实现统一的多模态生成
STARFlow2 是一项新的研究论文,介绍了一种将语言模型与自回归归一化流相结合的架构,用于统一的多模态生成。它通过使用共享的因果掩码机制处理交错的文本-图像序列,解决了现有系统中的结构不匹配问题。
@HuggingPapers: Stable-GFlowNet:通过对比轨迹平衡实现多样化且鲁棒的 LLM 红队测试 Naver AI 消除了不稳定的…
Naver AI 推出了 Stable-GFlowNet,这是一种通过对比轨迹平衡来消除生成流网络中不稳定的配分函数估计,从而改善 LLM 红队测试的方法。
Rectified Flows中基于对比速度匹配的几何擦除
本文介绍了GEM,一种面向Rectified Flow模型的概念擦除框架,它结合了基于轨迹的遗忘与教师引导的流匹配,实现了5倍更快且更安全的内容抑制,同时保留良性的生成能力。