FreeStyle:基于社区LoRA挖掘的风格-内容双参考生成的自由控制

Hugging Face Daily Papers 论文

摘要

FreeStyle提出了一种可扩展的双参考生成框架,利用社区LoRA挖掘构建大规模风格-内容三元组,并采用解耦机制防止内容泄露,同时引入了一个全面的基准用于评估。

风格-内容双参考生成旨在合成一幅图像,该图像保留内容参考的结构和语义,同时采用独立风格参考的风格。尽管近期取得了进展,这一设置仍然具有挑战性,因为模型必须在内容保真度、风格对齐、指令遵循以及避免风格参考的语义泄露之间取得平衡。一个关键瓶颈是缺乏具有干净内容-风格分离和广泛长尾风格覆盖的大规模三元组数据。在这项工作中,我们提出了FreeStyle,一种基于社区LoRA挖掘的可扩展双参考生成框架。我们将社区LoRA视为风格和内容的组合锚点,并设计了一个严格的生成和过滤流水线,以在多个基础模型上构建大规模风格参考和内容参考三元组。为了解决内容泄露问题,我们采用了两阶段课程,并配有阶段特定的解耦机制:在风格迁移阶段,使用注意力层增强约束来抑制风格参考泄露;在更困难的双参考阶段,采用频率感知RoPE调制策略来针对基于位置对应的泄露。我们还引入了一个覆盖风格参考和双参考生成的基准,评估风格相似性、内容保留、美学、指令遵循和泄露拒绝。该基准包含一个风格不变的内容对齐分数(CAS),并引入了一个校准的基于VLM的拒绝分数,用于评估生成可靠性和泄露抑制。大量实验表明,我们的模型在风格对齐、内容保留和泄露抑制之间取得了很好的平衡。
查看原文
查看缓存全文

缓存时间: 2026/06/20 14:29

论文页面 - FreeStyle:基于社区LoRA挖掘的风格-内容双参考生成自由控制

来源:https://huggingface.co/papers/2606.20506 作者:

,

,

,

,

,

,

,

,

,

,

摘要

FreeStyle 是一个可扩展的双参考生成框架,它利用社区 LoRA 挖掘来创建大规模的风格-内容三元组,同时通过解耦机制和综合性基准来解决内容泄漏问题。

风格-内容双参考生成(https://huggingface.co/papers?q=dual-reference%20generation)旨在合成一幅图像,该图像保留内容参考图像的结构与语义,同时采用独立风格参考图像的风格。尽管近期有所进展,但该设置仍具挑战性,因为模型必须平衡内容保真度、风格对齐和指令遵循,并避免来自风格参考图像的语义泄漏。一个关键瓶颈是缺乏大规模、内容与风格清晰分离且覆盖广泛长尾风格的三元组数据。在这项工作中,我们提出了 FreeStyle,一个基于社区 LoRA 挖掘(https://huggingface.co/papers?q=LoRA%20mining)的可扩展双参考生成(https://huggingface.co/papers?q=dual-reference%20generation)框架。我们将社区 LoRA 视为风格和内容的组合锚点,并设计了一套严格的生成与过滤流程,在多种基础模型上构建大规模的风格参考和内容参考三元组。为了解决内容泄漏(https://huggingface.co/papers?q=content%20leakage)问题,我们采用了两阶段课程学习,并配有各阶段特定的解耦机制(https://huggingface.co/papers?q=disentanglement%20mechanisms):在风格迁移阶段,采用注意力层富集约束(https://huggingface.co/papers?q=attention-level%20enrichment%20constraint)来抑制风格参考泄漏;在难度更高的双参考阶段,采用频率感知的 RoPE 调制(https://huggingface.co/papers?q=frequency-aware%20RoPE%20modulation)策略来针对基于位置对应的泄漏。我们还引入了一个基准,涵盖风格参考和双参考生成(https://huggingface.co/papers?q=dual-reference%20generation),评估指标包括风格相似度、内容保留度、美学质量、指令遵循度和泄漏拒绝能力。该基准包含一个风格不变的内容对齐分数(https://huggingface.co/papers?q=Content%20Alignment%20Score)(CAS),并引入了一个基于校准 VLM 的拒绝分数(https://huggingface.co/papers?q=Rejection%20Score),用于评估生成可靠性和泄漏抑制能力。大量实验表明,我们的模型在风格对齐、内容保留和泄漏抑制之间实现了良好的平衡。

查看 arXiv 页面(https://arxiv.org/abs/2606.20506)查看 PDF(https://arxiv.org/pdf/2606.20506)项目页面(https://blue2giant.github.io/FreeStyle/)GitHub13(https://github.com/Blue2Giant/FreeStyle)添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2606.20506)

引用该论文的模型0

无模型链接此论文

请在模型的 README.md 中引用 arxiv.org/abs/2606.20506 以从本页面链接。

引用该论文的数据集0

无数据集链接此论文

请在数据集的 README.md 中引用 arxiv.org/abs/2606.20506 以从本页面链接。

引用该论文的 Space0

无 Space 链接此论文

请在 Space 的 README.md 中引用 arxiv.org/abs/2606.20506 以从本页面链接。

包含该论文的收藏集0

无收藏集包含此论文

请将本论文添加到收藏集(https://huggingface.co/new-collection)以从本页面链接。

相似文章

通过风格引导提示解释风格表示

arXiv cs.CL

本文提出了一个通过使用风格引导提示(即自然语言指令,引导大语言模型生成具有特定风格属性的文本)来解读风格表示的框架。该方法在描述和模仿写作风格方面均优于基线大语言模型提示技术。

风格还是内容?在受控内容重叠下评估风格分类器

arXiv cs.CL

本文利用平行圣经翻译引入了一种受控内容重叠设置,用于评估风格分类器在多大程度上依赖内容线索而非实际风格特征。结果表明,当移除内容线索时,低重叠模型性能下降,而高重叠模型则迁移得更为稳健。

Code2LoRA:超网络生成的适配器,用于软件演进中的代码语言模型

Hugging Face Daily Papers

Code2LoRA 引入了一个超网络,该超网络能够从代码仓库中一次性前向传播生成 LoRA 适配器,使得冻结的代码大语言模型无需额外 token 即可适应仓库上下文,并高效支持不断演进的代码库。此外,它还提供了 RepoPeftBench,一个用于仓库条件代码建模的基准测试。