FreeStyle：基于社区LoRA挖掘的风格-内容双参考生成的自由控制

Hugging Face Daily Papers 2026/06/18 00:00 论文

style-transfer dual-reference-generation lora-mining content-leakage image-generation benchmark

摘要

FreeStyle提出了一种可扩展的双参考生成框架，利用社区LoRA挖掘构建大规模风格-内容三元组，并采用解耦机制防止内容泄露，同时引入了一个全面的基准用于评估。

风格-内容双参考生成旨在合成一幅图像，该图像保留内容参考的结构和语义，同时采用独立风格参考的风格。尽管近期取得了进展，这一设置仍然具有挑战性，因为模型必须在内容保真度、风格对齐、指令遵循以及避免风格参考的语义泄露之间取得平衡。一个关键瓶颈是缺乏具有干净内容-风格分离和广泛长尾风格覆盖的大规模三元组数据。在这项工作中，我们提出了FreeStyle，一种基于社区LoRA挖掘的可扩展双参考生成框架。我们将社区LoRA视为风格和内容的组合锚点，并设计了一个严格的生成和过滤流水线，以在多个基础模型上构建大规模风格参考和内容参考三元组。为了解决内容泄露问题，我们采用了两阶段课程，并配有阶段特定的解耦机制：在风格迁移阶段，使用注意力层增强约束来抑制风格参考泄露；在更困难的双参考阶段，采用频率感知RoPE调制策略来针对基于位置对应的泄露。我们还引入了一个覆盖风格参考和双参考生成的基准，评估风格相似性、内容保留、美学、指令遵循和泄露拒绝。该基准包含一个风格不变的内容对齐分数（CAS），并引入了一个校准的基于VLM的拒绝分数，用于评估生成可靠性和泄露抑制。大量实验表明，我们的模型在风格对齐、内容保留和泄露抑制之间取得了很好的平衡。

查看原文

查看缓存全文

缓存时间: 2026/06/20 14:29

论文页面 - FreeStyle：基于社区LoRA挖掘的风格-内容双参考生成自由控制

来源：https://huggingface.co/papers/2606.20506 作者：

摘要

FreeStyle 是一个可扩展的双参考生成框架，它利用社区 LoRA 挖掘来创建大规模的风格-内容三元组，同时通过解耦机制和综合性基准来解决内容泄漏问题。

风格-内容双参考生成（https://huggingface.co/papers?q=dual-reference%20generation）旨在合成一幅图像，该图像保留内容参考图像的结构与语义，同时采用独立风格参考图像的风格。尽管近期有所进展，但该设置仍具挑战性，因为模型必须平衡内容保真度、风格对齐和指令遵循，并避免来自风格参考图像的语义泄漏。一个关键瓶颈是缺乏大规模、内容与风格清晰分离且覆盖广泛长尾风格的三元组数据。在这项工作中，我们提出了 FreeStyle，一个基于社区 LoRA 挖掘（https://huggingface.co/papers?q=LoRA%20mining）的可扩展双参考生成（https://huggingface.co/papers?q=dual-reference%20generation）框架。我们将社区 LoRA 视为风格和内容的组合锚点，并设计了一套严格的生成与过滤流程，在多种基础模型上构建大规模的风格参考和内容参考三元组。为了解决内容泄漏（https://huggingface.co/papers?q=content%20leakage）问题，我们采用了两阶段课程学习，并配有各阶段特定的解耦机制（https://huggingface.co/papers?q=disentanglement%20mechanisms）：在风格迁移阶段，采用注意力层富集约束（https://huggingface.co/papers?q=attention-level%20enrichment%20constraint）来抑制风格参考泄漏；在难度更高的双参考阶段，采用频率感知的 RoPE 调制（https://huggingface.co/papers?q=frequency-aware%20RoPE%20modulation）策略来针对基于位置对应的泄漏。我们还引入了一个基准，涵盖风格参考和双参考生成（https://huggingface.co/papers?q=dual-reference%20generation），评估指标包括风格相似度、内容保留度、美学质量、指令遵循度和泄漏拒绝能力。该基准包含一个风格不变的内容对齐分数（https://huggingface.co/papers?q=Content%20Alignment%20Score）（CAS），并引入了一个基于校准 VLM 的拒绝分数（https://huggingface.co/papers?q=Rejection%20Score），用于评估生成可靠性和泄漏抑制能力。大量实验表明，我们的模型在风格对齐、内容保留和泄漏抑制之间实现了良好的平衡。

查看 arXiv 页面（https://arxiv.org/abs/2606.20506）查看 PDF（https://arxiv.org/pdf/2606.20506）项目页面（https://blue2giant.github.io/FreeStyle/）GitHub13（https://github.com/Blue2Giant/FreeStyle）添加到收藏（https://huggingface.co/login?next=%2Fpapers%2F2606.20506）

引用该论文的模型0

无模型链接此论文

请在模型的 README.md 中引用 arxiv.org/abs/2606.20506 以从本页面链接。

引用该论文的数据集0

无数据集链接此论文

请在数据集的 README.md 中引用 arxiv.org/abs/2606.20506 以从本页面链接。

引用该论文的 Space0

无 Space 链接此论文

请在 Space 的 README.md 中引用 arxiv.org/abs/2606.20506 以从本页面链接。

包含该论文的收藏集0

无收藏集包含此论文

请将本论文添加到收藏集（https://huggingface.co/new-collection）以从本页面链接。

FreeStyle：基于社区LoRA挖掘的风格-内容双参考生成的自由控制

论文页面 - FreeStyle：基于社区LoRA挖掘的风格-内容双参考生成自由控制

摘要

引用该论文的模型0

引用该论文的数据集0

引用该论文的 Space0

包含该论文的收藏集0

相似文章

轻量级风格一致性分析：用于多媒体内容审核的大语言模型生成文本鲁棒性检测

LFRAG：面向布局的多模态文档理解细粒度检索增强生成

通过风格引导提示解释风格表示

风格还是内容？在受控内容重叠下评估风格分类器

Code2LoRA：超网络生成的适配器，用于软件演进中的代码语言模型

提交意见反馈