FreeStyle:基于社区LoRA挖掘的风格-内容双参考生成的自由控制
摘要
FreeStyle提出了一种可扩展的双参考生成框架,利用社区LoRA挖掘构建大规模风格-内容三元组,并采用解耦机制防止内容泄露,同时引入了一个全面的基准用于评估。
查看缓存全文
缓存时间: 2026/06/20 14:29
论文页面 - FreeStyle:基于社区LoRA挖掘的风格-内容双参考生成自由控制
来源:https://huggingface.co/papers/2606.20506 作者:
,
,
,
,
,
,
,
,
,
,
摘要
FreeStyle 是一个可扩展的双参考生成框架,它利用社区 LoRA 挖掘来创建大规模的风格-内容三元组,同时通过解耦机制和综合性基准来解决内容泄漏问题。
风格-内容双参考生成(https://huggingface.co/papers?q=dual-reference%20generation)旨在合成一幅图像,该图像保留内容参考图像的结构与语义,同时采用独立风格参考图像的风格。尽管近期有所进展,但该设置仍具挑战性,因为模型必须平衡内容保真度、风格对齐和指令遵循,并避免来自风格参考图像的语义泄漏。一个关键瓶颈是缺乏大规模、内容与风格清晰分离且覆盖广泛长尾风格的三元组数据。在这项工作中,我们提出了 FreeStyle,一个基于社区 LoRA 挖掘(https://huggingface.co/papers?q=LoRA%20mining)的可扩展双参考生成(https://huggingface.co/papers?q=dual-reference%20generation)框架。我们将社区 LoRA 视为风格和内容的组合锚点,并设计了一套严格的生成与过滤流程,在多种基础模型上构建大规模的风格参考和内容参考三元组。为了解决内容泄漏(https://huggingface.co/papers?q=content%20leakage)问题,我们采用了两阶段课程学习,并配有各阶段特定的解耦机制(https://huggingface.co/papers?q=disentanglement%20mechanisms):在风格迁移阶段,采用注意力层富集约束(https://huggingface.co/papers?q=attention-level%20enrichment%20constraint)来抑制风格参考泄漏;在难度更高的双参考阶段,采用频率感知的 RoPE 调制(https://huggingface.co/papers?q=frequency-aware%20RoPE%20modulation)策略来针对基于位置对应的泄漏。我们还引入了一个基准,涵盖风格参考和双参考生成(https://huggingface.co/papers?q=dual-reference%20generation),评估指标包括风格相似度、内容保留度、美学质量、指令遵循度和泄漏拒绝能力。该基准包含一个风格不变的内容对齐分数(https://huggingface.co/papers?q=Content%20Alignment%20Score)(CAS),并引入了一个基于校准 VLM 的拒绝分数(https://huggingface.co/papers?q=Rejection%20Score),用于评估生成可靠性和泄漏抑制能力。大量实验表明,我们的模型在风格对齐、内容保留和泄漏抑制之间实现了良好的平衡。
查看 arXiv 页面(https://arxiv.org/abs/2606.20506)查看 PDF(https://arxiv.org/pdf/2606.20506)项目页面(https://blue2giant.github.io/FreeStyle/)GitHub13(https://github.com/Blue2Giant/FreeStyle)添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2606.20506)
引用该论文的模型0
无模型链接此论文
请在模型的 README.md 中引用 arxiv.org/abs/2606.20506 以从本页面链接。
引用该论文的数据集0
无数据集链接此论文
请在数据集的 README.md 中引用 arxiv.org/abs/2606.20506 以从本页面链接。
引用该论文的 Space0
无 Space 链接此论文
请在 Space 的 README.md 中引用 arxiv.org/abs/2606.20506 以从本页面链接。
包含该论文的收藏集0
无收藏集包含此论文
请将本论文添加到收藏集(https://huggingface.co/new-collection)以从本页面链接。
相似文章
轻量级风格一致性分析:用于多媒体内容审核的大语言模型生成文本鲁棒性检测
提出了 LiSCP,一种轻量级的风格一致性分析方法,旨在鲁棒性地检测大语言模型(LLM)生成的文本内容,重点关注在对抗性操纵下特征的稳定性。在域内和跨域检测中取得了优异的性能,并具有显著的鲁棒性。
LFRAG:面向布局的多模态文档理解细粒度检索增强生成
LFRAG提出了一种面向布局的细粒度检索增强生成框架,该框架在多模态文档中从页面级检索转向块级检索,在新提出的LFDocQA基准上实现了最先进的性能,并将令牌数量减少了73%。
通过风格引导提示解释风格表示
本文提出了一个通过使用风格引导提示(即自然语言指令,引导大语言模型生成具有特定风格属性的文本)来解读风格表示的框架。该方法在描述和模仿写作风格方面均优于基线大语言模型提示技术。
风格还是内容?在受控内容重叠下评估风格分类器
本文利用平行圣经翻译引入了一种受控内容重叠设置,用于评估风格分类器在多大程度上依赖内容线索而非实际风格特征。结果表明,当移除内容线索时,低重叠模型性能下降,而高重叠模型则迁移得更为稳健。
Code2LoRA:超网络生成的适配器,用于软件演进中的代码语言模型
Code2LoRA 引入了一个超网络,该超网络能够从代码仓库中一次性前向传播生成 LoRA 适配器,使得冻结的代码大语言模型无需额外 token 即可适应仓库上下文,并高效支持不断演进的代码库。此外,它还提供了 RepoPeftBench,一个用于仓库条件代码建模的基准测试。