CollectionLoRA: 通过多教师在线策略蒸馏将50种效果合并到单个LoRA中

Hugging Face Daily Papers 论文

摘要

CollectionLoRA提出了一种多教师在线策略蒸馏框架,可将多达50种不同效果的LoRA蒸馏到单个LoRA中,在降低部署开销的同时保持概念保真度。

定制化图像编辑旨在通过有限的配对数据,通常使用低秩适应(LoRA)技术,为预训练扩散模型配备特定的视觉效果。随着所需效果数量的增加,存储和动态加载大量此类效果LoRA会显著增加部署开销。此外,当前流程通常将这些效果LoRA与加速模块级联以实现快速生成,这会导致严重的参数干扰,从而引发概念泄露和风格退化。 我们提出了CollectionLoRA,一种多教师在线策略蒸馏框架,能够将多达50种不同效果LoRA的概念以及少步生成能力蒸馏到单个LoRA中。这从根本上解决了特征干扰问题,并显著降低了部署成本。具体来说,该方法引入了:(i) 概率双流路由机制,使模型在训练期间能够随机切换数据源,有效增强其在未见场景下的泛化能力;(ii) 非对称正交提示策略,以在提示空间内实现概念隔离;(iii) 由粗到精的蒸馏目标,以减小教师模型与学生模型之间的分布差距。大量评估表明,CollectionLoRA将所有定制化效果和少步生成蒸馏到单个LoRA中,在降低部署开销的同时,实现了与独立训练教师模型相当或更好的概念保真度。
查看原文
查看缓存全文

缓存时间: 2026/05/29 07:00

Paper page - CollectionLoRA: Collecting 50 Effects in 1 LoRA via Multi-Teacher On-Policy Distillation

来源:https://huggingface.co/papers/2605.25378

摘要

CollectionLoRA 通过多教师蒸馏和专门的概念隔离与生成机制,将大量 LoRA 蒸馏到单个模型中,从而实现多种定制化图像编辑效果的高效部署。

定制化图像编辑旨在利用有限的配对数据,为预训练的扩散模型(https://huggingface.co/papers?q=diffusion%20models)赋予特定的视觉效果,通常通过低秩适配(https://huggingface.co/papers?q=Low-Rank%20Adaptation)(LoRA(https://huggingface.co/papers?q=LoRA))来实现。随着所需效果数量的增加,存储和动态加载这些大量的效果 LoRA(https://huggingface.co/papers?q=LoRA)会显著增加部署开销。此外,当前的 pipeline 通常将这些效果 LoRA(https://huggingface.co/papers?q=LoRA)与加速模块级联以实现快速生成,这会引发严重的参数干扰(https://huggingface.co/papers?q=parameter%20interference),导致概念泄露(https://huggingface.co/papers?q=concept%20bleeding)和风格退化(https://huggingface.co/papers?q=style%20degradation)。我们提出 CollectionLoRA(https://huggingface.co/papers?q=LoRA),一个多教师在策略蒸馏(https://huggingface.co/papers?q=multi-teacher%20on-policy%20distillation)框架,能够将多达 50 种不同的效果 LoRA(https://huggingface.co/papers?q=LoRA)的概念以及少步生成能力蒸馏到单个 LoRA(https://huggingface.co/papers?q=LoRA)中。这从根本上解决了特征干扰问题,并显著降低了部署成本。具体来说,该方法引入了:(i) 概率双流路由(https://huggingface.co/papers?q=Probabilistic%20Dual-Stream%20Routing)机制,使模型在训练过程中能够随机切换数据源,有效增强其在未见场景中的泛化能力;(ii) 非对称正交提示(https://huggingface.co/papers?q=Asymmetric%20Orthogonal%20Prompting)策略,在提示空间中实现概念隔离(https://huggingface.co/papers?q=concept%20isolation);(iii) 粗到细蒸馏目标(https://huggingface.co/papers?q=Coarse-to-Fine%20Distillation%20Objective),以缓解教师模型与学生模型之间的分布差距。大量评估表明,CollectionLoRA(https://huggingface.co/papers?q=LoRA)将所有定制化效果和少步生成蒸馏到单个 LoRA(https://huggingface.co/papers?q=LoRA)中,降低了部署开销,同时实现了与独立训练教师模型相当或更好的概念保真度。

查看 arXiv 页面(https://arxiv.org/abs/2605.25378)查看 PDF(https://arxiv.org/pdf/2605.25378)项目页面(https://collectionlora.github.io/)GitHub5(https://github.com/Qwen-Applications/CollectionLoRA)添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2605.25378)

在你的 agent 中获取本文:

hf papers read 2605\.25378

没有最新的 CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用本论文的模型0

没有模型链接本论文

在模型 README.md 中引用 arxiv.org/abs/2605.25378 即可从本页链接。

引用本论文的数据集0

没有数据集链接本论文

在数据集 README.md 中引用 arxiv.org/abs/2605.25378 即可从本页链接。

引用本论文的 Spaces0

没有 Space 链接本论文

在 Space README.md 中引用 arxiv.org/abs/2605.25378 即可从本页链接。

包含本论文的收藏集0

没有收藏集包含本论文

将本论文添加到收藏集(https://huggingface.co/new-collection)即可从本页链接。

相似文章

OPRD:在策略表示蒸馏

Hugging Face Daily Papers

OPRD提出了一种新的知识蒸馏方法,该方法在策略部署期间跨层对齐学生和教师的隐藏状态,消除了来自词空间KL估计的采样方差。实验表明,OPRD在数学推理基准(AIME 2024/2025、AIMO)上优于输出空间基线,同时速度快1.44倍,内存使用减少54%。

Hybrid-LoRA:桥接全微调与低秩适应的后训练方法

arXiv cs.LG

Hybrid-LoRA提出了一种框架,选择性地对一小部分模块进行全微调,同时对其他模块使用LoRA,在显著降低计算成本的同时实现了接近全微调的性能。实验表明,与现有参数高效基线方法相比,性能提升高达5.65%。

同策略蒸馏(5分钟阅读)

TLDR AI

本文引入同策略蒸馏,通过在教师提供的token级KL正则化下,在学生自身轨迹上训练学生模型,解决训练-推理分布不匹配问题,统一了前向KL、反向KL和JSD损失,其中反向KL更适用于较小的学生模型。