CollectionLoRA: 通过多教师在线策略蒸馏将50种效果合并到单个LoRA中
摘要
CollectionLoRA提出了一种多教师在线策略蒸馏框架,可将多达50种不同效果的LoRA蒸馏到单个LoRA中,在降低部署开销的同时保持概念保真度。
查看缓存全文
缓存时间: 2026/05/29 07:00
Paper page - CollectionLoRA: Collecting 50 Effects in 1 LoRA via Multi-Teacher On-Policy Distillation
来源:https://huggingface.co/papers/2605.25378
摘要
CollectionLoRA 通过多教师蒸馏和专门的概念隔离与生成机制,将大量 LoRA 蒸馏到单个模型中,从而实现多种定制化图像编辑效果的高效部署。
定制化图像编辑旨在利用有限的配对数据,为预训练的扩散模型(https://huggingface.co/papers?q=diffusion%20models)赋予特定的视觉效果,通常通过低秩适配(https://huggingface.co/papers?q=Low-Rank%20Adaptation)(LoRA(https://huggingface.co/papers?q=LoRA))来实现。随着所需效果数量的增加,存储和动态加载这些大量的效果 LoRA(https://huggingface.co/papers?q=LoRA)会显著增加部署开销。此外,当前的 pipeline 通常将这些效果 LoRA(https://huggingface.co/papers?q=LoRA)与加速模块级联以实现快速生成,这会引发严重的参数干扰(https://huggingface.co/papers?q=parameter%20interference),导致概念泄露(https://huggingface.co/papers?q=concept%20bleeding)和风格退化(https://huggingface.co/papers?q=style%20degradation)。我们提出 CollectionLoRA(https://huggingface.co/papers?q=LoRA),一个多教师在策略蒸馏(https://huggingface.co/papers?q=multi-teacher%20on-policy%20distillation)框架,能够将多达 50 种不同的效果 LoRA(https://huggingface.co/papers?q=LoRA)的概念以及少步生成能力蒸馏到单个 LoRA(https://huggingface.co/papers?q=LoRA)中。这从根本上解决了特征干扰问题,并显著降低了部署成本。具体来说,该方法引入了:(i) 概率双流路由(https://huggingface.co/papers?q=Probabilistic%20Dual-Stream%20Routing)机制,使模型在训练过程中能够随机切换数据源,有效增强其在未见场景中的泛化能力;(ii) 非对称正交提示(https://huggingface.co/papers?q=Asymmetric%20Orthogonal%20Prompting)策略,在提示空间中实现概念隔离(https://huggingface.co/papers?q=concept%20isolation);(iii) 粗到细蒸馏目标(https://huggingface.co/papers?q=Coarse-to-Fine%20Distillation%20Objective),以缓解教师模型与学生模型之间的分布差距。大量评估表明,CollectionLoRA(https://huggingface.co/papers?q=LoRA)将所有定制化效果和少步生成蒸馏到单个 LoRA(https://huggingface.co/papers?q=LoRA)中,降低了部署开销,同时实现了与独立训练教师模型相当或更好的概念保真度。
查看 arXiv 页面(https://arxiv.org/abs/2605.25378)查看 PDF(https://arxiv.org/pdf/2605.25378)项目页面(https://collectionlora.github.io/)GitHub5(https://github.com/Qwen-Applications/CollectionLoRA)添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2605.25378)
在你的 agent 中获取本文:
hf papers read 2605\.25378
没有最新的 CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash
引用本论文的模型0
没有模型链接本论文
在模型 README.md 中引用 arxiv.org/abs/2605.25378 即可从本页链接。
引用本论文的数据集0
没有数据集链接本论文
在数据集 README.md 中引用 arxiv.org/abs/2605.25378 即可从本页链接。
引用本论文的 Spaces0
没有 Space 链接本论文
在 Space README.md 中引用 arxiv.org/abs/2605.25378 即可从本页链接。
包含本论文的收藏集0
没有收藏集包含本论文
将本论文添加到收藏集(https://huggingface.co/new-collection)即可从本页链接。
相似文章
OPRD:在策略表示蒸馏
OPRD提出了一种新的知识蒸馏方法,该方法在策略部署期间跨层对齐学生和教师的隐藏状态,消除了来自词空间KL估计的采样方差。实验表明,OPRD在数学推理基准(AIME 2024/2025、AIMO)上优于输出空间基线,同时速度快1.44倍,内存使用减少54%。
在线策略蒸馏的多重面貌:陷阱、机制与解决方案
本文对大语言模型的在线策略蒸馏进行了全面的实证研究,识别了分布不匹配和优化不稳定等故障机制,并提出了诸如停止梯度目标和针对 RLVR 改进的教师模型等解决方案。
Hybrid-LoRA:桥接全微调与低秩适应的后训练方法
Hybrid-LoRA提出了一种框架,选择性地对一小部分模块进行全微调,同时对其他模块使用LoRA,在显著降低计算成本的同时实现了接近全微调的性能。实验表明,与现有参数高效基线方法相比,性能提升高达5.65%。
同策略蒸馏(5分钟阅读)
本文引入同策略蒸馏,通过在教师提供的token级KL正则化下,在学生自身轨迹上训练学生模型,解决训练-推理分布不匹配问题,统一了前向KL、反向KL和JSD损失,其中反向KL更适用于较小的学生模型。
过滤后重加权:重新思考在线策略蒸馏中的优化粒度
介绍FiRe-OPD,一种用于大语言模型在线策略蒸馏的方法,它过滤低质量轨迹并应用软重加权来强调信息丰富的令牌,在强到弱、单教师和多教师设置中实现了改进的性能。